hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v

hunyuanvideo-community

Texto a video

Modelo de texto a video de la familia HunyuanVideo 1.5 preparado para Diffusers, orientado a generar videos a 720p a partir de prompts de texto. La página indica soporte mediante `HunyuanVideo15Pipeline`, pesos en formato Safetensors y uso recomendado con `torch.bfloat16`, descarga desde Hugging Face y exportación del resultado a MP4.

Como usar

Instalación y ejemplo básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo recomendado con backend de atención optimizado:
import torch

dtype = torch.bfloat16
device = "cuda:0"

from diffusers import HunyuanVideo15Pipeline, attention_backend
from diffusers.utils import export_to_video

pipe = HunyuanVideo15Pipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", torch_dtype=dtype)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

generator = torch.Generator(device=device).manual_seed(seed)

with attention_backend("_flash_3_hub"): # or `"flash_hub"` if you are not on H100/H800
    video = pipe(
        prompt=prompt,
        generator=generator,
        num_frames=121,
        num_inference_steps=50,
    ).frames[0]

export_to_video(video, "output.mp4", fps=24)

Inferencia con el backend de atención por defecto:
import torch

dtype = torch.bfloat16
device = "cuda:0"

from diffusers import HunyuanVideo15Pipeline
from diffusers.utils import export_to_video

pipe = HunyuanVideo15Pipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", torch_dtype=dtype)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

generator = torch.Generator(device=device).manual_seed(seed)

video = pipe(
    prompt=prompt,
    generator=generator,
    num_frames=121,
    num_inference_steps=50,
).frames[0]

export_to_video(video, "output.mp4", fps=24)

Funcionalidades

Generación de video a partir de texto con Diffusers.
Pipeline específica `HunyuanVideo15Pipeline` para HunyuanVideo 1.5.
Modelo publicado con formato Safetensors.
Soporta inferencia local con CUDA y `torch.bfloat16`.
Incluye recomendaciones para secuencias de longitud variable con máscaras de atención.
Puede usar backends de atención optimizados como `_flash_3_hub` o `flash_hub`.
Permite descarga de memoria con `enable_model_cpu_offload()` y tiling del VAE con `pipe.vae.enable_tiling()`.
No aparece desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.

Casos de uso

Crear clips de video a partir de descripciones textuales.
Prototipar generación de video local con Diffusers.
Evaluar HunyuanVideo 1.5 en flujos de trabajo con GPU CUDA.
Generar videos MP4 de corta duración para pruebas creativas, demos o investigación.
Comparar backends de atención optimizados frente al backend por defecto en generación de video.