hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v_distilled
hunyuanvideo-community
Texto a video
Modelo de texto a video de la familia HunyuanVideo 1.5, publicado para usarse con Diffusers. Esta variante destilada genera videos a 480p a partir de prompts de texto y utiliza HunyuanVideo15Pipeline con pesos Safetensors.
Como usar
Instalación básica:
pip install -U diffusers transformers accelerate
Uso con Diffusers:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v_distilled",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado con attention backend optimizado:
import torch
dtype = torch.bfloat16
device = "cuda:0"
from diffusers import HunyuanVideo15Pipeline, attention_backend
from diffusers.utils import export_to_video
pipe = HunyuanVideo15Pipeline.from_pretrained(
"hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v_distilled",
torch_dtype=dtype
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
generator = torch.Generator(device=device).manual_seed(seed)
with attention_backend("_flash_3_hub"):
# or `"flash_hub"` if you are not using H100/H800
video = pipe(
prompt=prompt,
generator=generator,
num_frames=121,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
Uso con attention backend por defecto:
import torch
dtype = torch.bfloat16
device = "cuda:0"
from diffusers import HunyuanVideo15Pipeline
from diffusers.utils import export_to_video
pipe = HunyuanVideo15Pipeline.from_pretrained(
"hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v_distilled",
torch_dtype=dtype
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
generator = torch.Generator(device=device).manual_seed(seed)
video = pipe(
prompt=prompt,
generator=generator,
num_frames=121,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
Funcionalidades
- Generación de video desde texto con la tarea Text-to-Video.
- Integración directa con Diffusers mediante HunyuanVideo15Pipeline.
- Variante destilada orientada a inferencia local.
- Soporte para bfloat16 y ejecución en CUDA.
- Recomendación de attention backends optimizados para secuencias de longitud variable y padding eficiente.
- Compatible con exportación a MP4 mediante export_to_video.
Casos de uso
- Crear clips de video a partir de descripciones textuales.
- Prototipar flujos locales de generación de video con Diffusers.
- Evaluar HunyuanVideo 1.5 en pipelines de investigación o experimentación creativa.
- Generar salidas MP4 de 121 fotogramas a 24 fps usando prompts personalizados.