hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v
hunyuanvideo-community
Texto a video
Modelo de texto a video de la familia HunyuanVideo 1.5 preparado para Diffusers, orientado a generar videos a 720p a partir de prompts de texto. La página indica soporte mediante `HunyuanVideo15Pipeline`, pesos en formato Safetensors y uso recomendado con `torch.bfloat16`, descarga desde Hugging Face y exportación del resultado a MP4.
Como usar
Instalación y ejemplo básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo recomendado con backend de atención optimizado:
import torch
dtype = torch.bfloat16
device = "cuda:0"
from diffusers import HunyuanVideo15Pipeline, attention_backend
from diffusers.utils import export_to_video
pipe = HunyuanVideo15Pipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", torch_dtype=dtype)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
generator = torch.Generator(device=device).manual_seed(seed)
with attention_backend("_flash_3_hub"): # or `"flash_hub"` if you are not on H100/H800
video = pipe(
prompt=prompt,
generator=generator,
num_frames=121,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
Inferencia con el backend de atención por defecto:
import torch
dtype = torch.bfloat16
device = "cuda:0"
from diffusers import HunyuanVideo15Pipeline
from diffusers.utils import export_to_video
pipe = HunyuanVideo15Pipeline.from_pretrained("hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-720p_t2v", torch_dtype=dtype)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()
generator = torch.Generator(device=device).manual_seed(seed)
video = pipe(
prompt=prompt,
generator=generator,
num_frames=121,
num_inference_steps=50,
).frames[0]
export_to_video(video, "output.mp4", fps=24)
Funcionalidades
- Generación de video a partir de texto con Diffusers.
- Pipeline específica `HunyuanVideo15Pipeline` para HunyuanVideo 1.5.
- Modelo publicado con formato Safetensors.
- Soporta inferencia local con CUDA y `torch.bfloat16`.
- Incluye recomendaciones para secuencias de longitud variable con máscaras de atención.
- Puede usar backends de atención optimizados como `_flash_3_hub` o `flash_hub`.
- Permite descarga de memoria con `enable_model_cpu_offload()` y tiling del VAE con `pipe.vae.enable_tiling()`.
- No aparece desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.
Casos de uso
- Crear clips de video a partir de descripciones textuales.
- Prototipar generación de video local con Diffusers.
- Evaluar HunyuanVideo 1.5 en flujos de trabajo con GPU CUDA.
- Generar videos MP4 de corta duración para pruebas creativas, demos o investigación.
- Comparar backends de atención optimizados frente al backend por defecto en generación de video.