hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v

hunyuanvideo-community

Texto a video

Modelo de texto a video de la familia HunyuanVideo 1.5, empaquetado para Diffusers y orientado a generar videos de 480p a partir de prompts de texto. Usa HunyuanVideo15Pipeline, pesos Safetensors y admite ejecución local con PyTorch, descarga desde Hugging Face y optimizaciones de memoria como CPU offload y tiling del VAE.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con backend de atención optimizado:
import torch

dtype = torch.bfloat16
device = "cuda:0"

from diffusers import HunyuanVideo15Pipeline, attention_backend
from diffusers.utils import export_to_video

pipe = HunyuanVideo15Pipeline.from_pretrained(
    "hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v",
    torch_dtype=dtype
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

generator = torch.Generator(device=device).manual_seed(seed)

with attention_backend("_flash_3_hub"):  # or '"flash_hub"' if you are not using H100/H800
    video = pipe(
        prompt=prompt,
        generator=generator,
        num_frames=121,
        num_inference_steps=50,
    ).frames[0]

export_to_video(video, "output.mp4", fps=24)

Inferencia con el backend de atención por defecto:
import torch

dtype = torch.bfloat16
device = "cuda:0"

from diffusers import HunyuanVideo15Pipeline
from diffusers.utils import export_to_video

pipe = HunyuanVideo15Pipeline.from_pretrained(
    "hunyuanvideo-community/HunyuanVideo-1.5-Diffusers-480p_t2v",
    torch_dtype=dtype
)
pipe.enable_model_cpu_offload()
pipe.vae.enable_tiling()

generator = torch.Generator(device=device).manual_seed(seed)

video = pipe(
    prompt=prompt,
    generator=generator,
    num_frames=121,
    num_inference_steps=50,
).frames[0]

export_to_video(video, "output.mp4", fps=24)

Funcionalidades

Generación de video desde texto con Diffusers.
Pipeline específico HunyuanVideo15Pipeline para HunyuanVideo 1.5.
Salida de video exportable a MP4, por ejemplo a 24 fps.
Soporte para secuencias de longitud variable mediante máscaras de atención.
Recomendación de backends de atención eficientes para padding, incluido kernels y flash attention en hardware compatible.
Optimizaciones locales: bfloat16, device CUDA, model CPU offload y VAE tiling.
Pesos en formato Safetensors.
No está desplegado en proveedores de inferencia de Hugging Face en la página indicada.

Casos de uso

Crear clips de video de 480p a partir de descripciones textuales.
Prototipar flujos locales de generación texto-a-video con Diffusers.
Evaluar HunyuanVideo 1.5 en entornos CUDA con optimizaciones de memoria.
Generar videos reproducibles usando semillas de PyTorch y parámetros controlados como número de frames y pasos de inferencia.
Experimentar con backends de atención para mejorar rendimiento en secuencias variables.