Wan-AI/Wan2.2-TI2V-5B-Diffusers

Wan-AI

Texto a video

Modelo generativo de video Wan2.2 TI2V de 5B parámetros en formato Diffusers. Está diseñado para generación híbrida texto-imagen-a-video: puede crear video desde texto o usar una imagen de entrada como condicionamiento. Usa Wan2.2-VAE de alta compresión con relación 16×16×4, genera video 720P a 24 fps y está pensado para ejecutarse en una sola GPU de consumo como RTX 4090, además de configuraciones multi-GPU.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Wan-AI/Wan2.2-TI2V-5B-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Para ejecutar el repositorio Wan2.2 localmente:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt

Descarga desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B

Inferencia texto-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"

Inferencia imagen-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Uso avanzado con WanPipeline en Diffusers:
import torch
import numpy as np
from diffusers import WanPipeline, AutoencoderKLWan, WanTransformer3DModel, UniPCMultistepScheduler
from diffusers.utils import export_to_video, load_image

dtype = torch.bfloat16
device = "cuda"
model_id = "Wan-AI/Wan2.2-TI2V-5B-Diffusers"

vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=dtype)
pipe.to(device)

height = 704
width = 1280
num_frames = 121
num_inference_steps = 50
guidance_scale = 5.0

prompt = "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
negative_prompt = "色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走"

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=height,
    width=width,
    num_frames=num_frames,
    guidance_scale=guidance_scale,
    num_inference_steps=num_inference_steps,
).frames[0]

export_to_video(output, "5bit2v_output.mp4", fps=24)

Para este modelo se recomienda instalar Diffusers desde la rama principal:
pip install git+https://github.com/huggingface/diffusers

Funcionalidades

Generación texto-a-video e imagen-a-video dentro de un marco TI2V unificado.
Modelo denso de 5B parámetros optimizado para despliegue más eficiente que las variantes MoE de 14B/A14B.
Soporte para salida 720P a 24 fps, con tamaños recomendados como 1280×704 o 704×1280.
Wan2.2-VAE de alta compresión con relación 16×16×4 para reducir coste computacional manteniendo reconstrucción de video de alta calidad.
Puede ejecutarse en una GPU con al menos 24 GB de VRAM usando offload y conversión de dtype; en GPUs de 80 GB se pueden retirar opciones de offload para acelerar.
Compatible con Diffusers, aunque requiere funciones disponibles en la rama principal de Diffusers y no solo en la última versión estable de PyPI.
Admite inferencia multi-GPU mediante FSDP y DeepSpeed Ulysses.
Entrenado como parte de Wan2.2, una actualización orientada a mejor estética cinematográfica, movimiento complejo y mayor generalización visual.

Casos de uso

Crear videos 720P a 24 fps a partir de prompts de texto con composición, movimiento y estilo cinematográfico controlables.
Animar una imagen de entrada mediante un prompt descriptivo, manteniendo el encuadre o la relación de aspecto de la imagen original.
Investigación académica en modelos de difusión para video, VAE de alta compresión y generación híbrida texto-imagen-a-video.
Prototipado de flujos creativos de video generativo en equipos con GPU de consumo de 24 GB o más.
Evaluación de pipelines Diffusers para generación de video de alta definición sin depender de proveedores de inferencia alojados.