Wan-AI/Wan2.2-TI2V-5B-Diffusers
Modelo generativo de video Wan2.2 TI2V de 5B parámetros en formato Diffusers. Está diseñado para generación híbrida texto-imagen-a-video: puede crear video desde texto o usar una imagen de entrada como condicionamiento. Usa Wan2.2-VAE de alta compresión con relación 16×16×4, genera video 720P a 24 fps y está pensado para ejecutarse en una sola GPU de consumo como RTX 4090, además de configuraciones multi-GPU.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"Wan-AI/Wan2.2-TI2V-5B-Diffusers",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Para ejecutar el repositorio Wan2.2 localmente:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt
Descarga desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B
Inferencia texto-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"
Inferencia imagen-a-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
Uso avanzado con WanPipeline en Diffusers:
import torch
import numpy as np
from diffusers import WanPipeline, AutoencoderKLWan, WanTransformer3DModel, UniPCMultistepScheduler
from diffusers.utils import export_to_video, load_image
dtype = torch.bfloat16
device = "cuda"
model_id = "Wan-AI/Wan2.2-TI2V-5B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=dtype)
pipe.to(device)
height = 704
width = 1280
num_frames = 121
num_inference_steps = 50
guidance_scale = 5.0
prompt = "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
negative_prompt = "色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走"
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=height,
width=width,
num_frames=num_frames,
guidance_scale=guidance_scale,
num_inference_steps=num_inference_steps,
).frames[0]
export_to_video(output, "5bit2v_output.mp4", fps=24)
Para este modelo se recomienda instalar Diffusers desde la rama principal:
pip install git+https://github.com/huggingface/diffusers
Funcionalidades
- Generación texto-a-video e imagen-a-video dentro de un marco TI2V unificado.
- Modelo denso de 5B parámetros optimizado para despliegue más eficiente que las variantes MoE de 14B/A14B.
- Soporte para salida 720P a 24 fps, con tamaños recomendados como 1280×704 o 704×1280.
- Wan2.2-VAE de alta compresión con relación 16×16×4 para reducir coste computacional manteniendo reconstrucción de video de alta calidad.
- Puede ejecutarse en una GPU con al menos 24 GB de VRAM usando offload y conversión de dtype; en GPUs de 80 GB se pueden retirar opciones de offload para acelerar.
- Compatible con Diffusers, aunque requiere funciones disponibles en la rama principal de Diffusers y no solo en la última versión estable de PyPI.
- Admite inferencia multi-GPU mediante FSDP y DeepSpeed Ulysses.
- Entrenado como parte de Wan2.2, una actualización orientada a mejor estética cinematográfica, movimiento complejo y mayor generalización visual.
Casos de uso
- Crear videos 720P a 24 fps a partir de prompts de texto con composición, movimiento y estilo cinematográfico controlables.
- Animar una imagen de entrada mediante un prompt descriptivo, manteniendo el encuadre o la relación de aspecto de la imagen original.
- Investigación académica en modelos de difusión para video, VAE de alta compresión y generación híbrida texto-imagen-a-video.
- Prototipado de flujos creativos de video generativo en equipos con GPU de consumo de 24 GB o más.
- Evaluación de pipelines Diffusers para generación de video de alta definición sin depender de proveedores de inferencia alojados.