Wan-AI/Wan2.2-TI2V-5B

Wan-AI
Texto a video

Modelo generativo de video Wan2.2 de 5B parámetros para generación text-to-video e image-to-video en un marco TI2V unificado. Usa Wan2.2-VAE de alta compresión con ratio 16x16x4, soporta generación 720P a 24 fps y puede ejecutarse en una sola GPU de consumo como RTX 4090 con al menos 24 GB de VRAM usando descarga de modelo y offloading.

Como usar

Instalación y descarga:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt

Descarga desde Hugging Face:

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B

Descarga desde ModelScope:

pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B

Inferencia text-to-video en una GPU:

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"

Inferencia image-to-video en una GPU:

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:

torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

Notas operativas: si se incluye el parámetro --image, la tarea funciona como image-to-video; sin imagen, usa text-to-video. En GPUs de 80 GB o más se pueden retirar --offload_model True, --convert_model_dtype y --t5_cpu para acelerar la ejecución.

Funcionalidades

Generación de video desde texto y desde imagen más texto con el mismo checkpoint TI2V-5B.
Soporte para video 720P a 24 fps; para TI2V se indican resoluciones 1280x704 o 704x1280.
Wan2.2-VAE de alta compresión con ratio 16x16x4, pensado para reducir coste computacional manteniendo calidad de reconstrucción.
Modelo denso de 5B parámetros orientado a despliegue eficiente, a diferencia de los modelos Wan2.2 A14B basados en MoE.
Puede generar un video 720P de 5 segundos en menos de 9 minutos en una GPU de consumo, según la tarjeta del modelo.
Compatible con inferencia multi-GPU mediante FSDP y DeepSpeed Ulysses.
Pesos Safetensors, licencia Apache 2.0 y etiquetas Hugging Face para Diffusers/Wan2.2.
Entrenado dentro de la familia Wan2.2 con mejoras en movimiento complejo, estética cinematográfica y generalización frente a Wan2.1.

Casos de uso

Crear videos 720P a partir de prompts textuales con estética cinematográfica controlable.
Animar una imagen de entrada siguiendo una descripción textual detallada.
Prototipar flujos de generación de video para investigación académica sin depender de APIs cerradas.
Evaluar modelos abiertos de generación de video 720P@24fps en hardware de consumo o en configuraciones multi-GPU.
Integrar generación TI2V en pipelines locales, notebooks, demos de Hugging Face Spaces o herramientas como ComfyUI/Diffusers cuando haya integración disponible.