Wan-AI/Wan2.2-TI2V-5B
Modelo generativo de video Wan2.2 de 5B parámetros para generación text-to-video e image-to-video en un marco TI2V unificado. Usa Wan2.2-VAE de alta compresión con ratio 16x16x4, soporta generación 720P a 24 fps y puede ejecutarse en una sola GPU de consumo como RTX 4090 con al menos 24 GB de VRAM usando descarga de modelo y offloading.
Como usar
Instalación y descarga:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt
Descarga desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-TI2V-5B --local-dir ./Wan2.2-TI2V-5B
Descarga desde ModelScope:
pip install modelscope
modelscope download Wan-AI/Wan2.2-TI2V-5B --local_dir ./Wan2.2-TI2V-5B
Inferencia text-to-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"
Inferencia image-to-video en una GPU:
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
Notas operativas: si se incluye el parámetro --image, la tarea funciona como image-to-video; sin imagen, usa text-to-video. En GPUs de 80 GB o más se pueden retirar --offload_model True, --convert_model_dtype y --t5_cpu para acelerar la ejecución.
Funcionalidades
- Generación de video desde texto y desde imagen más texto con el mismo checkpoint TI2V-5B.
- Soporte para video 720P a 24 fps; para TI2V se indican resoluciones 1280x704 o 704x1280.
- Wan2.2-VAE de alta compresión con ratio 16x16x4, pensado para reducir coste computacional manteniendo calidad de reconstrucción.
- Modelo denso de 5B parámetros orientado a despliegue eficiente, a diferencia de los modelos Wan2.2 A14B basados en MoE.
- Puede generar un video 720P de 5 segundos en menos de 9 minutos en una GPU de consumo, según la tarjeta del modelo.
- Compatible con inferencia multi-GPU mediante FSDP y DeepSpeed Ulysses.
- Pesos Safetensors, licencia Apache 2.0 y etiquetas Hugging Face para Diffusers/Wan2.2.
- Entrenado dentro de la familia Wan2.2 con mejoras en movimiento complejo, estética cinematográfica y generalización frente a Wan2.1.
Casos de uso
- Crear videos 720P a partir de prompts textuales con estética cinematográfica controlable.
- Animar una imagen de entrada siguiendo una descripción textual detallada.
- Prototipar flujos de generación de video para investigación académica sin depender de APIs cerradas.
- Evaluar modelos abiertos de generación de video 720P@24fps en hardware de consumo o en configuraciones multi-GPU.
- Integrar generación TI2V en pipelines locales, notebooks, demos de Hugging Face Spaces o herramientas como ComfyUI/Diffusers cuando haya integración disponible.