Wan-AI/Wan2.2-T2V-A14B

Wan-AI

Texto a video

Modelo abierto de generación texto-a-video de la familia Wan2.2. Usa una arquitectura Mixture-of-Experts para producir videos de 5 segundos a 480P o 720P con alta calidad visual, control estético cinematográfico y mejor generación de movimiento frente a Wan2.1. El modelo tiene 27B parámetros totales con 14B activos por paso de inferencia.

Como usar

Instalación del repositorio:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

Instalar dependencias:
# Ensure torch >= 2.4.0
pip install -r requirements.txt

Descargar el modelo desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

Descargar el modelo desde ModelScope:
pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

Inferencia texto-a-video en una GPU:
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

El ejemplo de una sola GPU requiere al menos 80 GB de VRAM. Para reducir memoria se pueden usar --offload_model True, --convert_model_dtype y --t5_cpu.
Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'

Inferencia multi-GPU con extensión de prompt usando un modelo Qwen local o de Hugging Face:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'

Funcionalidades

Generación texto-a-video a partir de prompts en lenguaje natural.
Soporte para videos de 5 segundos en resoluciones 480P y 720P.
Arquitectura MoE con dos expertos de difusión: uno para etapas de alto ruido y otro para refinamiento de bajo ruido.
Aproximadamente 14B parámetros activos por paso, manteniendo el coste de inferencia cercano al de un modelo de 14B.
Entrenamiento ampliado respecto a Wan2.1, con más datos de imagen y video para mejorar movimiento, semántica y estética.
Datos estéticos curados con etiquetas de iluminación, composición, contraste y tono de color para estilos más cinematográficos.
Compatibilidad con inferencia multi-GPU mediante PyTorch FSDP y DeepSpeed Ulysses.
Puede usar extensión de prompt con Dashscope o modelos Qwen locales para enriquecer detalles del video generado.
Pesos publicados en formato Safetensors y licencia Apache 2.0.

Casos de uso

Crear clips cortos de video desde descripciones textuales.
Prototipar escenas cinematográficas con control de iluminación, composición, contraste y tono.
Investigación académica en modelos de difusión de video y arquitecturas Mixture-of-Experts.
Evaluar generación de movimiento complejo en videos sintéticos.
Producción experimental de contenido visual en 480P o 720P usando pesos abiertos.