Wan-AI/Wan2.1-T2V-14B
Wan2.1-T2V-14B es un modelo fundacional abierto de generación de vídeo a partir de texto de la familia Wan2.1. Está orientado a crear vídeos de alta calidad con movimiento dinámico significativo, admite resoluciones 480P y 720P, y destaca por su capacidad de generar texto visual tanto en chino como en inglés dentro de los vídeos. El repositorio indica licencia Apache 2.0 y pesos en formato Safetensors, con integración en Diffusers y soporte para ejecución local o multi-GPU.
Como usar
Instalación con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Wan-AI/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Instalación del repositorio oficial:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
# Ensure torch >= 2.4.0
pip install -r requirements.txt
Descarga desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Descarga desde ModelScope:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B
Inferencia text-to-video en una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Uso con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
Uso con extensión de prompt mediante Qwen local:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
Demo local con Gradio:
cd gradio
# if one uses dashscope’s API for prompt extension
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B
# if one uses a local model for prompt extension
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
Funcionalidades
- Generación de vídeo desde prompts de texto.
- Modelo de 14B parámetros basado en Diffusion Transformer con Flow Matching.
- Soporta generación en 480P y 720P.
- Capaz de generar texto visual en chino e inglés dentro de las escenas.
- Usa un codificador de texto T5 multilingüe y atención cruzada en los bloques transformer.
- Incluye Wan-VAE, un VAE causal 3D diseñado para compresión espaciotemporal eficiente en vídeo.
- Puede ejecutarse con inferencia de una GPU, descarga local de checkpoints o inferencia multi-GPU con FSDP y xDiT USP.
- Admite extensión de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad del vídeo.
Casos de uso
- Creación de vídeos cortos a partir de descripciones textuales detalladas.
- Generación de escenas cinematográficas en 480P o 720P con movimiento complejo.
- Prototipado de contenido audiovisual con prompts en inglés o chino.
- Investigación y comparación de modelos abiertos de text-to-video frente a soluciones cerradas.
- Integración en flujos locales de generación de vídeo mediante Diffusers, scripts propios o Gradio.
- Experimentación con extensión automática de prompts para mejorar detalle, composición y calidad visual.