Wan-AI/Wan2.1-T2V-14B

Wan-AI

Texto a video

Wan2.1-T2V-14B es un modelo fundacional abierto de generación de vídeo a partir de texto de la familia Wan2.1. Está orientado a crear vídeos de alta calidad con movimiento dinámico significativo, admite resoluciones 480P y 720P, y destaca por su capacidad de generar texto visual tanto en chino como en inglés dentro de los vídeos. El repositorio indica licencia Apache 2.0 y pesos en formato Safetensors, con integración en Diffusers y soporte para ejecución local o multi-GPU.

Como usar

Instalación con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Wan-AI/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Instalación del repositorio oficial:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

# Ensure torch >= 2.4.0
pip install -r requirements.txt

Descarga desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Descarga desde ModelScope:
pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-14B --local_dir ./Wan2.1-T2V-14B

Inferencia text-to-video en una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Uso con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Uso con extensión de prompt mediante Qwen local:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

Demo local con Gradio:
cd gradio
# if one uses dashscope’s API for prompt extension
DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B
# if one uses a local model for prompt extension
python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B

Funcionalidades

Generación de vídeo desde prompts de texto.
Modelo de 14B parámetros basado en Diffusion Transformer con Flow Matching.
Soporta generación en 480P y 720P.
Capaz de generar texto visual en chino e inglés dentro de las escenas.
Usa un codificador de texto T5 multilingüe y atención cruzada en los bloques transformer.
Incluye Wan-VAE, un VAE causal 3D diseñado para compresión espaciotemporal eficiente en vídeo.
Puede ejecutarse con inferencia de una GPU, descarga local de checkpoints o inferencia multi-GPU con FSDP y xDiT USP.
Admite extensión de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad del vídeo.

Casos de uso

Creación de vídeos cortos a partir de descripciones textuales detalladas.
Generación de escenas cinematográficas en 480P o 720P con movimiento complejo.
Prototipado de contenido audiovisual con prompts en inglés o chino.
Investigación y comparación de modelos abiertos de text-to-video frente a soluciones cerradas.
Integración en flujos locales de generación de vídeo mediante Diffusers, scripts propios o Gradio.
Experimentación con extensión automática de prompts para mejorar detalle, composición y calidad visual.