wan-community/Wan2.1-T2V-14B

wan-community

Texto a video

Wan2.1-T2V-14B es un modelo abierto de generación de video a partir de texto de la familia Wan2.1. Está orientado a producir videos de alta calidad con movimiento dinámico, admite resoluciones 480P y 720P, y destaca por su capacidad de generar texto visual tanto en chino como en inglés dentro de los videos. El repositorio de Hugging Face es una duplicación comunitaria no oficial del modelo Wan-AI/Wan2.1-T2V-14B.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wan-community/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga del modelo con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia texto-a-video en una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Uso con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Uso con extensión local mediante Qwen:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

Funcionalidades

Generación texto-a-video con arquitectura de difusión basada en Diffusion Transformer y Flow Matching.
Modelo de 14B parámetros diseñado para resultados visuales de alta calidad y movimiento significativo.
Soporte para salida de video en 480P y 720P.
Capacidad declarada para generar texto visual en chino e inglés.
Uso de Wan-VAE, un VAE causal 3D para compresión espacio-temporal eficiente en video.
Compatible con Diffusers, safetensors, ejecución local y flujos multi-GPU con FSDP + xDiT USP.
Licencia Apache 2.0.

Casos de uso

Crear videos a partir de descripciones textuales detalladas.
Generar escenas con movimiento complejo y composición cinematográfica.
Producir clips en 480P o 720P para pruebas, demos creativas o prototipos audiovisuales.
Experimentar con generación de texto visual en chino o inglés dentro de escenas de video.
Investigar modelos fundacionales abiertos de video generativo y compararlos con sistemas comerciales o cerrados.
Ejecutar inferencia local o multi-GPU para flujos avanzados de generación de video.