wan-community/Wan2.1-T2V-1.3B

wan-community

Texto a video

Wan2.1-T2V-1.3B es un modelo abierto de generación de video a partir de texto de la familia Wan2.1. Está orientado a crear clips de video 480P desde prompts textuales y destaca por funcionar en GPUs de consumo: el modelo requiere alrededor de 8.19 GB de VRAM y puede generar un video de 5 segundos en 480P en una RTX 4090 en unos 4 minutos sin optimizaciones como cuantización. Es una variante ligera de 1.3B parámetros pensada para equipos creativos y académicos con recursos de cómputo limitados.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("wan-community/Wan2.1-T2V-1.3B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Clonar el repositorio oficial e instalar dependencias:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descargar pesos desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Ejecutar generación texto-a-video en una GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Reducir memoria en caso de OOM:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Usar extensión de prompt con Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Usar extensión de prompt con un modelo Qwen local:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

Funcionalidades

Generación texto-a-video con arquitectura de difusión basada en Diffusion Transformer y Flow Matching.
Modelo de 1.3B parámetros compatible con casi todas las GPUs de consumo.
Soporte recomendado para video 480P; puede intentar 720P, pero con resultados menos estables por menor entrenamiento a esa resolución.
Generación visual de texto en chino e inglés dentro de videos.
Uso de Wan-VAE, un VAE causal 3D diseñado para compresión espacio-temporal eficiente y preservación temporal.
Integración con Diffusers, código de inferencia local, descarga por Hugging Face CLI o ModelScope, inferencia multi-GPU y demo Gradio.
Extensión opcional de prompts mediante Dashscope o modelos Qwen locales para enriquecer detalles y mejorar calidad.

Casos de uso

Crear clips cortos de video a partir de descripciones textuales en inglés o chino.
Prototipar ideas audiovisuales en equipos creativos sin requerir infraestructura de GPU empresarial.
Investigación académica en generación de video con modelos abiertos y recursos limitados.
Experimentar con prompts enriquecidos para mejorar detalle, composición y calidad de movimiento.
Construir flujos locales de generación de video con Diffusers, scripts de inferencia o Gradio.