Wan-AI/Wan2.1-T2V-1.3B

Wan-AI

Texto a video

Wan2.1-T2V-1.3B es un modelo abierto de generación de video a partir de texto de la familia Wan2.1. Está diseñado como una variante ligera de 1.3B parámetros para crear videos 480P en hardware de consumo, con soporte para prompts en inglés y chino y licencia Apache 2.0.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# Cambia a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga del modelo con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Inferencia texto-a-video local recomendada para 480P:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Para reducir uso de memoria en GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación texto-a-video con arquitectura Diffusion Transformer y Flow Matching.
Modelo de 1.3B parámetros optimizado para GPUs de consumo; requiere alrededor de 8.19 GB de VRAM.
Genera videos 480P de 5 segundos en una RTX 4090 en unos 4 minutos sin optimizaciones como cuantización.
Puede intentar 720P, aunque los autores recomiendan 480P porque el entrenamiento a 720P fue más limitado y los resultados son menos estables.
Soporta generación de texto visual en chino e inglés dentro de videos.
Usa Wan-VAE, un VAE causal 3D orientado a video, para compresión espacio-temporal eficiente y preservación temporal.
Compatible con Diffusers, safetensors, Hugging Face CLI, ModelScope, inferencia local, FSDP/xDiT para multi-GPU y demos Gradio.

Casos de uso

Crear videos cortos desde descripciones textuales en equipos con GPU de consumo.
Prototipar flujos creativos de texto-a-video sin depender de modelos cerrados.
Generar material visual 480P para investigación académica, pruebas de producto, demos y herramientas creativas.
Experimentar con extensión de prompts mediante Dashscope o modelos Qwen locales para mejorar detalle y calidad.
Ejecutar inferencia local o multi-GPU para comparar eficiencia, calidad y configuraciones de generación de video.