Wan-AI/Wan2.1-T2V-1.3B-Diffusers

Wan-AI

Texto a video

Modelo abierto de generación de video a partir de texto de la familia Wan2.1, empaquetado para Diffusers. Está diseñado como una variante ligera de 1.3B parámetros capaz de generar videos 480p con requisitos relativamente bajos de VRAM, orientada a equipos creativos y académicos que necesitan un modelo base de video utilizable en GPU de consumo.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "Wan-AI/Wan2.1-T2V-1.3B-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado con WanPipeline y exportación a video:
import torch
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.utils import export_to_video

model_id = "Wan-AI/Wan2.1-T2V-1.3B-Diffusers"

vae = AutoencoderKLWan.from_pretrained(
    model_id,
    subfolder="vae",
    torch_dtype=torch.float32
)
pipe = WanPipeline.from_pretrained(
    model_id,
    vae=vae,
    torch_dtype=torch.bfloat16
)
pipe.to("cuda")

prompt = "A cat walks on the grass, realistic"
negative_prompt = "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards"

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=480,
    width=832,
    num_frames=81,
    guidance_scale=5.0
).frames[0]

export_to_video(output, "output.mp4", fps=15)

Ejemplo de inferencia local desde el repositorio Wan2.1:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Para reducir uso de memoria en una RTX 4090 u otra GPU limitada:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación texto-a-video mediante arquitectura Diffusion Transformer con Flow Matching.
Modelo de 1.3B parámetros optimizado para uso en GPU de consumo; el repositorio indica 8.19 GB de VRAM para T2V-1.3B.
Compatible con Hugging Face Diffusers mediante WanPipeline y pesos Safetensors.
Soporta prompts en inglés y chino, con capacidad de generar texto visual en ambos idiomas.
Genera videos 480p de forma recomendada; 720p es posible pero menos estable por menor entrenamiento a esa resolución.
Incluye Wan-VAE, un VAE causal 3D para compresión espacio-temporal eficiente y preservación de información temporal.
Permite inferencia en una GPU, reducción de memoria con offload/T5 en CPU, e inferencia multi-GPU con FSDP y xDiT USP.
Admite extensión de prompts con Dashscope o modelos locales Qwen para enriquecer detalles y mejorar calidad visual.

Casos de uso

Crear clips cortos a partir de descripciones textuales para prototipos creativos, storyboards y exploración visual.
Generar videos 480p en equipos con GPU de consumo sin recurrir a modelos comerciales cerrados.
Investigar arquitecturas abiertas de generación de video basadas en Diffusion Transformers y VAE 3D.
Probar flujos de generación multilingüe con prompts en inglés o chino, incluyendo texto visual dentro del video.
Integrar generación texto-a-video en aplicaciones locales, notebooks, Gradio, ComfyUI o pipelines basados en Diffusers.