Wan-AI/Wan2.1-T2V-14B-Diffusers

Wan-AI

Texto a video

Modelo abierto de generación de video a partir de texto de la familia Wan2.1, empaquetado para Diffusers. Es la variante T2V de 14B parámetros y está orientada a generar videos de alta calidad con movimiento dinámico significativo, soporte multilingüe en inglés y chino, y resoluciones de 480P y 720P.

Como usar

Instalación e inferencia básica con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Wan-AI/Wan2.1-T2V-14B-Diffusers", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado para video con Diffusers:
import torch
from diffusers import AutoencoderKLWan, WanPipeline
from diffusers.utils import export_to_video

# Available models: Wan-AI/Wan2.1-T2V-14B-Diffusers, Wan-AI/Wan2.1-T2V-1.3B-Diffusers
model_id = "Wan-AI/Wan2.1-T2V-14B-Diffusers"
vae = AutoencoderKLWan.from_pretrained(model_id, subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained(model_id, vae=vae, torch_dtype=torch.bfloat16)
pipe.to("cuda")

prompt = "A cat walks on the grass, realistic"
negative_prompt = "Bright tones, overexposed, static, blurred details, subtitles, style, works, paintings, images, static, overall gray, worst quality, low quality, JPEG compression residue, ugly, incomplete, extra fingers, poorly drawn hands, poorly drawn faces, deformed, disfigured, misshapen limbs, fused fingers, still picture, messy background, three legs, many people in the background, walking backwards"

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=480,
    width=832,
    num_frames=81,
    guidance_scale=5.0
).frames[0]
export_to_video(output, "output.mp4", fps=15)

Descarga de pesos:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B-Diffusers --local-dir ./Wan2.1-T2V-14B-Diffusers

Inferencia local desde el repositorio Wan2.1:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación texto-a-video con arquitectura Diffusion Transformer y Flow Matching.
Variante de 14B parámetros que el propio equipo presenta como referencia SOTA frente a modelos abiertos y cerrados en sus evaluaciones internas.
Soporta generación de video en 480P y 720P.
Capaz de generar texto visual en chino e inglés dentro de videos.
Incluye integración con Hugging Face Diffusers mediante WanPipeline y AutoencoderKLWan.
Usa Wan-VAE, un VAE causal 3D diseñado para compresión espacio-temporal eficiente y preservación de información temporal.
Admite inferencia en una GPU, descarga local de pesos, ejecución multi-GPU con FSDP + xDiT USP y extensión de prompts con Dashscope o modelos Qwen locales.
Licencia Apache 2.0.

Casos de uso

Crear clips de video desde prompts textuales detallados.
Prototipar pipelines locales de generación texto-a-video con Diffusers.
Generar escenas con movimiento marcado y composición visual compleja.
Producir videos que incluyan texto visual en chino o inglés.
Evaluar o ajustar flujos multi-GPU para modelos de video grandes.
Construir demos o interfaces Gradio locales para generación de video.