Wan-AI/Wan2.2-T2V-A14B-Diffusers

Wan-AI

Texto a video

Modelo abierto de generación texto a vídeo de la familia Wan2.2, publicado en Hugging Face en formato Diffusers y Safetensors. Usa una arquitectura Mixture-of-Experts para difusión de vídeo: dos expertos especializados en distintas fases de eliminación de ruido permiten una capacidad total cercana a 27B parámetros con unos 14B parámetros activos por paso. Genera vídeos de 5 segundos a 480P y 720P, con énfasis en estética cinematográfica, movimiento complejo y control de iluminación, composición, contraste y tono de color. Está licenciado bajo Apache 2.0.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# Cambiar a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga del modelo para inferencia local:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

Inferencia texto a vídeo en una GPU:
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Uso con Diffusers para exportar vídeo:
import torch
import numpy as np
from diffusers import WanPipeline, AutoencoderKLWan
from diffusers.utils import export_to_video, load_image

dtype = torch.bfloat16
device = "cuda:2"

vae = AutoencoderKLWan.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    subfolder="vae",
    torch_dtype=torch.float32
)
pipe = WanPipeline.from_pretrained(
    "Wan-AI/Wan2.2-T2V-A14B-Diffusers",
    vae=vae,
    torch_dtype=dtype
)
pipe.to(device)

height = 720
width = 1280
prompt = "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
negative_prompt = "色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走"

output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=height,
    width=width,
    num_frames=81,
    guidance_scale=4.0,
    guidance_scale_2=3.0,
    num_inference_steps=40,
).frames[0]

export_to_video(output, "t2v_out.mp4", fps=16)

Nota: el modelo requiere funciones disponibles en la rama principal de Diffusers; si la versión estable de PyPI no funciona, instalar desde GitHub:
pip install git+https://github.com/huggingface/diffusers

Funcionalidades

Generación texto a vídeo con soporte para resoluciones 480P y 720P.
Arquitectura MoE aplicada al proceso de difusión de vídeo, con experto de alto ruido para composición global y experto de bajo ruido para detalles finos.
Modelo T2V-A14B optimizado para calidad de vídeo y evaluado en Wan-Bench 2.0 frente a modelos comerciales líderes.
Integración con Hugging Face Diffusers, además de inferencia local mediante el repositorio Wan2.2.
Soporte para inferencia en una sola GPU de alta memoria y en múltiples GPU con PyTorch FSDP y DeepSpeed Ulysses.
Extensión opcional de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad visual.
Salida de vídeo exportable a MP4 mediante utilidades de Diffusers.

Casos de uso

Crear vídeos cortos de 5 segundos a partir de descripciones de texto.
Prototipar escenas cinematográficas con control de estética, iluminación, composición y tono de color.
Generar material visual para investigación académica en modelos de vídeo generativo.
Evaluar pipelines de inferencia de vídeo con Diffusers, FSDP y DeepSpeed Ulysses.
Probar generación de vídeo 720P en entornos multi-GPU o en GPU de alta memoria con descarga de parámetros.