Wan-AI/Wan2.2-T2V-A14B-Diffusers
Modelo abierto de generación texto a vídeo de la familia Wan2.2, publicado en Hugging Face en formato Diffusers y Safetensors. Usa una arquitectura Mixture-of-Experts para difusión de vídeo: dos expertos especializados en distintas fases de eliminación de ruido permiten una capacidad total cercana a 27B parámetros con unos 14B parámetros activos por paso. Genera vídeos de 5 segundos a 480P y 720P, con énfasis en estética cinematográfica, movimiento complejo y control de iluminación, composición, contraste y tono de color. Está licenciado bajo Apache 2.0.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# Cambiar a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga del modelo para inferencia local:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
Inferencia texto a vídeo en una GPU:
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU con FSDP y DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Uso con Diffusers para exportar vídeo:
import torch
import numpy as np
from diffusers import WanPipeline, AutoencoderKLWan
from diffusers.utils import export_to_video, load_image
dtype = torch.bfloat16
device = "cuda:2"
vae = AutoencoderKLWan.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
subfolder="vae",
torch_dtype=torch.float32
)
pipe = WanPipeline.from_pretrained(
"Wan-AI/Wan2.2-T2V-A14B-Diffusers",
vae=vae,
torch_dtype=dtype
)
pipe.to(device)
height = 720
width = 1280
prompt = "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
negative_prompt = "色调艳丽,过曝,静态,细节模糊不清,字幕,风格,作品,画作,画面,静止,整体发灰,最差质量,低质量,JPEG压缩残留,丑陋的,残缺的,多余的手指,画得不好的手部,画得不好的脸部,畸形的,毁容的,形态畸形的肢体,手指融合,静止不动的画面,杂乱的背景,三条腿,背景人很多,倒着走"
output = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
height=height,
width=width,
num_frames=81,
guidance_scale=4.0,
guidance_scale_2=3.0,
num_inference_steps=40,
).frames[0]
export_to_video(output, "t2v_out.mp4", fps=16)
Nota: el modelo requiere funciones disponibles en la rama principal de Diffusers; si la versión estable de PyPI no funciona, instalar desde GitHub:
pip install git+https://github.com/huggingface/diffusers
Funcionalidades
- Generación texto a vídeo con soporte para resoluciones 480P y 720P.
- Arquitectura MoE aplicada al proceso de difusión de vídeo, con experto de alto ruido para composición global y experto de bajo ruido para detalles finos.
- Modelo T2V-A14B optimizado para calidad de vídeo y evaluado en Wan-Bench 2.0 frente a modelos comerciales líderes.
- Integración con Hugging Face Diffusers, además de inferencia local mediante el repositorio Wan2.2.
- Soporte para inferencia en una sola GPU de alta memoria y en múltiples GPU con PyTorch FSDP y DeepSpeed Ulysses.
- Extensión opcional de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad visual.
- Salida de vídeo exportable a MP4 mediante utilidades de Diffusers.
Casos de uso
- Crear vídeos cortos de 5 segundos a partir de descripciones de texto.
- Prototipar escenas cinematográficas con control de estética, iluminación, composición y tono de color.
- Generar material visual para investigación académica en modelos de vídeo generativo.
- Evaluar pipelines de inferencia de vídeo con Diffusers, FSDP y DeepSpeed Ulysses.
- Probar generación de vídeo 720P en entornos multi-GPU o en GPU de alta memoria con descarga de parámetros.