AaronHuangWei/Wan2.1-T2V-14B-MXFP4FakeQuant

AaronHuangWei

Texto a video

Modelo de generación de vídeo a partir de texto basado en Wan2.1 T2V-14B, una variante de 14 mil millones de parámetros orientada a crear vídeos de alta calidad con movimiento significativo. Esta página corresponde a una versión MXFP4 FakeQuant empaquetada para Diffusers/Safetensors. Wan2.1 destaca por soportar prompts en inglés y chino, generación de texto visual en ambos idiomas y salida de vídeo en 480P y 720P para el modelo T2V-14B.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "AaronHuangWei/Wan2.1-T2V-14B-MXFP4FakeQuant",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso del repositorio Wan2.1 para generación texto-a-vídeo:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descarga del modelo base T2V-14B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia single-GPU a 720P:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación de vídeo desde texto con arquitectura de difusión tipo Diffusion Transformer.
Modelo T2V-14B con soporte para resoluciones 480P y 720P.
Capacidad de generar texto visual en chino e inglés dentro de los vídeos.
Compatible con Diffusers y pesos en formato Safetensors.
Licencia Apache 2.0.
Admite ejecución local mediante scripts de Wan2.1, inferencia multi-GPU con FSDP + xDiT USP y demos Gradio.
Puede usar extensión de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad del vídeo.

Casos de uso

Crear vídeos cortos desde descripciones textuales detalladas.
Probar generación de vídeo multilingüe con prompts en inglés o chino.
Evaluar el modelo Wan2.1 T2V-14B en flujos locales de Diffusers o scripts Wan2.1.
Generar demos de vídeo a 480P o 720P para investigación, prototipos creativos y comparación con otros modelos de vídeo generativo.
Experimentar con cuantización/optimización de memoria mediante una variante MXFP4 FakeQuant.