AaronHuangWei/Wan2.1-T2V-14B-MXFP4FakeQuant
AaronHuangWei
Texto a video
Modelo de generación de vídeo a partir de texto basado en Wan2.1 T2V-14B, una variante de 14 mil millones de parámetros orientada a crear vídeos de alta calidad con movimiento significativo. Esta página corresponde a una versión MXFP4 FakeQuant empaquetada para Diffusers/Safetensors. Wan2.1 destaca por soportar prompts en inglés y chino, generación de texto visual en ambos idiomas y salida de vídeo en 480P y 720P para el modelo T2V-14B.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"AaronHuangWei/Wan2.1-T2V-14B-MXFP4FakeQuant",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso del repositorio Wan2.1 para generación texto-a-vídeo:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
Descarga del modelo base T2V-14B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Inferencia single-GPU a 720P:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Funcionalidades
- Generación de vídeo desde texto con arquitectura de difusión tipo Diffusion Transformer.
- Modelo T2V-14B con soporte para resoluciones 480P y 720P.
- Capacidad de generar texto visual en chino e inglés dentro de los vídeos.
- Compatible con Diffusers y pesos en formato Safetensors.
- Licencia Apache 2.0.
- Admite ejecución local mediante scripts de Wan2.1, inferencia multi-GPU con FSDP + xDiT USP y demos Gradio.
- Puede usar extensión de prompts con Dashscope o modelos Qwen locales para enriquecer detalles y mejorar la calidad del vídeo.
Casos de uso
- Crear vídeos cortos desde descripciones textuales detalladas.
- Probar generación de vídeo multilingüe con prompts en inglés o chino.
- Evaluar el modelo Wan2.1 T2V-14B en flujos locales de Diffusers o scripts Wan2.1.
- Generar demos de vídeo a 480P o 720P para investigación, prototipos creativos y comparación con otros modelos de vídeo generativo.
- Experimentar con cuantización/optimización de memoria mediante una variante MXFP4 FakeQuant.