AaronHuangWei/Wan2.1-T2V-14B-NVFP4FakeQuant
Versión cuantizada NVFP4 FakeQuant de Wan2.1-T2V-14B, un modelo de difusión para generación texto a video. Está orientado a crear videos de alta calidad desde prompts en lenguaje natural, con soporte para inglés y chino, movimiento dinámico significativo y generación a resoluciones 480P y 720P. El modelo base Wan2.1-T2V-14B se presenta como parte de la familia Wan2.1 de modelos generativos de video y usa una arquitectura Diffusion Transformer con VAE espaciotemporal.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"AaronHuangWei/Wan2.1-T2V-14B-NVFP4FakeQuant",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso del repositorio Wan2.1 para generación texto a video con el checkpoint T2V-14B:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
Descarga del modelo base desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Inferencia texto a video en una sola GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia con menor uso de memoria si hay errores OOM:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
Inferencia con extensión de prompt usando Qwen local:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'
Funcionalidades
- Generación de video a partir de texto con la familia Wan2.1 T2V-14B.
- Pesos en formato Safetensors y licencia Apache 2.0.
- Compatibilidad indicada con Diffusers en Hugging Face.
- Soporte de prompts en inglés y chino, incluyendo generación visual de texto en ambos idiomas según la tarjeta del modelo Wan2.1.
- Admite generación de video en 480P y 720P para la variante T2V-14B.
- Incluye opciones de inferencia local con GPU única, multi-GPU mediante FSDP + xDiT USP y extensión de prompts con Dashscope o modelos Qwen locales.
- La variante publicada está etiquetada como NVFP4 FakeQuant, pensada para reducir precisión/coste respecto al modelo completo.
Casos de uso
- Crear videos cortos a partir de descripciones textuales detalladas.
- Prototipar flujos de generación texto a video en aplicaciones locales o notebooks.
- Generar escenas con movimiento complejo y composición visual rica.
- Evaluar inferencia de Wan2.1-T2V-14B en formatos cuantizados NVFP4 FakeQuant.
- Crear videos con prompts en inglés o chino, incluyendo escenas que requieran texto visual generado.