AaronHuangWei/Wan2.1-T2V-14B-NVFP4FakeQuant

AaronHuangWei

Texto a video

Versión cuantizada NVFP4 FakeQuant de Wan2.1-T2V-14B, un modelo de difusión para generación texto a video. Está orientado a crear videos de alta calidad desde prompts en lenguaje natural, con soporte para inglés y chino, movimiento dinámico significativo y generación a resoluciones 480P y 720P. El modelo base Wan2.1-T2V-14B se presenta como parte de la familia Wan2.1 de modelos generativos de video y usa una arquitectura Diffusion Transformer con VAE espaciotemporal.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "AaronHuangWei/Wan2.1-T2V-14B-NVFP4FakeQuant",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso del repositorio Wan2.1 para generación texto a video con el checkpoint T2V-14B:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descarga del modelo base desde Hugging Face:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia texto a video en una sola GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia con menor uso de memoria si hay errores OOM:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Inferencia con extensión de prompt usando Qwen local:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'ch'

Funcionalidades

Generación de video a partir de texto con la familia Wan2.1 T2V-14B.
Pesos en formato Safetensors y licencia Apache 2.0.
Compatibilidad indicada con Diffusers en Hugging Face.
Soporte de prompts en inglés y chino, incluyendo generación visual de texto en ambos idiomas según la tarjeta del modelo Wan2.1.
Admite generación de video en 480P y 720P para la variante T2V-14B.
Incluye opciones de inferencia local con GPU única, multi-GPU mediante FSDP + xDiT USP y extensión de prompts con Dashscope o modelos Qwen locales.
La variante publicada está etiquetada como NVFP4 FakeQuant, pensada para reducir precisión/coste respecto al modelo completo.

Casos de uso

Crear videos cortos a partir de descripciones textuales detalladas.
Prototipar flujos de generación texto a video en aplicaciones locales o notebooks.
Generar escenas con movimiento complejo y composición visual rica.
Evaluar inferencia de Wan2.1-T2V-14B en formatos cuantizados NVFP4 FakeQuant.
Crear videos con prompts en inglés o chino, incluyendo escenas que requieran texto visual generado.