AaronHuangWei/Wan2.1-T2V-14B-NVFP4Fake_layer_4o6_search_n100_s0.001_p2.4

AaronHuangWei

Texto a video

Variante NVFP4 del modelo Wan2.1 T2V de 14B para generación de video a partir de texto. Está basado en la familia Wan2.1, un conjunto abierto de modelos fundacionales de video que usa arquitectura Diffusion Transformer con Flow Matching, codificador T5 multilingüe y Wan-VAE para compresión espaciotemporal eficiente. El modelo T2V-14B está orientado a generar videos de alta calidad con movimiento dinámico, admite prompts en inglés y chino, y soporta salidas a 480P y 720P.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("AaronHuangWei/Wan2.1-T2V-14B-NVFP4Fake_layer_4o6_search_n100_s0.001_p2.4", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio Wan2.1 para generación texto-a-video:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descarga del modelo base T2V-14B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia de una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU con FSDP + xDiT USP:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Con extensión de prompts mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Funcionalidades

Generación de video desde texto con el modelo Wan2.1 T2V-14B.
Compatibilidad con Diffusers y pesos en formato Safetensors.
Soporte para prompts en inglés y chino, incluyendo generación visual de texto en ambos idiomas según la tarjeta del modelo base.
Resoluciones soportadas por la familia T2V-14B: 480P y 720P.
Licencia Apache 2.0.
Puede ejecutarse con inferencia de una GPU o multi-GPU usando FSDP y xDiT USP en el repositorio Wan2.1.
Incluye opciones de reducción de memoria como offload del modelo y ejecución de T5 en CPU.
Soporta extensión de prompts con Dashscope o modelos Qwen locales para enriquecer detalles del video.

Casos de uso

Crear videos cortos desde descripciones textuales detalladas.
Prototipar escenas cinematográficas o animadas con movimiento dinámico.
Generar contenido visual con texto en chino o inglés integrado en la escena.
Evaluar variantes cuantizadas o experimentales de Wan2.1 T2V-14B en flujos Diffusers.
Investigar inferencia texto-a-video en configuraciones de una GPU, multi-GPU o con optimizaciones de memoria.