AaronHuangWei/Wan2.1-T2V-14B-INT8FakeQuant_pertensor
AaronHuangWei
Texto a video
Versión INT8 FakeQuant per-tensor del modelo Wan2.1 T2V-14B para generación de video a partir de texto. Está basado en la familia Wan2.1, una suite abierta de modelos generativos de video con arquitectura Diffusion Transformer y Wan-VAE. El modelo T2V-14B está orientado a crear videos con alta calidad visual, movimiento dinámico y soporte para texto en chino e inglés, con generación en resoluciones 480P y 720P.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# cambiar a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
"AaronHuangWei/Wan2.1-T2V-14B-INT8FakeQuant_pertensor",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso local del repositorio Wan2.1 para texto-a-video:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
Descarga del modelo base T2V-14B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Inferencia en una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Funcionalidades
- Generación texto-a-video con el modelo Wan2.1 T2V-14B.
- Cuantización INT8 FakeQuant per-tensor para reducir coste de inferencia frente al modelo base.
- Integración con Diffusers y pesos en formato Safetensors.
- Soporta prompts en inglés y chino, incluyendo generación visual de texto en ambos idiomas.
- Puede generar videos en 480P y 720P en la variante T2V-14B.
- Incluye rutas de uso local con GPU única, multi-GPU mediante FSDP + xDiT USP y extensión opcional de prompts con Dashscope o Qwen local.
Casos de uso
- Crear videos cortos a partir de descripciones textuales detalladas.
- Probar una variante cuantizada INT8 de Wan2.1 T2V-14B para reducir requisitos de memoria o acelerar experimentos.
- Generar clips en 480P o 720P para prototipos creativos, demos y flujos de investigación audiovisual.
- Evaluar generación de texto visual dentro de videos en chino e inglés.
- Ejecutar pipelines locales de texto-a-video con Diffusers, Gradio o scripts Wan2.1.