AaronHuangWei/Wan2.1-T2V-14B-INT8FakeQuant_pertensor

AaronHuangWei

Texto a video

Versión INT8 FakeQuant per-tensor del modelo Wan2.1 T2V-14B para generación de video a partir de texto. Está basado en la familia Wan2.1, una suite abierta de modelos generativos de video con arquitectura Diffusion Transformer y Wan-VAE. El modelo T2V-14B está orientado a crear videos con alta calidad visual, movimiento dinámico y soporte para texto en chino e inglés, con generación en resoluciones 480P y 720P.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# cambiar a "mps" para dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "AaronHuangWei/Wan2.1-T2V-14B-INT8FakeQuant_pertensor",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso local del repositorio Wan2.1 para texto-a-video:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descarga del modelo base T2V-14B:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia en una GPU:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación texto-a-video con el modelo Wan2.1 T2V-14B.
Cuantización INT8 FakeQuant per-tensor para reducir coste de inferencia frente al modelo base.
Integración con Diffusers y pesos en formato Safetensors.
Soporta prompts en inglés y chino, incluyendo generación visual de texto en ambos idiomas.
Puede generar videos en 480P y 720P en la variante T2V-14B.
Incluye rutas de uso local con GPU única, multi-GPU mediante FSDP + xDiT USP y extensión opcional de prompts con Dashscope o Qwen local.

Casos de uso

Crear videos cortos a partir de descripciones textuales detalladas.
Probar una variante cuantizada INT8 de Wan2.1 T2V-14B para reducir requisitos de memoria o acelerar experimentos.
Generar clips en 480P o 720P para prototipos creativos, demos y flujos de investigación audiovisual.
Evaluar generación de texto visual dentro de videos en chino e inglés.
Ejecutar pipelines locales de texto-a-video con Diffusers, Gradio o scripts Wan2.1.