ayoub1222/Wan2.1-T2V-14B
ayoub1222
Texto a video
Modelo Wan2.1 de texto a video con 14B parámetros, duplicado de Wan-AI/Wan2.1-T2V-14B. Está orientado a generar videos de alta calidad a partir de prompts en texto, con movimiento dinámico, soporte para resoluciones 480P y 720P, y capacidad destacada para producir texto visual en chino e inglés dentro de los videos.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ayoub1222/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga del checkpoint original:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B
Inferencia texto-a-video a 720P:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Funcionalidades
- Generación texto-a-video con arquitectura Diffusion Transformer y Flow Matching.
- Modelo T2V-14B compatible con salida en 480P y 720P.
- Usa Wan-VAE, un VAE causal 3D diseñado para comprimir video espacio-temporalmente y preservar información temporal.
- Codifica entrada textual multilingüe mediante T5 Encoder y cross-attention en los bloques transformer.
- Capaz de generar texto visual en chino e inglés dentro de escenas de video.
- Incluye inferencia single-GPU, multi-GPU con FSDP + xDiT USP y extensión opcional de prompts con Dashscope o modelos Qwen locales.
- Distribuido en formato Safetensors y bajo licencia Apache 2.0.
Casos de uso
- Crear clips de video a partir de descripciones textuales detalladas.
- Generar escenas con movimiento complejo y estética visual de alta calidad.
- Producir videos que incluyan texto visual en chino o inglés.
- Experimentar con inferencia de modelos generativos de video a 480P o 720P.
- Evaluar pipelines avanzados de video generativo con extensión automática de prompts.