ayoub1222/Wan2.1-T2V-14B

ayoub1222

Texto a video

Modelo Wan2.1 de texto a video con 14B parámetros, duplicado de Wan-AI/Wan2.1-T2V-14B. Está orientado a generar videos de alta calidad a partir de prompts en texto, con movimiento dinámico, soporte para resoluciones 480P y 720P, y capacidad destacada para producir texto visual en chino e inglés dentro de los videos.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("ayoub1222/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga del checkpoint original:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B

Inferencia texto-a-video a 720P:
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación texto-a-video con arquitectura Diffusion Transformer y Flow Matching.
Modelo T2V-14B compatible con salida en 480P y 720P.
Usa Wan-VAE, un VAE causal 3D diseñado para comprimir video espacio-temporalmente y preservar información temporal.
Codifica entrada textual multilingüe mediante T5 Encoder y cross-attention en los bloques transformer.
Capaz de generar texto visual en chino e inglés dentro de escenas de video.
Incluye inferencia single-GPU, multi-GPU con FSDP + xDiT USP y extensión opcional de prompts con Dashscope o modelos Qwen locales.
Distribuido en formato Safetensors y bajo licencia Apache 2.0.

Casos de uso

Crear clips de video a partir de descripciones textuales detalladas.
Generar escenas con movimiento complejo y estética visual de alta calidad.
Producir videos que incluyan texto visual en chino o inglés.
Experimentar con inferencia de modelos generativos de video a 480P o 720P.
Evaluar pipelines avanzados de video generativo con extensión automática de prompts.