Isi99999/Wan2.1-T2V-1.3B

Isi99999

Texto a video

Wan2.1-T2V-1.3B es un modelo abierto de generación de video a partir de texto basado en la familia Wan2.1. Está orientado a crear videos de 480P desde prompts textuales y está diseñado para funcionar en GPUs de consumo: el modelo requiere alrededor de 8,19 GB de VRAM y puede generar un video de 5 segundos a 480P en una RTX 4090 en unos 4 minutos sin optimizaciones como cuantización. Aunque puede intentar 720P, sus resultados son más estables a 480P por el entrenamiento limitado en esa resolución.

Como usar

Instalación y uso rápido con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Isi99999/Wan2.1-T2V-1.3B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga del modelo con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Inferencia texto-a-video en una GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Para reducir uso de memoria en casos de OOM:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'

Funcionalidades

Generación texto-a-video con arquitectura de difusión tipo Transformer y Flow Matching.
Modelo de 1.300 millones de parámetros optimizado para GPUs de consumo.
Soporte recomendado para videos 480P; 720P es posible pero menos estable.
Capacidad de generar texto visual en chino e inglés dentro de videos.
Uso de Wan-VAE, un VAE causal 3D para compresión espaciotemporal eficiente y preservación temporal.
Compatible con Diffusers, safetensors, ejecución local, Gradio, inferencia multi-GPU con FSDP + xDiT USP y extensión de prompts con Dashscope o modelos Qwen locales.
Licencia Apache 2.0.

Casos de uso

Crear videos cortos desde descripciones textuales para prototipos creativos, demos audiovisuales o investigación en generación de video.
Ejecutar generación de video local en equipos con GPUs de consumo, especialmente a 480P.
Experimentar con modelos de video foundation abiertos sin depender de proveedores de inferencia alojados.
Evaluar flujos de prompt extension para enriquecer escenas antes de generar video.
Investigar arquitecturas de video generativo con Diffusion Transformers, VAE causal 3D y entrada textual multilingüe.