Isi99999/Wan2.1-T2V-1.3B
Isi99999
Texto a video
Wan2.1-T2V-1.3B es un modelo abierto de generación de video a partir de texto basado en la familia Wan2.1. Está orientado a crear videos de 480P desde prompts textuales y está diseñado para funcionar en GPUs de consumo: el modelo requiere alrededor de 8,19 GB de VRAM y puede generar un video de 5 segundos a 480P en una RTX 4090 en unos 4 minutos sin optimizaciones como cuantización. Aunque puede intentar 720P, sus resultados son más estables a 480P por el entrenamiento limitado en esa resolución.
Como usar
Instalación y uso rápido con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Isi99999/Wan2.1-T2V-1.3B", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga del modelo con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
Inferencia texto-a-video en una GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Para reducir uso de memoria en casos de OOM:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Inferencia multi-GPU:
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --dit_fsdp --t5_fsdp --ulysses_size 8 --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Con extensión de prompt mediante Dashscope:
DASH_API_KEY=your_key python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'ch'
Funcionalidades
- Generación texto-a-video con arquitectura de difusión tipo Transformer y Flow Matching.
- Modelo de 1.300 millones de parámetros optimizado para GPUs de consumo.
- Soporte recomendado para videos 480P; 720P es posible pero menos estable.
- Capacidad de generar texto visual en chino e inglés dentro de videos.
- Uso de Wan-VAE, un VAE causal 3D para compresión espaciotemporal eficiente y preservación temporal.
- Compatible con Diffusers, safetensors, ejecución local, Gradio, inferencia multi-GPU con FSDP + xDiT USP y extensión de prompts con Dashscope o modelos Qwen locales.
- Licencia Apache 2.0.
Casos de uso
- Crear videos cortos desde descripciones textuales para prototipos creativos, demos audiovisuales o investigación en generación de video.
- Ejecutar generación de video local en equipos con GPUs de consumo, especialmente a 480P.
- Experimentar con modelos de video foundation abiertos sin depender de proveedores de inferencia alojados.
- Evaluar flujos de prompt extension para enriquecer escenas antes de generar video.
- Investigar arquitecturas de video generativo con Diffusion Transformers, VAE causal 3D y entrada textual multilingüe.