Isi99999/Wan2.1-T2V-14B

Isi99999

Texto a video

Modelo Wan2.1 de generación de video a partir de texto alojado en Hugging Face. Pertenece a la familia Wan de modelos fundacionales de video basados en Diffusion Transformer y Flow Matching. La variante T2V-14B está orientada a generar videos desde prompts en texto y admite resoluciones de 480P y 720P, con soporte multilingüe en inglés y chino y capacidad destacada para generar texto visual dentro de los videos.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Isi99999/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso desde el repositorio Wan2.1:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt

Descarga de modelos:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

Ejemplo de inferencia de texto a video:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Para reducir uso de memoria GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

Funcionalidades

Generación de video a partir de texto con arquitectura Diffusion Transformer.
Variante de 14B parámetros compatible con salidas 480P y 720P.
Soporte para prompts en inglés y chino mediante codificación de texto multilingüe.
Integración con Diffusers y pesos en formato Safetensors.
Modelo Wan-VAE para compresión espacio-temporal eficiente y preservación de información temporal.
Puede usarse con inferencia multi-GPU mediante FSDP y xDiT USP.
Licencia Apache 2.0.

Casos de uso

Crear clips de video desde descripciones textuales detalladas.
Prototipar escenas cinematográficas, animaciones o material creativo generado por IA.
Evaluar modelos abiertos de generación de video frente a soluciones comerciales o cerradas.
Experimentar con generación de video multilingüe, incluyendo prompts en inglés y chino.
Desplegar flujos de inferencia local o multi-GPU para investigación en video generativo.