Isi99999/Wan2.1-T2V-14B
Isi99999
Texto a video
Modelo Wan2.1 de generación de video a partir de texto alojado en Hugging Face. Pertenece a la familia Wan de modelos fundacionales de video basados en Diffusion Transformer y Flow Matching. La variante T2V-14B está orientada a generar videos desde prompts en texto y admite resoluciones de 480P y 720P, con soporte multilingüe en inglés y chino y capacidad destacada para generar texto visual dentro de los videos.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Isi99999/Wan2.1-T2V-14B", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso desde el repositorio Wan2.1:
git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1
pip install -r requirements.txt
Descarga de modelos:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B
Ejemplo de inferencia de texto a video:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Para reducir uso de memoria GPU:
python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --offload_model True --t5_cpu --sample_shift 8 --sample_guide_scale 6 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
Funcionalidades
- Generación de video a partir de texto con arquitectura Diffusion Transformer.
- Variante de 14B parámetros compatible con salidas 480P y 720P.
- Soporte para prompts en inglés y chino mediante codificación de texto multilingüe.
- Integración con Diffusers y pesos en formato Safetensors.
- Modelo Wan-VAE para compresión espacio-temporal eficiente y preservación de información temporal.
- Puede usarse con inferencia multi-GPU mediante FSDP y xDiT USP.
- Licencia Apache 2.0.
Casos de uso
- Crear clips de video desde descripciones textuales detalladas.
- Prototipar escenas cinematográficas, animaciones o material creativo generado por IA.
- Evaluar modelos abiertos de generación de video frente a soluciones comerciales o cerradas.
- Experimentar con generación de video multilingüe, incluyendo prompts en inglés y chino.
- Desplegar flujos de inferencia local o multi-GPU para investigación en video generativo.