samuelchristlie/Wan2.1-T2V-1.3B-GGUF
samuelchristlie
Texto a video
Conversión directa a formato GGUF del modelo Wan2.1-T2V-1.3B, un modelo fundacional abierto de generación de vídeo orientado a texto a vídeo. Esta versión cuantizada busca facilitar la ejecución local en GPU de consumo mediante variantes GGUF de distintos tamaños y precisiones.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"samuelchristlie/Wan2.1-T2V-1.3B-GGUF",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Descarga local con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download samuelchristlie/Wan2.1-T2V-1.3B-GGUF --local-dir ./Wan2.1-T2V-1.3B-GGUF
Funcionalidades
- Generación de vídeo a partir de texto con la arquitectura Wan.
- Formato GGUF con cuantizaciones de 3, 4, 5, 6, 8 y 16 bits.
- Modelo de aproximadamente 1B de parámetros.
- Compatible con flujos basados en Diffusers y descarga local desde Hugging Face.
- Licencia Apache 2.0 como obra derivada del modelo original Wan2.1-T2V-1.3B.
Casos de uso
- Crear vídeos cortos a partir de prompts de texto.
- Probar Wan2.1-T2V-1.3B en entornos locales con pesos GGUF cuantizados.
- Experimentar con generación de vídeo en hardware de consumo usando variantes de menor tamaño.
- Integrar un modelo abierto de texto a vídeo en pipelines de investigación o prototipado.