samuelchristlie/Wan2.1-T2V-1.3B-GGUF

samuelchristlie

Texto a video

Conversión directa a formato GGUF del modelo Wan2.1-T2V-1.3B, un modelo fundacional abierto de generación de vídeo orientado a texto a vídeo. Esta versión cuantizada busca facilitar la ejecución local en GPU de consumo mediante variantes GGUF de distintos tamaños y precisiones.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "samuelchristlie/Wan2.1-T2V-1.3B-GGUF",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga local con Hugging Face CLI:
pip install "huggingface_hub[cli]"
huggingface-cli download samuelchristlie/Wan2.1-T2V-1.3B-GGUF --local-dir ./Wan2.1-T2V-1.3B-GGUF

Funcionalidades

Generación de vídeo a partir de texto con la arquitectura Wan.
Formato GGUF con cuantizaciones de 3, 4, 5, 6, 8 y 16 bits.
Modelo de aproximadamente 1B de parámetros.
Compatible con flujos basados en Diffusers y descarga local desde Hugging Face.
Licencia Apache 2.0 como obra derivada del modelo original Wan2.1-T2V-1.3B.

Casos de uso

Crear vídeos cortos a partir de prompts de texto.
Probar Wan2.1-T2V-1.3B en entornos locales con pesos GGUF cuantizados.
Experimentar con generación de vídeo en hardware de consumo usando variantes de menor tamaño.
Integrar un modelo abierto de texto a vídeo en pipelines de investigación o prototipado.