samuelchristlie/Wan2.1-VACE-1.3B-GGUF

samuelchristlie
Texto a video

Conversión directa a GGUF de Wan-AI/Wan2.1-VACE-1.3B, un modelo base de vídeo de la familia Wan2.1 orientado a generación y edición de vídeo. Está pensado para tareas como texto a vídeo, imagen a vídeo, edición de vídeo y generación de texto visual, con cuantizaciones GGUF que facilitan su uso en hardware de consumo.

Como usar

Instalación y uso con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("samuelchristlie/Wan2.1-VACE-1.3B-GGUF", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Descarga local con Hugging Face CLI:

pip install "huggingface_hub[cli]"
huggingface-cli download samuelchristlie/Wan2.1-VACE-1.3B-GGUF --local-dir ./Wan2.1-VACE-1.3B-GGUF

Funcionalidades

Modelo de texto a vídeo basado en la arquitectura Wan.
Conversión GGUF cuantizada del modelo Wan2.1-VACE-1.3B.
Disponible en varias cuantizaciones: Q3, Q4, Q5, Q6, Q8 y F16.
Tamaño aproximado de 2B parámetros.
Compatible con Diffusers para carga desde Hugging Face.
Licencia Apache 2.0.

Casos de uso

Generación de vídeo a partir de prompts de texto.
Experimentación local con modelos de vídeo Wan2.1 en formato GGUF.
Pruebas de cuantización para ejecutar generación de vídeo en GPUs de consumo.
Flujos de imagen a vídeo y edición de vídeo basados en la familia Wan2.1.