gpustack/stable-diffusion-v2-1-GGUF
Versión cuantizada en formato GGUF de Stable Diffusion v2.1, basada en el modelo original de Stability AI y preparada para generación de imágenes a partir de texto. Es un modelo de difusión latente que usa OpenCLIP ViT-H/14 como codificador de texto y fue ajustado desde Stable Diffusion 2 con entrenamiento adicional sobre datos filtrados de LAION. La página incluye variantes cuantizadas Q4_0, Q4_1 y Q8_0 para facilitar despliegues más ligeros con herramientas compatibles con GGUF.
Como usar
Instalación con Diffusers:
pip install diffusers transformers accelerate scipy safetensors
Ejemplo de ejecución con StableDiffusionPipeline y DPMSolverMultistepScheduler:
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "stabilityai/stable-diffusion-2-1"
# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas de uso: se recomienda instalar xformers para atención más eficiente en memoria. En GPU con poca VRAM, se puede usar pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a cambio de velocidad.
Funcionalidades
- Generación texto-a-imagen mediante difusión latente.
- Formato GGUF con cuantizaciones Q4_0, Q4_1 y Q8_0.
- Basado en Stable Diffusion v2.1 y en el repositorio stable-diffusion.cpp parcheado por llama-box.
- Usa OpenCLIP ViT-H/14 como codificador de texto fijo.
- Compatible con flujos de trabajo de Diffusers usando el modelo original stabilityai/stable-diffusion-2-1.
- Entrenado principalmente con descripciones en inglés, por lo que los prompts en inglés funcionan mejor.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
- Análisis de sesgos, limitaciones y fallos en modelos de generación de imágenes.
- Creación de arte, diseño visual y herramientas creativas o educativas.
- Investigación y experimentación con modelos de difusión generativa.
- Generación local o más ligera de imágenes cuando se necesita una variante GGUF cuantizada.