gpustack/stable-diffusion-v2-1-GGUF

gpustack
Texto a imagen

Versión cuantizada en formato GGUF de Stable Diffusion v2.1, basada en el modelo original de Stability AI y preparada para generación de imágenes a partir de texto. Es un modelo de difusión latente que usa OpenCLIP ViT-H/14 como codificador de texto y fue ajustado desde Stable Diffusion 2 con entrenamiento adicional sobre datos filtrados de LAION. La página incluye variantes cuantizadas Q4_0, Q4_1 y Q8_0 para facilitar despliegues más ligeros con herramientas compatibles con GGUF.

Como usar

Instalación con Diffusers:

pip install diffusers transformers accelerate scipy safetensors

Ejemplo de ejecución con StableDiffusionPipeline y DPMSolverMultistepScheduler:

import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

# Use the DPMSolverMultistepScheduler (DPM-Solver++) scheduler here instead
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Notas de uso: se recomienda instalar xformers para atención más eficiente en memoria. En GPU con poca VRAM, se puede usar pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a cambio de velocidad.

Funcionalidades

Generación texto-a-imagen mediante difusión latente.
Formato GGUF con cuantizaciones Q4_0, Q4_1 y Q8_0.
Basado en Stable Diffusion v2.1 y en el repositorio stable-diffusion.cpp parcheado por llama-box.
Usa OpenCLIP ViT-H/14 como codificador de texto fijo.
Compatible con flujos de trabajo de Diffusers usando el modelo original stabilityai/stable-diffusion-2-1.
Entrenado principalmente con descripciones en inglés, por lo que los prompts en inglés funcionan mejor.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
Análisis de sesgos, limitaciones y fallos en modelos de generación de imágenes.
Creación de arte, diseño visual y herramientas creativas o educativas.
Investigación y experimentación con modelos de difusión generativa.
Generación local o más ligera de imágenes cuando se necesita una variante GGUF cuantizada.