gpustack/stable-diffusion-v2-1-turbo-GGUF

gpustack

Texto a imagen

SD-Turbo en formato GGUF es un modelo generativo texto-a-imagen destilado de Stable Diffusion 2.1 y creado originalmente por Stability AI. Está optimizado para síntesis rápida en tiempo real: puede generar imágenes fotorealistas a partir de un prompt de texto con una sola evaluación de red, usando Adversarial Diffusion Distillation para mantener calidad visual con 1 a 4 pasos. Esta versión añade cuantizaciones GGUF basadas en stable-diffusion.cpp para facilitar ejecución eficiente.

Como usar

Instalación:
pip install diffusers transformers accelerate --upgrade

Texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

Imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]

Para imagen-a-imagen, num_inference_steps * strength debe ser mayor o igual a 1. Para uso comercial, revisar la licencia y membresía de Stability AI.

Funcionalidades

Modelo generativo texto-a-imagen basado en Stable Diffusion 2.1.
Destilado con Adversarial Diffusion Distillation para inferencia de muy pocos pasos.
Diseñado para generación rápida, incluso con un solo paso de inferencia.
Formato GGUF con variantes cuantizadas Q4_0, Q4_1 y Q8_0.
Arquitectura aproximada de 1B parámetros.
Resolución recomendada de 512x512 píxeles.
Compatible con flujos texto-a-imagen e imagen-a-imagen mediante Diffusers.
No usa guidance_scale ni negative_prompt; se recomienda guidance_scale=0.0.

Casos de uso

Investigación sobre modelos generativos destilados y difusión en tiempo real.
Aplicaciones creativas que necesitan generación rápida de imágenes desde texto.
Prototipos educativos o herramientas de diseño con generación visual interactiva.
Estudio de limitaciones, sesgos y despliegue seguro de modelos generativos.
Generación de arte conceptual, bocetos visuales y variaciones imagen-a-imagen.