gpustack/stable-diffusion-v2-1-turbo-GGUF
gpustack
Texto a imagen
SD-Turbo en formato GGUF es un modelo generativo texto-a-imagen destilado de Stable Diffusion 2.1 y creado originalmente por Stability AI. Está optimizado para síntesis rápida en tiempo real: puede generar imágenes fotorealistas a partir de un prompt de texto con una sola evaluación de red, usando Adversarial Diffusion Distillation para mantener calidad visual con 1 a 4 pasos. Esta versión añade cuantizaciones GGUF basadas en stable-diffusion.cpp para facilitar ejecución eficiente.
Como usar
Instalación:
pip install diffusers transformers accelerate --upgrade
Texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
Imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sd-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
Para imagen-a-imagen, num_inference_steps * strength debe ser mayor o igual a 1. Para uso comercial, revisar la licencia y membresía de Stability AI.
Funcionalidades
- Modelo generativo texto-a-imagen basado en Stable Diffusion 2.1.
- Destilado con Adversarial Diffusion Distillation para inferencia de muy pocos pasos.
- Diseñado para generación rápida, incluso con un solo paso de inferencia.
- Formato GGUF con variantes cuantizadas Q4_0, Q4_1 y Q8_0.
- Arquitectura aproximada de 1B parámetros.
- Resolución recomendada de 512x512 píxeles.
- Compatible con flujos texto-a-imagen e imagen-a-imagen mediante Diffusers.
- No usa guidance_scale ni negative_prompt; se recomienda guidance_scale=0.0.
Casos de uso
- Investigación sobre modelos generativos destilados y difusión en tiempo real.
- Aplicaciones creativas que necesitan generación rápida de imágenes desde texto.
- Prototipos educativos o herramientas de diseño con generación visual interactiva.
- Estudio de limitaciones, sesgos y despliegue seguro de modelos generativos.
- Generación de arte conceptual, bocetos visuales y variaciones imagen-a-imagen.