gpustack/stable-diffusion-xl-1.0-turbo-GGUF

gpustack

Texto a imagen

Versión GGUF experimental de SDXL-Turbo, un modelo generativo de texto a imagen derivado de SDXL 1.0 y destilado con Adversarial Diffusion Distillation para sintetizar imágenes de alta calidad en 1 a 4 pasos. Está orientado a inferencia rápida y en tiempo real, con cuantizaciones Q4_0, Q4_1 y Q8_0 basadas en stable-diffusion.cpp y soporte indicado para gpustack/llama-box v0.0.75 o superior.

Como usar

Instalación con Diffusers:
pip install diffusers transformers accelerate --upgrade

Texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]

Imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")

init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]

Para imagen a imagen, el producto de num_inference_steps * strength debe ser al menos 1, porque ese valor determina los pasos reales ejecutados por la canalización.

Funcionalidades

Generación texto a imagen rápida, con una sola evaluación de red en el caso de uso principal.
Basado en SDXL 1.0 y entrenado mediante Adversarial Diffusion Distillation.
Puede funcionar con 1 a 4 pasos de inferencia manteniendo buena calidad visual.
Distribuido en formato GGUF con variantes cuantizadas Q4_0, Q4_1 y Q8_0.
Incluye componentes CLIP ViT-L/14, OpenCLIP ViT-G/14 y VAE en FP16 según la tabla de cuantización.
Optimizado preferentemente para imágenes de 512x512 píxeles.
No usa guidance_scale ni negative_prompt en el flujo recomendado de Diffusers.

Casos de uso

Investigación sobre modelos generativos de imagen.
Prototipos de generación de imágenes en tiempo real.
Aplicaciones creativas, educativas o de diseño que necesiten síntesis rápida desde prompts.
Exploración de despliegues seguros para modelos capaces de generar contenido dañino.
Análisis de limitaciones, sesgos y comportamiento de modelos generativos.
Generación de arte conceptual y material visual para procesos creativos.