gpustack/stable-diffusion-xl-1.0-turbo-GGUF
gpustack
Texto a imagen
Versión GGUF experimental de SDXL-Turbo, un modelo generativo de texto a imagen derivado de SDXL 1.0 y destilado con Adversarial Diffusion Distillation para sintetizar imágenes de alta calidad en 1 a 4 pasos. Está orientado a inferencia rápida y en tiempo real, con cuantizaciones Q4_0, Q4_1 y Q8_0 basadas en stable-diffusion.cpp y soporte indicado para gpustack/llama-box v0.0.75 o superior.
Como usar
Instalación con Diffusers:
pip install diffusers transformers accelerate --upgrade
Texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(prompt=prompt, num_inference_steps=1, guidance_scale=0.0).images[0]
Imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained("stabilityai/sdxl-turbo", torch_dtype=torch.float16, variant="fp16")
pipe.to("cuda")
init_image = load_image("https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png").resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(prompt, image=init_image, num_inference_steps=2, strength=0.5, guidance_scale=0.0).images[0]
Para imagen a imagen, el producto de num_inference_steps * strength debe ser al menos 1, porque ese valor determina los pasos reales ejecutados por la canalización.
Funcionalidades
- Generación texto a imagen rápida, con una sola evaluación de red en el caso de uso principal.
- Basado en SDXL 1.0 y entrenado mediante Adversarial Diffusion Distillation.
- Puede funcionar con 1 a 4 pasos de inferencia manteniendo buena calidad visual.
- Distribuido en formato GGUF con variantes cuantizadas Q4_0, Q4_1 y Q8_0.
- Incluye componentes CLIP ViT-L/14, OpenCLIP ViT-G/14 y VAE en FP16 según la tabla de cuantización.
- Optimizado preferentemente para imágenes de 512x512 píxeles.
- No usa guidance_scale ni negative_prompt en el flujo recomendado de Diffusers.
Casos de uso
- Investigación sobre modelos generativos de imagen.
- Prototipos de generación de imágenes en tiempo real.
- Aplicaciones creativas, educativas o de diseño que necesiten síntesis rápida desde prompts.
- Exploración de despliegues seguros para modelos capaces de generar contenido dañino.
- Análisis de limitaciones, sesgos y comportamiento de modelos generativos.
- Generación de arte conceptual y material visual para procesos creativos.