Nextcloud-AI/sdxl-turbo
Nextcloud-AI
Texto a imagen
Modelo generativo de texto a imagen basado en SDXL 1.0 y destilado para síntesis en tiempo real. Puede producir imágenes fotorrealistas a partir de prompts de texto en 1 a 4 pasos de inferencia, con buen seguimiento del prompt y latencia muy baja.
Como usar
Instalación:
pip install diffusers transformers accelerate --upgrade
Uso para texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch
pipe = AutoPipelineForText2Image.from_pretrained(
"stabilityai/sdxl-turbo",
torch_dtype=torch.float16,
variant="fp16"
)
pipe.to("cuda")
prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(
prompt=prompt,
num_inference_steps=1,
guidance_scale=0.0
).images[0]
Uso para imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch
pipe = AutoPipelineForImage2Image.from_pretrained(
"stabilityai/sdxl-turbo",
torch_dtype=torch.float16,
variant="fp16"
)
pipe.to("cuda")
init_image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png"
).resize((512, 512))
prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(
prompt,
image=init_image,
num_inference_steps=2,
strength=0.5,
guidance_scale=0.0
).images[0]
Notas de uso:
- Para imagen a imagen,
num_inference_steps * strength debe ser mayor o igual a 1.
- Un solo paso suele ser suficiente para generar imágenes de alta calidad.
- El modelo está orientado a investigación, creatividad y despliegues seguros; no está diseñado para representar hechos o personas reales con fidelidad.
Funcionalidades
- Generación texto a imagen en tiempo real con una sola evaluación de red
- Basado en Adversarial Diffusion Distillation (ADD) para mantener calidad alta con muy pocos pasos
- Afinado desde SDXL 1.0 Base
- Optimizado para imágenes de 512x512, aunque admite resoluciones mayores
- También soporta flujos de imagen a imagen
- No utiliza `guidance_scale` ni `negative_prompt`; se recomienda `guidance_scale=0.0`
- Mejora su rendimiento visual al usar hasta 4 pasos de inferencia
Casos de uso
- Generación rápida de imágenes fotorrealistas desde texto
- Herramientas creativas y educativas con respuesta casi en tiempo real
- Investigación sobre modelos generativos y aplicaciones en tiempo real
- Procesos artísticos y de diseño visual
- Experimentación con flujos de imagen a imagen
- Estudio de sesgos, limitaciones y despliegue seguro de modelos generativos