Nextcloud-AI/sdxl-turbo

Nextcloud-AI

Texto a imagen

Modelo generativo de texto a imagen basado en SDXL 1.0 y destilado para síntesis en tiempo real. Puede producir imágenes fotorrealistas a partir de prompts de texto en 1 a 4 pasos de inferencia, con buen seguimiento del prompt y latencia muy baja.

Como usar

Instalación:
pip install diffusers transformers accelerate --upgrade

Uso para texto a imagen:
from diffusers import AutoPipelineForText2Image
import torch

pipe = AutoPipelineForText2Image.from_pretrained(
    "stabilityai/sdxl-turbo",
    torch_dtype=torch.float16,
    variant="fp16"
)
pipe.to("cuda")

prompt = "A cinematic shot of a baby racoon wearing an intricate italian priest robe."
image = pipe(
    prompt=prompt,
    num_inference_steps=1,
    guidance_scale=0.0
).images[0]

Uso para imagen a imagen:
from diffusers import AutoPipelineForImage2Image
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForImage2Image.from_pretrained(
    "stabilityai/sdxl-turbo",
    torch_dtype=torch.float16,
    variant="fp16"
)
pipe.to("cuda")

init_image = load_image(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/cat.png"
).resize((512, 512))

prompt = "cat wizard, gandalf, lord of the rings, detailed, fantasy, cute, adorable, Pixar, Disney, 8k"
image = pipe(
    prompt,
    image=init_image,
    num_inference_steps=2,
    strength=0.5,
    guidance_scale=0.0
).images[0]

Notas de uso:

Para imagen a imagen, num_inference_steps * strength debe ser mayor o igual a 1.
Un solo paso suele ser suficiente para generar imágenes de alta calidad.
El modelo está orientado a investigación, creatividad y despliegues seguros; no está diseñado para representar hechos o personas reales con fidelidad.

Funcionalidades

Generación texto a imagen en tiempo real con una sola evaluación de red
Basado en Adversarial Diffusion Distillation (ADD) para mantener calidad alta con muy pocos pasos
Afinado desde SDXL 1.0 Base
Optimizado para imágenes de 512x512, aunque admite resoluciones mayores
También soporta flujos de imagen a imagen
No utiliza `guidance_scale` ni `negative_prompt`; se recomienda `guidance_scale=0.0`
Mejora su rendimiento visual al usar hasta 4 pasos de inferencia

Casos de uso

Generación rápida de imágenes fotorrealistas desde texto
Herramientas creativas y educativas con respuesta casi en tiempo real
Investigación sobre modelos generativos y aplicaciones en tiempo real
Procesos artísticos y de diseño visual
Experimentación con flujos de imagen a imagen
Estudio de sesgos, limitaciones y despliegue seguro de modelos generativos