SDXS-512-0.9

IDKiro

Texto a imagen

SDXS es un modelo que puede generar imágenes de alta resolución en tiempo real basado en textos de solicitud, entrenado usando destilación de puntuación y emparejamiento de características. Para más información, consulte nuestro artículo de investigación: SDXS: Modelos de Difusión Latente de Un Solo Paso en Tiempo Real con Condiciones de Imagen. Open-source el modelo como parte de la investigación. SDXS-512-0.9 es una versión antigua de SDXS-512. Con el fin de evitar algunos posibles riesgos comerciales y de derechos de autor, SDXS-512-1.0 y SDXS-1024-1.0 no estarán disponibles pronto, y como alternativa proporcionaremos nuevas versiones con diferentes profesores DM u offline DM. Consulte nuestro repositorio para cualquier actualización.

Como usar

import torch
from diffusers import StableDiffusionPipeline, AutoencoderKL

repo = "IDKiro/sdxs-512-0.9"
seed = 42
weight_type = torch.float32 # o float16

# Cargar el modelo.
pipe = StableDiffusionPipeline.from_pretrained(repo, torch_dtype=weight_type)

# usar VAE original
# pipe.vae = AutoencoderKL.from_pretrained("IDKiro/sdxs-512-0.9/vae_large")

pipe.to("cuda")

prompt = "portrait photo of a girl, photograph, highly detailed face, depth of field, moody light, golden hour"

# Asegúrese de usar 1 paso de inferencia y CFG establecido en 0.
image = pipe(
prompt,
num_inference_steps=1,
guidance_scale=0,
generator=torch.Generator(device="cuda").manual_seed(seed)
).images[0]

image.save("output.png")

Funcionalidades

Genera imágenes de alta resolución en tiempo real.
Entrenado usando destilación de puntuación y emparejamiento de características.
Sustituye la autoatención por atención cruzada en las etapas de mayor resolución.
Utiliza TAESD, lo que puede producir imágenes de baja calidad cuando weight_type es float16.
No realizó el ajuste fino LoRA-GAN, lo que puede resultar en detalles de imagen ligeramente inferiores.

Casos de uso

Generación de imágenes de alta resolución a partir de textos de solicitud.
Aplicaciones de arte generativo y diseño gráfico.
Proyectos de investigación y desarrollo en modelos de difusión latente.
Aplicaciones en la generación de contenido creativo.