stable-diffusion-v1-5

stable-diffusion-v1-5
Texto a imagen

Modelo de difusión latente texto-a-imagen orientado a generar imágenes fotorrealistas a partir de prompts en texto. Esta versión fue inicializada desde Stable Diffusion v1-2 y afinada durante 595.000 pasos a resolución 512x512 sobre "laion-aesthetics v2 5+", con un 10% de eliminación del condicionamiento de texto para mejorar el muestreo con classifier-free guidance.

Como usar

Uso principal: investigación y generación creativa de imágenes a partir de prompts en texto. Se recomienda emplearlo con mecanismos adicionales de seguridad, como el Safety Checker de Diffusers.

Ejemplo con Diffusers:

from diffusers import StableDiffusionPipeline
import torch

model_id = "sd-legacy/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

También puede usarse localmente con interfaces como ComfyUI, AUTOMATIC1111, SD.Next e InvokeAI. El uso previsto por la tarjeta del modelo es solo para investigación.

Funcionalidades

Generación y modificación de imágenes a partir de descripciones textuales.
Arquitectura de difusión latente con codificador de texto CLIP ViT-L/14 fijo y UNet con cross-attention.
Checkpoint optimizado para resolución 512x512.
Compatible con Diffusers, ComfyUI, AUTOMATIC1111, SD.Next e InvokeAI.
Disponible en pesos `safetensors`, incluyendo una variante `ema-only` con menor uso de VRAM para inferencia.
Licencia `creativeml-openrail-m` con restricciones de uso responsable.
Limitaciones conocidas: no renderiza bien texto legible, falla en composiciones complejas, puede generar rostros incorrectos y rinde peor fuera del inglés.

Casos de uso

Investigación sobre modelos generativos de texto a imagen.
Generación de arte conceptual e ilustraciones a partir de prompts.
Apoyo a procesos de diseño y exploración visual creativa.
Herramientas educativas o creativas basadas en síntesis de imágenes.
Estudio de sesgos, limitaciones y despliegue seguro de modelos generativos.