sd2-community/stable-diffusion-2

sd2-community
Texto a imagen

Stable Diffusion v2 es un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Este repositorio es un espejo del modelo deprecated `stabilityai/stable-diffusion-2` y no está afiliado a Stability AI. El checkpoint principal fue reanudado desde `stable-diffusion-2-base`, entrenado 150k pasos con objetivo `v` y después otros 140k pasos con imágenes de 768x768. Usa un codificador de texto fijo OpenCLIP-ViT/H y está orientado principalmente a prompts en inglés.

Como usar

Instalación con Diffusers:

pip install diffusers transformers accelerate scipy safetensors

Ejemplo de ejecución con EulerDiscreteScheduler:

from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler

model_id = "stabilityai/stable-diffusion-2"

# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]

image.save("astronaut_rides_horse.png")

Notas específicas: se recomienda instalar xformers para atención más eficiente en memoria. Con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.

Funcionalidades

Generación texto-a-imagen mediante `StableDiffusionPipeline` de Diffusers.
Modelo de difusión latente con autoencoder y UNet condicionado por atención cruzada.
Checkpoint de 768x768 (`768-v-ema.ckpt`) entrenado desde la base de 512px.
Usa OpenCLIP-ViT/H como codificador de texto preentrenado.
Formato Safetensors y compatibilidad con Diffusers.
Licencia CreativeML Open RAIL++-M / OpenRAIL++.
Entrenado sobre LAION-5B y subconjuntos filtrados con detector NSFW de LAION.
No está desplegado por proveedores de inferencia en la página indicada.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imagen.
Generación de arte, diseño y procesos creativos asistidos por texto.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación sobre modelos de difusión generativa.
No debe usarse para suplantación, desinformación, contenido sexual no consentido, violencia gráfica, discriminación, estereotipos dañinos ni representaciones factuales de personas o eventos.