sd2-community/stable-diffusion-2
Stable Diffusion v2 es un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Este repositorio es un espejo del modelo deprecated `stabilityai/stable-diffusion-2` y no está afiliado a Stability AI. El checkpoint principal fue reanudado desde `stable-diffusion-2-base`, entrenado 150k pasos con objetivo `v` y después otros 140k pasos con imágenes de 768x768. Usa un codificador de texto fijo OpenCLIP-ViT/H y está orientado principalmente a prompts en inglés.
Como usar
Instalación con Diffusers:
pip install diffusers transformers accelerate scipy safetensors
Ejemplo de ejecución con EulerDiscreteScheduler:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
model_id = "stabilityai/stable-diffusion-2"
# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas específicas: se recomienda instalar xformers para atención más eficiente en memoria. Con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.
Funcionalidades
- Generación texto-a-imagen mediante `StableDiffusionPipeline` de Diffusers.
- Modelo de difusión latente con autoencoder y UNet condicionado por atención cruzada.
- Checkpoint de 768x768 (`768-v-ema.ckpt`) entrenado desde la base de 512px.
- Usa OpenCLIP-ViT/H como codificador de texto preentrenado.
- Formato Safetensors y compatibilidad con Diffusers.
- Licencia CreativeML Open RAIL++-M / OpenRAIL++.
- Entrenado sobre LAION-5B y subconjuntos filtrados con detector NSFW de LAION.
- No está desplegado por proveedores de inferencia en la página indicada.
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
- Análisis de limitaciones y sesgos en modelos generativos de imagen.
- Generación de arte, diseño y procesos creativos asistidos por texto.
- Herramientas educativas o creativas basadas en generación de imágenes.
- Investigación sobre modelos de difusión generativa.
- No debe usarse para suplantación, desinformación, contenido sexual no consentido, violencia gráfica, discriminación, estereotipos dañinos ni representaciones factuales de personas o eventos.