sd2-community/stable-diffusion-2-1

sd2-community

Texto a imagen

Modelo de difusión latente para generación y edición de imágenes a partir de texto. Es un espejo no afiliado del repositorio ya obsoleto `stabilityai/stable-diffusion-2-1`, afinado desde Stable Diffusion 2 con pasos adicionales sobre el mismo conjunto de datos y usando un codificador de texto fijo OpenCLIP-ViT/H.

Como usar

Instalación:
pip install diffusers transformers accelerate scipy safetensors

Ejemplo de uso con Diffusers:
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler

model_id = "stabilityai/stable-diffusion-2-1"

pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Notas de uso:

Se recomienda instalar xformers para una atención más eficiente en memoria.
Si la GPU tiene poca VRAM, puede usarse pipe.enable_attention_slicing() tras mover el pipeline a CUDA para reducir consumo de memoria, con coste en velocidad.

Funcionalidades

Generación de imágenes a partir de prompts en texto
Modificación de imágenes guiada por texto
Basado en Latent Diffusion Model con OpenCLIP-ViT/H
Compatible con `Diffusers` y `StableDiffusionPipeline`
Uso recomendado con `DPMSolverMultistepScheduler` para inferencia
Modelo afinado desde `stable-diffusion-2` con entrenamiento adicional de 55k + 155k pasos
Licencia `CreativeML Open RAIL++-M` / `openrail++`
Pensado principalmente para prompts en inglés

Casos de uso

Investigación sobre despliegue seguro de modelos generativos con potencial de producir contenido dañino
Estudio de limitaciones y sesgos en modelos generativos de imágenes
Creación de obras visuales y apoyo a procesos de diseño artístico
Herramientas educativas o creativas basadas en generación de imágenes
Investigación general en modelos generativos de texto a imagen