sd-research/stable-diffusion-2-1-base

sd-research

Texto a imagen

Stable Diffusion v2-1-base es un modelo de difusión latente para generación de imágenes a partir de texto. Ajusta el checkpoint stable-diffusion-2-base de 512 px con 220.000 pasos adicionales sobre el mismo conjunto de datos, usando filtrado punsafe=0.98. Emplea un codificador de texto OpenCLIP-ViT/H preentrenado y está pensado principalmente para investigación, creación artística, diseño y herramientas educativas o creativas.

Como usar

Instalación con Diffusers:
pip install diffusers transformers accelerate scipy safetensors

Ejemplo de ejecución con EulerDiscreteScheduler:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-1-base"
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Notas de uso: se recomienda instalar xformers para atención eficiente en memoria. En GPUs con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.

Funcionalidades

Generación texto-a-imagen basada en difusión latente.
Compatible con Diffusers y StableDiffusionPipeline.
Checkpoint base de 512x512, derivado de stable-diffusion-2-base.
Usa OpenCLIP-ViT/H como codificador de texto fijo.
Distribuido con pesos Safetensors y licencia CreativeML Open RAIL++-M.
Entrenado sobre LAION-5B y subconjuntos filtrados con detector NSFW de LAION.
No está desplegado en proveedores de inferencia en la página indicada.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos.
Generación de obras visuales y apoyo a procesos de diseño o creación artística.
Aplicaciones educativas o creativas basadas en generación de imágenes.
Investigación general sobre modelos generativos y difusión latente.