sd2-community/stable-diffusion-2-1-base

sd2-community

Texto a imagen

Stable Diffusion v2-1-base es un modelo de difusión latente para generación y modificación de imágenes a partir de prompts de texto. Es una versión ajustada de stable-diffusion-2-base con 220.000 pasos adicionales sobre el mismo conjunto de datos, usando un codificador de texto OpenCLIP-ViT/H fijo. Está orientado principalmente a investigación y usos creativos, con licencia CreativeML Open RAIL++-M.

Como usar

Instalación:
pip install diffusers transformers accelerate scipy safetensors

Ejemplo con Diffusers y EulerDiscreteScheduler:
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-1-base"

scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]

image.save("astronaut_rides_horse.png")

Notas de uso: se recomienda instalar xformers para atención más eficiente en memoria. En GPUs con poca VRAM, puede añadirse pipe.enable_attention_slicing() después de mover el pipeline a CUDA, reduciendo memoria a costa de velocidad.

Funcionalidades

Generación texto-a-imagen mediante Diffusers y StableDiffusionPipeline.
Modelo de difusión latente con autoencoder y UNet condicionado por texto mediante atención cruzada.
Fine-tuning adicional sobre stable-diffusion-2-base a resolución base 512x512.
Uso de OpenCLIP-ViT/H como codificador de texto preentrenado.
Compatible con pesos Safetensors y pipelines de Hugging Face Diffusers.
Entrenado sobre subconjuntos de LAION-5B filtrados parcialmente con detector NSFW de LAION.
Limitaciones conocidas: no logra fotorealismo perfecto, no renderiza texto legible de forma fiable, tiene dificultades con composicionalidad compleja y funciona peor con prompts que no estén en inglés.

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino.
Análisis de limitaciones y sesgos en modelos generativos de imágenes.
Generación de obras visuales, diseño y procesos artísticos.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación sobre modelos de difusión y modelos generativos.