sd2-community/stable-diffusion-2-base

sd2-community
Texto a imagen

Modelo de difusión latente para generación y modificación de imágenes a partir de texto. Es un mirror no afiliado del modelo Stable Diffusion v2-base original, entrenado en dos fases sobre subconjuntos filtrados de LAION-5B: primero 550k pasos a 256x256 y después 850k pasos a 512x512. Usa un codificador de texto fijo OpenCLIP-ViT/H y está orientado principalmente a prompts en inglés.

Como usar

Instalación y ejemplo de uso con Diffusers:

pip install diffusers transformers accelerate scipy safetensors
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch

model_id = "stabilityai/stable-diffusion-2-base"

# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Notas de uso:

  • Se recomienda instalar xformers para atención más eficiente en memoria y mejor rendimiento.
  • Si la GPU tiene poca VRAM, conviene añadir pipe.enable_attention_slicing() después de mover el pipeline a CUDA, a cambio de menor velocidad.
  • También puede usarse con el repositorio stablediffusion descargando el checkpoint 512-base-ema.ckpt.

Funcionalidades

Generación de imágenes a partir de prompts de texto
Modificación de imágenes mediante una arquitectura de difusión latente
Resolución base de trabajo de 512x512 en este checkpoint
Codificador de texto OpenCLIP-ViT/H integrado en el pipeline
Compatible con Diffusers y formato Safetensors
Entrenado con filtrado NSFW conservador sobre LAION-5B
Licencia CreativeML Open RAIL++-M / openrail++

Casos de uso

Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino
Análisis de limitaciones y sesgos en modelos generativos de imágenes
Generación de obras visuales y apoyo a procesos de diseño artístico
Herramientas educativas o creativas basadas en generación de imágenes
Experimentación e investigación en modelos generativos de difusión