sd2-community/stable-diffusion-2-base
sd2-community
Texto a imagen
Modelo de difusión latente para generación y modificación de imágenes a partir de texto. Es un mirror no afiliado del modelo Stable Diffusion v2-base original, entrenado en dos fases sobre subconjuntos filtrados de LAION-5B: primero 550k pasos a 256x256 y después 850k pasos a 512x512. Usa un codificador de texto fijo OpenCLIP-ViT/H y está orientado principalmente a prompts en inglés.
Como usar
Instalación y ejemplo de uso con Diffusers:
pip install diffusers transformers accelerate scipy safetensors
from diffusers import StableDiffusionPipeline, EulerDiscreteScheduler
import torch
model_id = "stabilityai/stable-diffusion-2-base"
# Use the Euler scheduler here instead
scheduler = EulerDiscreteScheduler.from_pretrained(model_id, subfolder="scheduler")
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas de uso:
- Se recomienda instalar
xformers para atención más eficiente en memoria y mejor rendimiento.
- Si la GPU tiene poca VRAM, conviene añadir
pipe.enable_attention_slicing() después de mover el pipeline a CUDA, a cambio de menor velocidad.
- También puede usarse con el repositorio
stablediffusion descargando el checkpoint 512-base-ema.ckpt.
Funcionalidades
- Generación de imágenes a partir de prompts de texto
- Modificación de imágenes mediante una arquitectura de difusión latente
- Resolución base de trabajo de 512x512 en este checkpoint
- Codificador de texto OpenCLIP-ViT/H integrado en el pipeline
- Compatible con Diffusers y formato Safetensors
- Entrenado con filtrado NSFW conservador sobre LAION-5B
- Licencia CreativeML Open RAIL++-M / openrail++
Casos de uso
- Investigación sobre despliegue seguro de modelos capaces de generar contenido dañino
- Análisis de limitaciones y sesgos en modelos generativos de imágenes
- Generación de obras visuales y apoyo a procesos de diseño artístico
- Herramientas educativas o creativas basadas en generación de imágenes
- Experimentación e investigación en modelos generativos de difusión