sd2-community/stable-diffusion-2-1
sd2-community
Texto a imagen
Modelo de difusión latente para generación y edición de imágenes a partir de texto. Es un espejo no afiliado del repositorio ya obsoleto `stabilityai/stable-diffusion-2-1`, afinado desde Stable Diffusion 2 con pasos adicionales sobre el mismo conjunto de datos y usando un codificador de texto fijo OpenCLIP-ViT/H.
Como usar
Instalación:
pip install diffusers transformers accelerate scipy safetensors
Ejemplo de uso con Diffusers:
import torch
from diffusers import StableDiffusionPipeline, DPMSolverMultistepScheduler
model_id = "stabilityai/stable-diffusion-2-1"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Notas de uso:
- Se recomienda instalar
xformers para una atención más eficiente en memoria.
- Si la GPU tiene poca VRAM, puede usarse
pipe.enable_attention_slicing() tras mover el pipeline a CUDA para reducir consumo de memoria, con coste en velocidad.
Funcionalidades
- Generación de imágenes a partir de prompts en texto
- Modificación de imágenes guiada por texto
- Basado en Latent Diffusion Model con OpenCLIP-ViT/H
- Compatible con `Diffusers` y `StableDiffusionPipeline`
- Uso recomendado con `DPMSolverMultistepScheduler` para inferencia
- Modelo afinado desde `stable-diffusion-2` con entrenamiento adicional de 55k + 155k pasos
- Licencia `CreativeML Open RAIL++-M` / `openrail++`
- Pensado principalmente para prompts en inglés
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos con potencial de producir contenido dañino
- Estudio de limitaciones y sesgos en modelos generativos de imágenes
- Creación de obras visuales y apoyo a procesos de diseño artístico
- Herramientas educativas o creativas basadas en generación de imágenes
- Investigación general en modelos generativos de texto a imagen