yachty66/stable-diffusion-v1-5
Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. Este repositorio es un espejo no afiliado del modelo Stable Diffusion v1-5 original; el checkpoint fue inicializado desde Stable Diffusion v1-2 y afinado durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de omisión del condicionamiento textual para mejorar el muestreo con classifier-free guidance.
Como usar
Instalación y uso con Diffusers para el repositorio yachty66/stable-diffusion-v1-5:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("yachty66/stable-diffusion-v1-5", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo de la tarjeta del modelo usando StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch
model_id = "sd-legacy/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
También puede usarse descargando los pesos v1-5-pruned-emaonly.safetensors para inferencia con menor uso de VRAM, o v1-5-pruned.safetensors cuando se necesitan pesos EMA y no EMA para ajuste fino.
Funcionalidades
- Generación de imágenes a partir de texto mediante difusión latente.
- Compatible con Diffusers y con flujos locales como ComfyUI, AUTOMATIC1111, SD.Next e InvokeAI.
- Usa un codificador de texto CLIP ViT-L/14 preentrenado y un autoencoder con reducción espacial de factor 8.
- Checkpoint en formato Safetensors bajo licencia CreativeML OpenRAIL-M.
- Optimizado para inferencia de imágenes 512x512, aunque no garantiza fotorealismo perfecto ni texto legible.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos que pueden producir contenido dañino.
- Análisis de limitaciones, sesgos y comportamiento de modelos de generación de imágenes.
- Creación de arte, diseño visual y procesos creativos asistidos por prompts.
- Herramientas educativas o creativas basadas en generación de imágenes.
- Investigación sobre modelos de difusión generativa y generación texto-imagen.