yachty66/stable-diffusion-v1-5

yachty66

Texto a imagen

Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. Este repositorio es un espejo no afiliado del modelo Stable Diffusion v1-5 original; el checkpoint fue inicializado desde Stable Diffusion v1-2 y afinado durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de omisión del condicionamiento textual para mejorar el muestreo con classifier-free guidance.

Como usar

Instalación y uso con Diffusers para el repositorio yachty66/stable-diffusion-v1-5:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("yachty66/stable-diffusion-v1-5", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de la tarjeta del modelo usando StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch

model_id = "sd-legacy/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

También puede usarse descargando los pesos v1-5-pruned-emaonly.safetensors para inferencia con menor uso de VRAM, o v1-5-pruned.safetensors cuando se necesitan pesos EMA y no EMA para ajuste fino.

Funcionalidades

Generación de imágenes a partir de texto mediante difusión latente.
Compatible con Diffusers y con flujos locales como ComfyUI, AUTOMATIC1111, SD.Next e InvokeAI.
Usa un codificador de texto CLIP ViT-L/14 preentrenado y un autoencoder con reducción espacial de factor 8.
Checkpoint en formato Safetensors bajo licencia CreativeML OpenRAIL-M.
Optimizado para inferencia de imágenes 512x512, aunque no garantiza fotorealismo perfecto ni texto legible.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos que pueden producir contenido dañino.
Análisis de limitaciones, sesgos y comportamiento de modelos de generación de imágenes.
Creación de arte, diseño visual y procesos creativos asistidos por prompts.
Herramientas educativas o creativas basadas en generación de imágenes.
Investigación sobre modelos de difusión generativa y generación texto-imagen.