jcplus/stable-diffusion-v1-5

jcplus

Texto a imagen

Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar y modificar imágenes a partir de prompts. Este checkpoint fue inicializado desde Stable Diffusion v1-2 y ajustado durante 595.000 pasos a resolución 512x512 sobre "laion-aesthetics v2 5+", con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance. Usa un codificador de texto CLIP ViT-L/14 y está pensado principalmente para investigación y usos creativos con mecanismos de seguridad adicionales.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "jcplus/stable-diffusion-v1-5",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo clásico de Stable Diffusion v1-5 con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    revision="fp16"
)
pipe = pipe.to(device)

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Funcionalidades

Generación de imágenes fotorrealistas a partir de texto.
Arquitectura Latent Diffusion Model con autoencoder y UNet entrenado en espacio latente.
Codificador textual fijo CLIP ViT-L/14 para condicionar la generación.
Checkpoint v1-5 ajustado a 512x512 durante 595.000 pasos sobre LAION aesthetics.
Compatible con Diffusers y pipelines StableDiffusionPipeline/DiffusionPipeline.
Licencia CreativeML OpenRAIL-M.
Incluye recomendaciones de uso con Safety Checker para filtrar conceptos NSFW conocidos.
Limitaciones conocidas: texto ilegible, composición compleja débil, peor rendimiento en prompts no ingleses y posibles sesgos occidentales/blancos por los datos de entrenamiento.

Casos de uso

Investigación sobre modelos generativos de texto a imagen.
Estudio de sesgos, limitaciones y seguridad en modelos generativos.
Generación de arte, diseño visual y procesos creativos.
Herramientas educativas o creativas que requieran generación visual desde texto.
Investigación sobre despliegue seguro de modelos capaces de producir contenido dañino.
Prototipos locales con Diffusers, Draw Things, DiffusionBee, Google Colab o Kaggle.