benjamin-paine/stable-diffusion-v1-5

benjamin-paine

Texto a imagen

Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. Este repositorio es una recarga del modelo bajo licencia CreativeML OpenRAIL-M; el checkpoint v1-5 parte de Stable Diffusion v1-2 y fue ajustado durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de eliminación del condicionamiento textual para mejorar el muestreo classifier-free guidance.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "benjamin-paine/stable-diffusion-v1-5",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "benjamin-paine/stable-diffusion-v1-5",
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Funcionalidades

Generación de imágenes a partir de texto mediante un modelo de difusión latente.
Compatible con Diffusers y StableDiffusionPipeline.
Usa un codificador de texto CLIP ViT-L/14 preentrenado.
Checkpoint entrenado para resolución 512x512.
Soporta uso local en GPU CUDA con PyTorch.
Incluye pesos en formato Safetensors.
Licencia CreativeML OpenRAIL-M con permisos de uso comercial y redistribución sujetos a restricciones de seguridad.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
Estudio de limitaciones, sesgos y comportamiento de modelos generativos de imagen.
Generación de arte, diseño visual y procesos creativos asistidos por texto.
Herramientas educativas o creativas que necesiten síntesis de imágenes desde prompts.
Investigación sobre modelos de difusión y generación texto-imagen.