botp/stable-diffusion-v1-5

botp

Texto a imagen

Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. Este checkpoint parte de Stable Diffusion v1-2 y fue ajustado durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de eliminación del condicionamiento textual para mejorar el muestreo classifier-free guidance.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# usar "mps" en dispositivos Apple
pipe = DiffusionPipeline.from_pretrained(
    "botp/stable-diffusion-v1-5",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch

model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Funcionalidades

Generación de imágenes a partir de texto mediante difusión latente.
Compatible con Diffusers y StableDiffusionPipeline.
Usa un codificador de texto CLIP ViT-L/14 preentrenado.
Optimizado para inferencia con pesos ema-only y disponible también con pesos ema+non-ema para fine-tuning.
Entrenado principalmente con captions en inglés, por lo que funciona mejor con prompts en inglés.
Incluye recomendación de uso con Safety Checker de Diffusers para filtrar conceptos NSFW conocidos.

Casos de uso

Investigación sobre modelos generativos de texto a imagen.
Generación de arte, imágenes conceptuales y recursos visuales para procesos creativos o de diseño.
Herramientas educativas o creativas que necesiten producir imágenes desde prompts.
Estudio de sesgos, limitaciones y despliegue seguro de modelos generativos.
Fine-tuning o experimentación con checkpoints de Stable Diffusion, usando la variante de pesos adecuada.