genai-archive/stable-diffusion-v1-5

genai-archive

Texto a imagen

Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. El checkpoint se inicializó desde Stable Diffusion v1-2 y se ajustó durante 595.000 pasos a resolución 512x512 sobre el subconjunto "laion-aesthetics v2 5+", con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "genai-archive/stable-diffusion-v1-5",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo alternativo de la tarjeta del modelo original:
from diffusers import StableDiffusionPipeline
import torch

pipe = StableDiffusionPipeline.from_pretrained(
    "runwayml/stable-diffusion-v1-5",
    torch_dtype=torch.float16
)
pipe = pipe.to("cuda")

prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")

Funcionalidades

Generación de imágenes a partir de texto mediante difusión latente.
Basado en un codificador de texto CLIP ViT-L/14 preentrenado y una UNet con atención cruzada.
Optimizado para prompts en inglés y salidas de 512x512 píxeles.
Compatible con Diffusers y pesos en formato Safetensors.
Incluye uso recomendado con Safety Checker de Diffusers para filtrar conceptos NSFW conocidos.
Licencia CreativeML OpenRAIL-M, con restricciones de uso responsable.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos que pueden producir contenido dañino.
Análisis de limitaciones, sesgos y memorization en modelos de generación visual.
Creación de arte, diseño visual y exploración creativa mediante prompts de texto.
Herramientas educativas o creativas que necesiten generación de imágenes a partir de texto.
Investigación sobre modelos de difusión generativa y síntesis de imágenes de alta resolución.