stablediffusiontutorials/stable-diffusion-v1.5
stablediffusiontutorials
Texto a imagen
Stable Diffusion v1.5 es un modelo de difusión latente de texto a imagen capaz de generar y modificar imágenes a partir de prompts en texto. Este repositorio es un espejo no afiliado del antiguo modelo de RunwayML. El checkpoint v1.5 se inicializó desde Stable Diffusion v1.2 y se ajustó durante 595.000 pasos a resolución 512x512 sobre LAION aesthetics v2 5+, con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"stablediffusiontutorials/stable-diffusion-v1.5",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo de la tarjeta original con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes fotorrealistas a partir de descripciones en texto.
- Arquitectura de difusión latente con autoencoder y UNet entrenada en el espacio latente.
- Usa un codificador de texto CLIP ViT-L/14 preentrenado para condicionar la generación.
- Compatible con la librería Diffusers y pipelines StableDiffusionPipeline/DiffusionPipeline.
- Checkpoint orientado a inferencia y creación visual a resolución 512x512.
- Incluye licencia CreativeML OpenRAIL-M y recomienda usar el Safety Checker de Diffusers para filtrar conceptos NSFW conocidos.
- Limitaciones conocidas: no alcanza fotorealismo perfecto, no renderiza texto legible de forma fiable, falla en composiciones complejas y rinde peor con prompts que no estén en inglés.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
- Análisis de limitaciones, sesgos y memorization en modelos de generación de imágenes.
- Creación de arte, diseño visual y prototipos creativos a partir de prompts.
- Herramientas educativas o creativas que generen imágenes bajo controles de seguridad adecuados.
- Investigación en modelos generativos de difusión latente y classifier-free guidance.