benjamin-paine/stable-diffusion-v1-5
benjamin-paine
Texto a imagen
Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. Este repositorio es una recarga del modelo bajo licencia CreativeML OpenRAIL-M; el checkpoint v1-5 parte de Stable Diffusion v1-2 y fue ajustado durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de eliminación del condicionamiento textual para mejorar el muestreo classifier-free guidance.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"benjamin-paine/stable-diffusion-v1-5",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"benjamin-paine/stable-diffusion-v1-5",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes a partir de texto mediante un modelo de difusión latente.
- Compatible con Diffusers y StableDiffusionPipeline.
- Usa un codificador de texto CLIP ViT-L/14 preentrenado.
- Checkpoint entrenado para resolución 512x512.
- Soporta uso local en GPU CUDA con PyTorch.
- Incluye pesos en formato Safetensors.
- Licencia CreativeML OpenRAIL-M con permisos de uso comercial y redistribución sujetos a restricciones de seguridad.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
- Estudio de limitaciones, sesgos y comportamiento de modelos generativos de imagen.
- Generación de arte, diseño visual y procesos creativos asistidos por texto.
- Herramientas educativas o creativas que necesiten síntesis de imágenes desde prompts.
- Investigación sobre modelos de difusión y generación texto-imagen.