jcplus/stable-diffusion-v1-5
jcplus
Texto a imagen
Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar y modificar imágenes a partir de prompts. Este checkpoint fue inicializado desde Stable Diffusion v1-2 y ajustado durante 595.000 pasos a resolución 512x512 sobre "laion-aesthetics v2 5+", con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance. Usa un codificador de texto CLIP ViT-L/14 y está pensado principalmente para investigación y usos creativos con mecanismos de seguridad adicionales.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"jcplus/stable-diffusion-v1-5",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo clásico de Stable Diffusion v1-5 con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(
model_id,
torch_dtype=torch.float16,
revision="fp16"
)
pipe = pipe.to(device)
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes fotorrealistas a partir de texto.
- Arquitectura Latent Diffusion Model con autoencoder y UNet entrenado en espacio latente.
- Codificador textual fijo CLIP ViT-L/14 para condicionar la generación.
- Checkpoint v1-5 ajustado a 512x512 durante 595.000 pasos sobre LAION aesthetics.
- Compatible con Diffusers y pipelines StableDiffusionPipeline/DiffusionPipeline.
- Licencia CreativeML OpenRAIL-M.
- Incluye recomendaciones de uso con Safety Checker para filtrar conceptos NSFW conocidos.
- Limitaciones conocidas: texto ilegible, composición compleja débil, peor rendimiento en prompts no ingleses y posibles sesgos occidentales/blancos por los datos de entrenamiento.
Casos de uso
- Investigación sobre modelos generativos de texto a imagen.
- Estudio de sesgos, limitaciones y seguridad en modelos generativos.
- Generación de arte, diseño visual y procesos creativos.
- Herramientas educativas o creativas que requieran generación visual desde texto.
- Investigación sobre despliegue seguro de modelos capaces de producir contenido dañino.
- Prototipos locales con Diffusers, Draw Things, DiffusionBee, Google Colab o Kaggle.