pt-sk/stable-diffusion-1.5
pt-sk
Texto a imagen
Modelo de difusión latente de texto a imagen basado en Stable Diffusion v1.5. Genera y modifica imágenes a partir de prompts de texto usando un codificador de texto CLIP ViT-L/14 y un modelo de difusión entrenado en el espacio latente de un autoencoder. El checkpoint se inicializó desde Stable Diffusion v1.2 y se afinó durante 595.000 pasos a resolución 512x512 sobre LAION Aesthetics v2 5+, con un 10% de eliminación del condicionamiento de texto para mejorar el muestreo con classifier-free guidance.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"pt-sk/stable-diffusion-1.5",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo del model card original con StableDiffusionPipeline:
from diffusers import StableDiffusionPipeline
import torch
model_id = "runwayml/stable-diffusion-v1-5"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes fotorrealistas a partir de texto.
- Compatible con Diffusers y StableDiffusionPipeline.
- Pesos en formato Safetensors.
- Modelo de tipo Text-to-Image basado en difusión latente.
- Entrenado principalmente con captions en inglés, por lo que funciona mejor con prompts en inglés.
- Resolución de entrenamiento principal de 512x512.
- Licencia CreativeML OpenRAIL-M.
- Incluye uso previsto con Safety Checker de Diffusers para filtrar conceptos NSFW conocidos.
Casos de uso
- Investigación sobre modelos generativos de texto a imagen.
- Generación de arte, diseño visual y procesos creativos.
- Herramientas educativas o creativas que necesiten imágenes generadas por prompt.
- Estudio de sesgos, limitaciones y despliegue seguro de modelos capaces de generar contenido dañino.
- Experimentación local con Diffusers, notebooks o aplicaciones como Draw Things, DiffusionBee y Stable Diffusion v1-5.