genai-archive/stable-diffusion-v1-5
genai-archive
Texto a imagen
Stable Diffusion v1-5 es un modelo de difusión latente de texto a imagen capaz de generar imágenes fotorrealistas a partir de prompts de texto. El checkpoint se inicializó desde Stable Diffusion v1-2 y se ajustó durante 595.000 pasos a resolución 512x512 sobre el subconjunto "laion-aesthetics v2 5+", con un 10% de eliminación del condicionamiento textual para mejorar el muestreo con classifier-free guidance.
Como usar
Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"genai-archive/stable-diffusion-v1-5",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo alternativo de la tarjeta del modelo original:
from diffusers import StableDiffusionPipeline
import torch
pipe = StableDiffusionPipeline.from_pretrained(
"runwayml/stable-diffusion-v1-5",
torch_dtype=torch.float16
)
pipe = pipe.to("cuda")
prompt = "a photo of an astronaut riding a horse on mars"
image = pipe(prompt).images[0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Generación de imágenes a partir de texto mediante difusión latente.
- Basado en un codificador de texto CLIP ViT-L/14 preentrenado y una UNet con atención cruzada.
- Optimizado para prompts en inglés y salidas de 512x512 píxeles.
- Compatible con Diffusers y pesos en formato Safetensors.
- Incluye uso recomendado con Safety Checker de Diffusers para filtrar conceptos NSFW conocidos.
- Licencia CreativeML OpenRAIL-M, con restricciones de uso responsable.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos que pueden producir contenido dañino.
- Análisis de limitaciones, sesgos y memorization en modelos de generación visual.
- Creación de arte, diseño visual y exploración creativa mediante prompts de texto.
- Herramientas educativas o creativas que necesiten generación de imágenes a partir de texto.
- Investigación sobre modelos de difusión generativa y síntesis de imágenes de alta resolución.