CompVis/stable-diffusion-v1-3

CompVis
Texto a imagen

Stable Diffusion es un modelo de difusión de texto a imagen latente capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. El punto de control Stable-Diffusion-v1-3 se inicializó con los pesos del punto de control Stable-Diffusion-v1-2 y se ajustó posteriormente en 195,000 pasos a una resolución de 512x512 en 'laion-improved-aesthetics' y una caída del 10% del condicionamiento del texto para mejorar el muestreo de guía sin clasificador. Estos pesos están destinados a ser utilizados con la biblioteca de Difusores de Hugging Face.

Como usar

Recomendamos usar la biblioteca de Difusores de Hugging Face para ejecutar Stable Diffusion.

pip install --upgrade diffusers transformers scipy

import torch
from torch import autocast
from diffusers import StableDiffusionPipeline

model_id = "CompVis/stable-diffusion-v1-3"
device = "cuda"

pipe = StableDiffusionPipeline.from_pretrained(model_id)
pipe = pipe.to(device)

prompt = "una foto de un astronauta montando un caballo en Marte"
with autocast("cuda"):
    image = pipe(prompt, guidance_scale=7.5)["sample"][0]

image.save("astronaut_rides_horse.png")

# Si tienes menos de 10GB de RAM GPU, puedes cargar el modelo en precisión float16
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

with autocast("cuda"):
    image = pipe(prompt, guidance_scale=7.5)["sample"][0]

image.save("astronaut_rides_horse.png")

# Para cambiar el programador de ruido
from diffusers import StableDiffusionPipeline, LMSDiscreteScheduler

scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to("cuda")

prompt = "una foto de un astronauta montando un caballo en Marte"
with autocast("cuda"):
    image = pipe(prompt, guidance_scale=7.5)["sample"][0]

image.save("astronaut_rides_horse.png")

Funcionalidades

Modelo de generación de imágenes a partir de texto
Modelo de Difusión Latente
Utiliza un codificador de texto fijo y preentrenado (CLIP ViT-L/14)
Capacidad de mejorar el muestreo de guía sin clasificador
Entrenado en LAION-5B y otros subconjuntos

Casos de uso

Investigación sobre el despliegue seguro de modelos generativos
Comprender las limitaciones y sesgos de los modelos generativos
Generación de obras de arte y uso en procesos de diseño artístico
Aplicaciones en herramientas creativas o educativas
Investigación sobre modelos generativos