CompVis/stable-diffusion-v1-3
CompVis
Texto a imagen
Stable Diffusion es un modelo de difusión de texto a imagen latente capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto. El punto de control Stable-Diffusion-v1-3 se inicializó con los pesos del punto de control Stable-Diffusion-v1-2 y se ajustó posteriormente en 195,000 pasos a una resolución de 512x512 en 'laion-improved-aesthetics' y una caída del 10% del condicionamiento del texto para mejorar el muestreo de guía sin clasificador. Estos pesos están destinados a ser utilizados con la biblioteca de Difusores de Hugging Face.
Como usar
Recomendamos usar la biblioteca de Difusores de Hugging Face para ejecutar Stable Diffusion.
pip install --upgrade diffusers transformers scipy
import torch
from torch import autocast
from diffusers import StableDiffusionPipeline
model_id = "CompVis/stable-diffusion-v1-3"
device = "cuda"
pipe = StableDiffusionPipeline.from_pretrained(model_id)
pipe = pipe.to(device)
prompt = "una foto de un astronauta montando un caballo en Marte"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("astronaut_rides_horse.png")
# Si tienes menos de 10GB de RAM GPU, puedes cargar el modelo en precisión float16
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("astronaut_rides_horse.png")
# Para cambiar el programador de ruido
from diffusers import StableDiffusionPipeline, LMSDiscreteScheduler
scheduler = LMSDiscreteScheduler(beta_start=0.00085, beta_end=0.012, beta_schedule="scaled_linear", num_train_timesteps=1000)
pipe = StableDiffusionPipeline.from_pretrained(model_id, scheduler=scheduler, use_auth_token=True)
pipe = pipe.to("cuda")
prompt = "una foto de un astronauta montando un caballo en Marte"
with autocast("cuda"):
image = pipe(prompt, guidance_scale=7.5)["sample"][0]
image.save("astronaut_rides_horse.png")
Funcionalidades
- Modelo de generación de imágenes a partir de texto
- Modelo de Difusión Latente
- Utiliza un codificador de texto fijo y preentrenado (CLIP ViT-L/14)
- Capacidad de mejorar el muestreo de guía sin clasificador
- Entrenado en LAION-5B y otros subconjuntos
Casos de uso
- Investigación sobre el despliegue seguro de modelos generativos
- Comprender las limitaciones y sesgos de los modelos generativos
- Generación de obras de arte y uso en procesos de diseño artístico
- Aplicaciones en herramientas creativas o educativas
- Investigación sobre modelos generativos