diffusers/stable-diffusion-xl-1.0-inpainting-0.1

diffusers

Texto a imagen

SD-XL Inpainting 0.1 es un modelo latente de difusión de texto a imagen capaz de generar imágenes fotorrealistas a partir de cualquier entrada de texto, con la capacidad adicional de mejorar las imágenes mediante el uso de una máscara. El SD-XL Inpainting 0.1 se inicializó con los pesos de stable-diffusion-xl-base-1.0. El modelo se entrenó durante 40k pasos a una resolución de 1024x1024 y con un 5% de omisión del acondicionamiento de texto para mejorar el muestreo de guía sin clasificador. Para la pintura, UNet tiene 5 canales de entrada adicionales (4 para la imagen enmascarada codificada y 1 para la máscara misma) cuyos pesos se inicializaron a cero después de restaurar el punto de control no enmascarado. Durante el entrenamiento, generamos máscaras sintéticas y, en el 25% de los casos, enmascaramos todo.

Como usar

from diffusers import AutoPipelineForInpainting
from diffusers.utils import load_image
import torch

pipe = AutoPipelineForInpainting.from_pretrained("diffusers/stable-diffusion-xl-1.0-inpainting-0.1", torch_dtype=torch.float16, variant="fp16").to("cuda")

img_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo.png"
mask_url = "https://raw.githubusercontent.com/CompVis/latent-diffusion/main/data/inpainting_examples/overture-creations-5sI6fQgYIuo_mask.png"

image = load_image(img_url).resize((1024, 1024))
mask_image = load_image(mask_url).resize((1024, 1024))

prompt = "a tiger sitting on a park bench"
generator = torch.Generator(device="cuda").manual_seed(0)

image = pipe(
prompt=prompt,
image=image,
mask_image=mask_image,
guidance_scale=8.0,
num_inference_steps=20, # steps between 15 and 30 work well for us
strength=0.99, # make sure to use `strength` below 1.0
generator=generator,
).images[0]

Funcionalidades

Generación de imágenes fotorrealistas a partir de texto
Capacidad de mejoramiento de imágenes mediante máscaras
Entrenado con pesos de stable-diffusion-xl-base-1.0
5% de omisión del acondicionamiento de texto para mejorar el muestreo de guía sin clasificador
5 canales de entrada adicionales para imágenes enmascaradas

Casos de uso

Generación de obras de arte y uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.
Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Exploración y comprensión de las limitaciones y sesgos de los modelos generativos.