stable-diffusion-v1-5/stable-diffusion-inpainting

stable-diffusion-v1-5

Texto a imagen

Modelo de difusión latente para texto a imagen especializado en inpainting. Genera imágenes fotorrealistas a partir de prompts y también rellena o reemplaza regiones enmascaradas de una imagen usando una máscara. Fue inicializado desde Stable Diffusion v1.2 y afinado específicamente para inpainting a 512x512 con máscaras sintéticas.

Como usar

Se usa para editar imágenes mediante una máscara: las zonas blancas de la máscara se regeneran y las zonas negras se conservan. Puede ejecutarse con Diffusers o con flujos basados en checkpoints compatibles como AUTOMATIC1111.
Ejemplo con Diffusers:
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "sd-legacy/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
#image and mask_image should be PIL images.
#The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")

También puede usarse descargando el checkpoint sd-v1-5-inpainting.ckpt para integrarlo en interfaces compatibles con Stable Diffusion.

Funcionalidades

Generación de imágenes a partir de texto con capacidad adicional de inpainting
Acepta una imagen base y una máscara para editar solo regiones seleccionadas
Basado en un modelo de difusión latente con codificador de texto CLIP ViT-L/14
UNet ampliado con 5 canales extra para inpainting: 4 de imagen enmascarada codificada y 1 de máscara
Entrenado sobre subconjuntos estéticos de LAION con ajuste específico para relleno de imágenes
Optimizado principalmente para prompts en inglés y resolución de trabajo de 512x512

Casos de uso

Rellenar o reconstruir partes faltantes de una imagen
Eliminar, sustituir o rediseñar objetos concretos dentro de una escena
Edición creativa asistida por texto sobre imágenes existentes
Prototipado visual y exploración artística con control por máscara
Investigación sobre modelos generativos, sesgos y seguridad en generación de imágenes