stable-diffusion-v1-5/stable-diffusion-inpainting
stable-diffusion-v1-5
Texto a imagen
Modelo de difusión latente para texto a imagen especializado en inpainting. Genera imágenes fotorrealistas a partir de prompts y también rellena o reemplaza regiones enmascaradas de una imagen usando una máscara. Fue inicializado desde Stable Diffusion v1.2 y afinado específicamente para inpainting a 512x512 con máscaras sintéticas.
Como usar
Se usa para editar imágenes mediante una máscara: las zonas blancas de la máscara se regeneran y las zonas negras se conservan. Puede ejecutarse con Diffusers o con flujos basados en checkpoints compatibles como AUTOMATIC1111.
Ejemplo con Diffusers:
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"sd-legacy/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
#image and mask_image should be PIL images.
#The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
También puede usarse descargando el checkpoint sd-v1-5-inpainting.ckpt para integrarlo en interfaces compatibles con Stable Diffusion.
Funcionalidades
- Generación de imágenes a partir de texto con capacidad adicional de inpainting
- Acepta una imagen base y una máscara para editar solo regiones seleccionadas
- Basado en un modelo de difusión latente con codificador de texto CLIP ViT-L/14
- UNet ampliado con 5 canales extra para inpainting: 4 de imagen enmascarada codificada y 1 de máscara
- Entrenado sobre subconjuntos estéticos de LAION con ajuste específico para relleno de imágenes
- Optimizado principalmente para prompts en inglés y resolución de trabajo de 512x512
Casos de uso
- Rellenar o reconstruir partes faltantes de una imagen
- Eliminar, sustituir o rediseñar objetos concretos dentro de una escena
- Edición creativa asistida por texto sobre imágenes existentes
- Prototipado visual y exploración artística con control por máscara
- Investigación sobre modelos generativos, sesgos y seguridad en generación de imágenes