booksforcharlie/stable-diffusion-inpainting

booksforcharlie

Texto a imagen

Modelo de difusión latente para generación y edición de imágenes a partir de prompts de texto, con capacidad específica de inpainting mediante una máscara. Está basado en pesos de Stable Diffusion v1-2/v1-5 y fue entrenado adicionalmente para rellenar o modificar regiones enmascaradas de imágenes a resolución 512x512.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "booksforcharlie/stable-diffusion-inpainting",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo de inpainting con Diffusers:
from diffusers import StableDiffusionInpaintPipeline

pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)

prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
# image and mask_image should be PIL images.
# The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")

Funcionalidades

Generación de imágenes foto-realistas condicionadas por texto.
Inpainting: rellena o modifica zonas marcadas por una máscara usando el prompt como guía.
Arquitectura Latent Diffusion con codificador de texto CLIP ViT-L/14 y UNet condicionado por atención cruzada.
UNet adaptado para inpainting con 5 canales de entrada adicionales: 4 para la imagen enmascarada codificada y 1 para la máscara.
Entrenamiento con máscaras sintéticas y casos donde se enmascara toda la imagen en el 25% de las muestras.
Compatible con Diffusers mediante StableDiffusionInpaintPipeline.
Licencia CreativeML OpenRAIL-M.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
Estudio de limitaciones y sesgos en modelos de generación de imágenes.
Creación de arte, diseño visual y procesos creativos asistidos por texto.
Herramientas educativas o creativas que necesiten modificar regiones concretas de una imagen.
Investigación en modelos generativos de difusión e inpainting.
Rellenar, reemplazar o transformar partes de una imagen usando una máscara y una descripción textual.