botp/stable-diffusion-v1-5-inpainting

botp
Texto a imagen

Modelo de difusión latente para generación y edición de imágenes a partir de texto, basado en Stable Diffusion v1.5 y especializado en inpainting mediante una máscara. Puede modificar zonas concretas de una imagen conservando el resto, usando una imagen enmascarada y un prompt textual.

Como usar

Instalación y uso básico con Diffusers:

pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "botp/stable-diffusion-v1-5-inpainting",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo específico de inpainting con StableDiffusionInpaintPipeline:

from diffusers import StableDiffusionInpaintPipeline

pipe = StableDiffusionInpaintPipeline.from_pretrained(
    "runwayml/stable-diffusion-inpainting",
    revision="fp16",
    torch_dtype=torch.float16,
)

prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
# image and mask_image should be PIL images.
# The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")

Funcionalidades

Generación de imágenes fotorrealistas desde prompts de texto.
Inpainting con máscara: las zonas blancas de la máscara se rellenan y las zonas negras se conservan.
Usa un UNet con 5 canales de entrada adicionales para la imagen enmascarada codificada y la máscara.
Entrenado a resolución 512x512 con datos de LAION y entrenamiento adicional específico para inpainting.
Compatible con la librería Diffusers y con pipelines de Stable Diffusion Inpaint.
Usa un codificador de texto CLIP ViT-L/14 fijo dentro de una arquitectura de difusión latente.

Casos de uso

Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
Estudio de limitaciones, sesgos y comportamiento de modelos de generación visual.
Creación de arte, diseño visual y flujos creativos asistidos por IA.
Herramientas educativas o creativas que necesiten edición localizada de imágenes.
Rellenar, reemplazar o reconstruir partes de una imagen usando una máscara y una instrucción textual.