booksforcharlie/stable-diffusion-inpainting
booksforcharlie
Texto a imagen
Modelo de difusión latente para generación y edición de imágenes a partir de prompts de texto, con capacidad específica de inpainting mediante una máscara. Está basado en pesos de Stable Diffusion v1-2/v1-5 y fue entrenado adicionalmente para rellenar o modificar regiones enmascaradas de imágenes a resolución 512x512.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"booksforcharlie/stable-diffusion-inpainting",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo de inpainting con Diffusers:
from diffusers import StableDiffusionInpaintPipeline
pipe = StableDiffusionInpaintPipeline.from_pretrained(
"runwayml/stable-diffusion-inpainting",
revision="fp16",
torch_dtype=torch.float16,
)
prompt = "Face of a yellow cat, high resolution, sitting on a park bench"
# image and mask_image should be PIL images.
# The mask structure is white for inpainting and black for keeping as is
image = pipe(prompt=prompt, image=image, mask_image=mask_image).images[0]
image.save("./yellow_cat_on_park_bench.png")
Funcionalidades
- Generación de imágenes foto-realistas condicionadas por texto.
- Inpainting: rellena o modifica zonas marcadas por una máscara usando el prompt como guía.
- Arquitectura Latent Diffusion con codificador de texto CLIP ViT-L/14 y UNet condicionado por atención cruzada.
- UNet adaptado para inpainting con 5 canales de entrada adicionales: 4 para la imagen enmascarada codificada y 1 para la máscara.
- Entrenamiento con máscaras sintéticas y casos donde se enmascara toda la imagen en el 25% de las muestras.
- Compatible con Diffusers mediante StableDiffusionInpaintPipeline.
- Licencia CreativeML OpenRAIL-M.
Casos de uso
- Investigación sobre despliegue seguro de modelos generativos capaces de producir contenido dañino.
- Estudio de limitaciones y sesgos en modelos de generación de imágenes.
- Creación de arte, diseño visual y procesos creativos asistidos por texto.
- Herramientas educativas o creativas que necesiten modificar regiones concretas de una imagen.
- Investigación en modelos generativos de difusión e inpainting.
- Rellenar, reemplazar o transformar partes de una imagen usando una máscara y una descripción textual.