SD3-Controlnet-Inpainting

alimama-creative
Texto a imagen

Modelo de inpainting fine-tuned basado en SD3-medium, el modelo de inpainting ofrece varias ventajas: Aprovechando el VAE de 16 canales de SD3 y la capacidad de generación de alta resolución a 1024, el modelo preserva eficazmente la integridad de las regiones que no necesitan inpainting, incluido el texto. Es capaz de generar texto a través del inpainting. Demuestra un rendimiento estético superior en la generación de retratos.

Como usar

Usar con Diffusers

pip uninstall diffusers
pip install git+https://github.com/huggingface/diffusers

import torch
from diffusers.utils import load_image, check_min_version
from diffusers.pipelines import StableDiffusion3ControlNetInpaintingPipeline
from diffusers.models.controlnet_sd3 import SD3ControlNetModel

controlnet = SD3ControlNetModel.from_pretrained(
"alimama-creative/SD3-Controlnet-Inpainting", use_safetensors=True, extra_conditioning_channels=1
)
pipe = StableDiffusion3ControlNetInpaintingPipeline.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
controlnet=controlnet,
torch_dtype=torch.float16,
)
pipe.text_encoder.to(torch.float16)
pipe.controlnet.to(torch.float16)
pipe.to("cuda")

image = load_image(
"https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog.png")
mask = load_image(
"https://huggingface.co/alimama-creative/SD3-Controlnet-Inpainting/resolve/main/images/dog_mask.png")
width = 1024
height = 1024
prompt = "A cat is sitting next to a puppy."
generator = torch.Generator(device="cuda").manual_seed(24)
res_image = pipe(
negative_prompt="deformed, distorted, disfigured, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, mutated hands and fingers, disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, NSFW",
prompt=prompt,
height=height,
width=width,
control_image=image,
control_mask=mask,
num_inference_steps=28,
generator=generator,
controlnet_conditioning_scale=0.95,
guidance_scale=7,
).images[0]
res_image.save(f"sd3.png")

Funcionalidades

Aprovechamiento del VAE de 16 canales SD3
Capacidad de generación de alta resolución a 1024
Conservación de la integridad de las regiones que no necesitan inpainting, incluido el texto
Capaz de generar texto mediante el inpainting
Rendimiento estético superior en la generación de retratos

Casos de uso

Generación de texto mediante inpainting
Generación de retratos estéticamente mejorados
Preservación de la integridad de regiones no modificadas en imágenes, incluidas áreas con texto