diffusers/controlnet-depth-sdxl-1.0

diffusers

Texto a imagen

Pesos de controlnet entrenados en stabilityai/stable-diffusion-xl-base-1.0 con acondicionamiento de profundidad. El modelo se entrena en 3 millones de pares de imágenes-texto de LAION-Aesthetics V2 y está diseñado para generar imágenes fotorrealistas a partir de textos y mapas de profundidad.

Como usar

Asegúrate de instalar las bibliotecas:
pip install accelerate transformers safetensors diffusers

Y luego estamos listos para comenzar:
import torch
import numpy as np
from PIL import Image

from transformers import DPTFeatureExtractor, DPTForDepthEstimation
from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image


depth_estimator = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas").to("cuda")
feature_extractor = DPTFeatureExtractor.from_pretrained("Intel/dpt-hybrid-midas")
controlnet = ControlNetModel.from_pretrained(
"diffusers/controlnet-depth-sdxl-1.0",
variant="fp16",
use_safetensors=True,
torch_dtype=torch.float16,
)
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
controlnet=controlnet,
vae=vae,
variant="fp16",
use_safetensors=True,
torch_dtype=torch.float16,
)
pipe.enable_model_cpu_offload()

def get_depth_map(image):
image = feature_extractor(images=image, return_tensors="pt").pixel_values.to("cuda")
with torch.no_grad(), torch.autocast("cuda"):
depth_map = depth_estimator(image).predicted_depth

depth_map = torch.nn.functional.interpolate(
depth_map.unsqueeze(1),
size=(1024, 1024),
mode="bicubic",
align_corners=False,
)
depth_min = torch.amin(depth_map, dim=[1, 2, 3], keepdim=True)
depth_max = torch.amax(depth_map, dim=[1, 2, 3], keepdim=True)
depth_map = (depth_map - depth_min) / (depth_max - depth_min)
image = torch.cat([depth_map] * 3, dim=1)

image = image.permute(0, 2, 3, 1).cpu().numpy()[0]
image = Image.fromarray((image * 255.0).clip(0, 255).astype(np.uint8))
return image


prompt = "stormtrooper lecture, photorealistic"
image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")
controlnet_conditioning_scale = 0.5 # recomendado para una buena generalización

depth_image = get_depth_map(image)

images = pipe(
prompt, image=depth_image, num_inference_steps=30, controlnet_conditioning_scale=controlnet_conditioning_scale,
).images
images[0]

images[0].save(f"stormtrooper.png")

Para más detalles, revisa la documentación oficial de StableDiffusionXLControlNetPipeline.

Funcionalidades

Acondicionamiento de profundidad
Interfaz compatible con la librería Diffusers
Soporte para modelos safetensors
Capacidades de offload a CPU
Compatibilidad con preentrenamientos de modelos de estimación de profundidad

Casos de uso

Generación de imágenes fotorrealistas a partir de texto
Sustitución de fondo en imágenes
Transferencia y reemplazo de objetos en imágenes
Aplicaciones en e-commerce para generación de contenido visual
Proyectos creativos y artísticos que involucran manipulación de imágenes