diffusers/controlnet-depth-sdxl-1.0-small
diffusers
Texto a imagen
Estos son pesos de ControlNet entrenados en stabilityai/stable-diffusion-xl-base-1.0 con acondicionamiento de profundidad. Este punto de control es 7 veces más pequeño que el punto de control ControlNet XL original. Se recomienda experimentar con los parámetros controlnet_conditioning_scale y guidance_scale para potencialmente mejorar la calidad de generación de imágenes. Este punto de control es experimental y tiene mucho margen de mejora.
Como usar
Primero, asegúrese de instalar las bibliotecas necesarias:
pip install accelerate transformers safetensors diffusers
Luego puede usar el modelo con el siguiente código:
import torch
import numpy as np
from PIL import Image
from transformers import DPTFeatureExtractor, DPTForDepthEstimation
from diffusers import ControlNetModel, StableDiffusionXLControlNetPipeline, AutoencoderKL
from diffusers.utils import load_image
depth_estimator = DPTForDepthEstimation.from_pretrained("Intel/dpt-hybrid-midas").to("cuda")
feature_extractor = DPTFeatureExtractor.from_pretrained("Intel/dpt-hybrid-midas")
controlnet = ControlNetModel.from_pretrained(
"diffusers/controlnet-depth-sdxl-1.0-small",
variant="fp16",
use_safetensors=True,
torch_dtype=torch.float16,
).to("cuda")
vae = AutoencoderKL.from_pretrained("madebyollin/sdxl-vae-fp16-fix", torch_dtype=torch.float16).to("cuda")
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
controlnet=controlnet,
vae=vae,
variant="fp16",
use_safetensors=True,
torch_dtype=torch.float16,
).to("cuda")
pipe.enable_model_cpu_offload()
def get_depth_map(image):
image = feature_extractor(images=image, return_tensors="pt").pixel_values.to("cuda")
with torch.no_grad(), torch.autocast("cuda"):
depth_map = depth_estimator(image).predicted_depth
depth_map = torch.nn.functional.interpolate(
depth_map.unsqueeze(1),
size=(1024, 1024),
mode="bicubic",
align_corners=False,
)
depth_min = torch.amin(depth_map, dim=[1, 2, 3], keepdim=True)
depth_max = torch.amax(depth_map, dim=[1, 2, 3], keepdim=True)
depth_map = (depth_map - depth_min) / (depth_max - depth_min)
image = torch.cat([depth_map] * 3, dim=1)
image = image.permute(0, 2, 3, 1).cpu().numpy()[0]
image = Image.fromarray((image * 255.0).clip(0, 255).astype(np.uint8))
return image
prompt = "stormtrooper lecture, photorealistic"
image = load_image("https://huggingface.co/lllyasviel/sd-controlnet-depth/resolve/main/images/stormtrooper.png")
controlnet_conditioning_scale = 0.5 # recomendado para una buena generalización
depth_image = get_depth_map(image)
images = pipe(
prompt, image=depth_image, num_inference_steps=30, controlnet_conditioning_scale=controlnet_conditioning_scale,
).images
images[0]
images[0].save(f"stormtrooper_grid.png")
Para más detalles, visite la documentación oficial de StableDiffusionXLControlNetPipeline.
Funcionalidades
- Pesos de ControlNet entrenados con acondicionamiento de profundidad.
- 7 veces más pequeño que el punto de control ControlNet XL original.
- El modelo funciona bastante bien con la mayoría de las imágenes de acondicionamiento.
- No posee bloques de atención.
- Entrenado con 3M imágenes del subconjunto estético 6 plus de LAION.
Casos de uso
- Generación de imágenes fotorrealistas a partir de prompts.
- Acondicionamiento de imágenes con mapas de profundidad para mejorar la calidad.
- Experimentación con generación de imágenes complejas mediante ControlNet.