controlnet-openpose-sdxl-1.0

thibaud
Texto a imagen

Estos son pesos de controlnet entrenados en stabilityai/stable-diffusion-xl-base-1.0 con la condición de OpenPose (v2). Este modelo permite generar imágenes mediante la combinación de diferentes redes y técnicas avanzadas, asegurando resultados de alta calidad.

Como usar

Primero, instala todas las bibliotecas requeridas:

pip install -q controlnet_aux transformers accelerate
pip install -q git+https://github.com/huggingface/diffusers

Ahora, estamos listos para hacer que Darth Vader baile:

from diffusers import AutoencoderKL, StableDiffusionXLControlNetPipeline, ControlNetModel, UniPCMultistepScheduler
import torch
from controlnet_aux import OpenposeDetector
from diffusers.utils import load_image

# Computar la imagen de acondicionamiento de openpose.
openpose = OpenposeDetector.from_pretrained("lllyasviel/ControlNet")

image = load_image(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/diffusers/person.png")
openpose_image = openpose(image)

# Inicializar la canalización de ControlNet.
controlnet = ControlNetModel.from_pretrained("thibaud/controlnet-openpose-sdxl-1.0", torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0", controlnet=controlnet, torch_dtype=torch.float16
)
pipe.enable_model_cpu_offload()

# Inferencia.
prompt = "Darth vader bailando en un desierto, alta calidad"
negative_prompt = "baja calidad, mala calidad"
images = pipe(
prompt, 
negative_prompt=negative_prompt,
num_inference_steps=25,
num_images_per_prompt=4,
image=openpose_image.resize((1024, 1024)),
generator=torch.manual_seed(97),
).images
images[0]

Funcionalidades

Pesos de ControlNet entrenados con OpenPose (v2)
Integración con stable-diffusion-xl
Generación de imágenes de alta calidad a partir de texto
Uso de inferencia avanzada y acondicionamiento de imagen
Optimizado para uso con diffusers

Casos de uso

Generación de imágenes artísticas de alta calidad a partir de descripciones textuales.
Creación de imágenes condicionadas por posturas específicas usando OpenPose.
Aplicaciones en animaciones y gráficos donde se necesita un acondicionamiento preciso de la imagen.