EcomXL_controlnet_softedge

alimama-creative
Texto a imagen

EcomXL contiene una serie de modelos de difusión de texto a imagen optimizados para escenarios de comercio electrónico, desarrollados basándose en Stable Diffusion XL. Los pesos de controlnet están ajustados en base a stable-diffusion-xl-base-1.0. Funciona bien tanto en SDXL como en modelos comunitarios basados en SDXL. El modelo está entrenado con datos generales y datos de comercio electrónico de Taobao, y tiene buenas capacidades tanto en escenarios generales como de comercio electrónico.

Como usar

from diffusers import (
ControlNetModel,
StableDiffusionXLControlNetPipeline,
DPMSolverMultistepScheduler,
AutoencoderKL
)
from diffusers.utils import load_image
from controlnet_aux import PidiNetDetector, HEDdetector
import torch
from PIL import Image

controlnet = ControlNetModel.from_pretrained(
"alimama-creative/EcomXL_controlnet_softedge", torch_dtype=torch.float16, use_safetensors=True
)
vae = AutoencoderKL.from_pretrained('madebyollin/sdxl-vae-fp16-fix', torch_dtype=torch.float16)
pipe = StableDiffusionXLControlNetPipeline.from_pretrained(
"stabilityai/stable-diffusion-xl-base-1.0",
controlnet=controlnet,
vae=vae,
torch_dtype=torch.float16
)

pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# pipe.enable_xformers_memory_efficient_attention()
pipe.to(device="cuda", dtype=torch.float16)
pipe.enable_vae_slicing()

image = load_image(
"https://huggingface.co/alimama-creative/EcomXL_controlnet_softedge/resolve/main/images/1_1.png")
edge_processor = PidiNetDetector.from_pretrained('lllyasviel/Annotators')
edge_image = edge_processor(image, safe=False) # set True to use pidisafe

prompt="a bottle on the Twilight Grassland, Sitting on the ground, a couple of tall grass sitting in a field of tall grass, sunset,"
negative_prompt = "low quality, bad quality, sketches"

output = pipe(
prompt,
negative_prompt=negative_prompt,
image=edge_image,
num_inference_steps=25,
controlnet_conditioning_scale=0.6,
guidance_scale=7,
width=1024,
height=1024,
).images[0]

output.save(f'test_edge.png')

Funcionalidades

Modelos de difusión de texto a imagen
Optimizado para escenarios de comercio electrónico
Basado en Stable Diffusion XL
Pesos de controlnet ajustados en base a stable-diffusion-xl-base-1.0
Funciona bien en SDXL y modelos comunitarios basados en SDXL
Entrenado con datos generales y datos de comercio electrónico de Taobao
Buen rendimiento en escenarios generales y de comercio electrónico

Casos de uso

Generación de imágenes en escenarios de comercio electrónico
Mejora de la calidad de imágenes generadas para productos online
Aplicación en modelos comunitarios basados en SDXL