KOALA-Lightning-700M

etri-vilab

Texto a imagen

Proponemos un modelo de texto a imagen rápido, llamado KOALA, comprimiendo el U-Net de SDXL y destilando el conocimiento desde SDXL a nuestro modelo. KOALA-Lightning-700M puede generar una imagen de 1024x1024 en 0,66 segundos en una GPU NVIDIA 4090, lo cual es más de 4 veces más rápido que SDXL. KOALA-700M puede ser utilizado como una alternativa rentable entre SDM y SDXL en recursos limitados. El modelo fue entrenado utilizando un método de destilación de conocimiento basado en auto-atención, utilizando el modelo SDXL-Lightning como profesor y un subconjunto del dataset LAION-POP. Se realizaron 500K iteraciones de entrenamiento con un tamaño de lote de 128 en cuatro GPUs NVIDIA A100 (80 GB).

Como usar

El código de inferencia con el paso de eliminación de ruido 25
import torch
from diffusers import StableDiffusionXLPipeline, EulerDiscreteScheduler

pipe = StableDiffusionXLPipeline.from_pretrained("etri-vilab/koala-lightning-700m", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

# Asegúrese de que el muestreador use "trailing" timesteps y "sample" tipo de predicción.
pipe.scheduler = EulerDiscreteScheduler.from_config(
pipe.scheduler.config, timestep_spacing="trailing")

prompt = "A portrait painting of a Golden Retriever like Leonard da Vinci"
negative = "worst quality, low quality, illustration, low resolution"
image = pipe(prompt=prompt, negative_prompt=negative, guidance_scale=3.5, num_inference_steps=10).images[0]

Funcionalidades

Arquitectura U-Net eficiente: Los modelos KOALA usan una arquitectura U-Net simplificada que reduce el tamaño del modelo hasta un 54% y un 69% respectivamente comparado con su predecesor, Stable Diffusion XL (SDXL).
Destilación de conocimiento basada en auto-atención: La técnica central en KOALA se enfoca en la destilación de características de auto-atención, lo que demuestra ser crucial para mantener la calidad de la generación de imágenes.

Casos de uso

Generación de obras de arte y su uso en procesos de diseño y otros procesos artísticos.
Aplicaciones en herramientas educativas o creativas.
Investigación sobre modelos generativos.
Despliegue seguro de modelos que tienen el potencial de generar contenido dañino.
Sondeo y comprensión de las limitaciones y sesgos de los modelos generativos.