⚡ Flash Diffusion: FlashSD3 ⚡

jasperai

Texto a imagen

Flash Diffusion es un método de destilación de difusión propuesto en Flash Diffusion: Acelerando cualquier modelo de difusión condicional para la generación de imágenes en pocos pasos por Clément Chadebec, Onur Tasar, Eyal Benaroche y Benjamin Aubin de Jasper Research. Este modelo es una versión destilada de LoRA de 90.4M del modelo SD3 que es capaz de generar imágenes de 1024x1024 en 4 pasos. Vea nuestra demostración en vivo y el repositorio oficial de Github.

Como usar

El modelo se puede usar directamente con la StableDiffusion3Pipeline de la biblioteca diffusers. Puede permitir reducir el número de pasos de muestreo requeridos a 4 pasos.
pip install git+https://github.com/initml/diffusers.git@clement/feature/flash_sd3

Luego, puedes ejecutar lo siguiente para generar una imagen:
import torch
from diffusers import StableDiffusion3Pipeline, SD3Transformer2DModel, FlashFlowMatchEulerDiscreteScheduler
from peft import PeftModel

# Cargar LoRA
transformer = SD3Transformer2DModel.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
subfolder="transformer",
torch_dtype=torch.float16,
)
transformer = PeftModel.from_pretrained(transformer, "jasperai/flash-sd3")

# Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
transformer=transformer,
torch_dtype=torch.float16,
text_encoder_3=None,
tokenizer_3=None
)

# Scheduler
pipe.scheduler = FlashFlowMatchEulerDiscreteScheduler.from_pretrained(
"stabilityai/stable-diffusion-3-medium-diffusers",
subfolder="scheduler",
)

pipe.to("cuda")

prompt = "Un mapache atrapado dentro de un frasco de vidrio lleno de dulces coloridos, el fondo está lleno de vapor con colores vivos."

image = pipe(prompt, num_inference_steps=4, guidance_scale=0).images[0]

Funcionalidades

Método de destilación de difusión
Genera imágenes de 1024x1024
Capaz de realizar la generación de imágenes en 4 pasos
Versión destilada de LoRA de 90.4M

Casos de uso

Generación de imágenes de alta calidad en pocos pasos
Optimización de modelos de difusión condicional
Creación rápida de prototipos visuales