segmind/Segmind-VegaRT

segmind

Texto a imagen

Segmind-VegaRT es un adaptador LoRA de Latent Consistency Model para Segmind-Vega que acelera la generación texto-a-imagen reduciendo la inferencia a unas 2-8 etapas. Está pensado para uso en Diffusers con LCMScheduler y permite inferencia rápida en flujos basados en Segmind-Vega, con parámetros recomendados de guidance_scale desactivado o bajo.

Como usar

Instalación básica:
pip install --upgrade pip
pip install --upgrade diffusers transformers accelerate peft

Ejemplo con Diffusers cargando el modelo base Segmind-Vega y el LoRA Segmind-VegaRT:
import torch
from diffusers import LCMScheduler, AutoPipelineForText2Image

model_id = "segmind/Segmind-Vega"
adapter_id = "segmind/Segmind-VegaRT"

pipe = AutoPipelineForText2Image.from_pretrained(model_id, torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
pipe.to("cuda")

# load and fuse lcm lora
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()

prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"

# disable guidance_scale by passing 0
image = pipe(prompt=prompt, num_inference_steps=4, guidance_scale=0).images[0]

Ejemplo alternativo mostrado en la página:
import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("segmind/Segmind-Vega", dtype=torch.bfloat16, device_map="cuda")
pipe.load_lora_weights("segmind/Segmind-VegaRT")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Funcionalidades

Adaptador LCM-LoRA para el modelo base segmind/Segmind-Vega.
Tarea principal: generación de imágenes a partir de texto.
Reduce el número de pasos de inferencia a entre 2 y 8.
Compatible con Hugging Face Diffusers desde la versión 0.23.0.
Usa licencia Apache 2.0.
Tiene 119 millones de parámetros en el adaptador, según la tabla del modelo.
No aparece desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.

Casos de uso

Generación texto-a-imagen de baja latencia con Segmind-Vega.
Prototipos de inferencia casi en tiempo real usando LCM-LoRA.
Aplicaciones creativas que necesitan producir imágenes en pocos pasos de difusión.
Comparaciones de velocidad o calidad frente a modelos acelerados como SDXL-Turbo.