segmind/Segmind-VegaRT
segmind
Texto a imagen
Segmind-VegaRT es un adaptador LoRA de Latent Consistency Model para Segmind-Vega que acelera la generación texto-a-imagen reduciendo la inferencia a unas 2-8 etapas. Está pensado para uso en Diffusers con LCMScheduler y permite inferencia rápida en flujos basados en Segmind-Vega, con parámetros recomendados de guidance_scale desactivado o bajo.
Como usar
Instalación básica:
pip install --upgrade pip
pip install --upgrade diffusers transformers accelerate peft
Ejemplo con Diffusers cargando el modelo base Segmind-Vega y el LoRA Segmind-VegaRT:
import torch
from diffusers import LCMScheduler, AutoPipelineForText2Image
model_id = "segmind/Segmind-Vega"
adapter_id = "segmind/Segmind-VegaRT"
pipe = AutoPipelineForText2Image.from_pretrained(model_id, torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = LCMScheduler.from_config(pipe.scheduler.config)
pipe.to("cuda")
# load and fuse lcm lora
pipe.load_lora_weights(adapter_id)
pipe.fuse_lora()
prompt = "Self-portrait oil painting, a beautiful cyborg with golden hair, 8k"
# disable guidance_scale by passing 0
image = pipe(prompt=prompt, num_inference_steps=4, guidance_scale=0).images[0]
Ejemplo alternativo mostrado en la página:
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("segmind/Segmind-Vega", dtype=torch.bfloat16, device_map="cuda")
pipe.load_lora_weights("segmind/Segmind-VegaRT")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Funcionalidades
- Adaptador LCM-LoRA para el modelo base segmind/Segmind-Vega.
- Tarea principal: generación de imágenes a partir de texto.
- Reduce el número de pasos de inferencia a entre 2 y 8.
- Compatible con Hugging Face Diffusers desde la versión 0.23.0.
- Usa licencia Apache 2.0.
- Tiene 119 millones de parámetros en el adaptador, según la tabla del modelo.
- No aparece desplegado en proveedores de inferencia de Hugging Face en la página proporcionada.
Casos de uso
- Generación texto-a-imagen de baja latencia con Segmind-Vega.
- Prototipos de inferencia casi en tiempo real usando LCM-LoRA.
- Aplicaciones creativas que necesitan producir imágenes en pocos pasos de difusión.
- Comparaciones de velocidad o calidad frente a modelos acelerados como SDXL-Turbo.