Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps
Wuli-art
Texto a imagen
LoRA turbo de 2 pasos para Qwen-Image-2512, entrenado por Wuli Team para generación de imágenes texto-a-imagen más rápida que su versión turbo previa de 4 pasos. Está orientado a producir imágenes de alta calidad con muy pocas iteraciones, aunque puede perder calidad en tareas de renderizado de texto muy complejas.
Como usar
Carga el modelo base Qwen/Qwen-Image-2512, aplica este LoRA turbo y genera imágenes con 2 pasos de inferencia. Ejemplo con DiffSynth-Engine:
import math
from diffsynth_engine import fetch_model, QwenImagePipeline, QwenImagePipelineConfig
# Create pipeline
config = QwenImagePipelineConfig.basic_config(
model_path=fetch_model("Qwen/Qwen-Image-2512", path="transformer/*.safetensors"),
encoder_path=fetch_model("Qwen/Qwen-Image-2512", path="text_encoder/*.safetensors"),
vae_path=fetch_model("Qwen/Qwen-Image-2512", path="vae/*.safetensors"),
offload_mode="cpu_offload",
)
pipe = QwenImagePipeline.from_pretrained(config)
# Load our turbo LoRA
pipe.load_lora(
path=fetch_model("Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps", path="Wuli-Qwen-Image-2512-Turbo-LoRA-2steps-V1.0-bf16.safetensors"),
scale=1.0,
fused=True,
)
# Change scheduler config
scheduler_config = {
"exponential_shift_mu": math.log(2.5),
"use_dynamic_shifting": True,
"shift_terminal": 0.7155
}
pipe.apply_scheduler_config(scheduler_config)
# Sample image
output = pipe(
prompt="a young girl with flowing long hair, wearing a white halter dress and smiling sweetly. The background features a blue seaside where seagulls fly freely.",
cfg_scale=1,
num_inference_steps=2,
seed=42,
width=1328,
height=1328
)
output.save("output.png")
Si la salida pierde calidad en tareas con texto muy complejo dentro de la imagen, conviene aumentar num_inference_steps.
Funcionalidades
- Generación texto-a-imagen basada en Diffusers
- LoRA turbo de 2 pasos sobre la base `Qwen/Qwen-Image-2512`
- Optimizado para inferencia muy rápida con solo 2 pasos
- Mejora respecto al turbo LoRA previo de 4 pasos del mismo equipo
- Compatible con `DiffSynth-Engine`
- Adecuado para retratos, escenas naturales, animales y composiciones fotorrealistas
- La calidad en renderizado de texto complejo puede mejorar aumentando `num_inference_steps`
Casos de uso
- Generación rápida de imágenes fotorrealistas con muy baja latencia
- Creación de retratos juveniles y selfies con estética natural
- Escenas de paisajes detallados como cañones, ríos, cascadas o costas con niebla
- Primeros planos realistas de animales con alto nivel de detalle
- Prototipado visual rápido sobre la base Qwen-Image-2512
- Generación de imágenes de alta resolución en flujos donde importa más la velocidad que un número alto de pasos