Wuli-art/Qwen-Image-2512-Turbo-LoRA
Wuli-art
Texto a imagen
LoRA turbo para Qwen-Image-2512 entrenado por Wuli Team, optimizado para generación de imágenes de texto a imagen en 4 u 8 pasos. Mantiene una calidad de salida cercana al modelo original, pero acelera la inferencia en más de 20 veces gracias a destilación CFG y a una fuerte reducción de pasos. La página destaca mejoras progresivas entre las versiones V1.0, V2.0 y V3.0, especialmente en color, detalle y compatibilidad con ComfyUI.
Como usar
Uso recomendado con DiffSynth-Engine cargando el modelo base Qwen/Qwen-Image-2512 y aplicando la LoRA turbo de Wuli. La configuración mostrada usa cfg_scale=1, 4 pasos de inferencia y resolución de 1328x1328; también se recomienda probar 8 pasos cuando la escena tenga más detalle.
import math
from diffsynth_engine import fetch_model, QwenImagePipeline, QwenImagePipelineConfig
# Create pipeline
config = QwenImagePipelineConfig.basic_config(
model_path=fetch_model("Qwen/Qwen-Image-2512", path="transformer/*.safetensors"),
encoder_path=fetch_model("Qwen/Qwen-Image-2512", path="text_encoder/*.safetensors"),
vae_path=fetch_model("Qwen/Qwen-Image-2512", path="vae/*.safetensors"),
offload_mode="cpu_offload",
)
pipe = QwenImagePipeline.from_pretrained(config)
# Load our turbo LoRA
pipe.load_lora(
path=fetch_model("Wuli-Art/Qwen-Image-2512-Turbo-LoRA", path="Wuli-Qwen-Image-2512-Turbo-LoRA-4steps-V1.0-bf16.safetensors"),
scale=1.0,
fused=True,
)
# Change scheduler config
scheduler_config = {
"exponential_shift_mu": math.log(2.5),
"use_dynamic_shifting": True,
"shift_terminal": None
}
pipe.apply_scheduler_config(scheduler_config)
# Sample image
output = pipe(
prompt="a young girl with flowing long hair, wearing a white halter dress and smiling sweetly. The background features a blue seaside where seagulls fly freely.",
cfg_scale=1,
num_inference_steps=4, # 8 is also recommended
seed=42,
width=1328,
height=1328
)
output.save("output.png")
Funcionalidades
- Generación texto a imagen basada en Diffusers.
- Adaptador LoRA para `Qwen/Qwen-Image-2512`.
- Modo turbo con inferencia recomendada en 4 u 8 pasos.
- Aceleración superior a 20x frente al modelo base de 40 pasos.
- Mejoras iterativas de color y detalle en V2.0 y V3.0.
- Compatible con ComfyUI en las versiones recientes.
- Útil para renders 3D, ilustración estilizada, escenas narrativas complejas y cómic multiviñeta.
- Puede degradar calidad en detalles extremadamente complejos si se usan muy pocos pasos.
Casos de uso
- Generación rápida de imágenes de alta resolución con estética cercana a Qwen-Image-2512 original.
- Prototipado visual donde la latencia importa, por ejemplo demos web o flujos interactivos.
- Creación de ilustraciones estilizadas con buena respuesta a prompts narrativos largos.
- Producción de cómics o escenas con texto embebido y composición por paneles.
- Renders de objetos y escenas detalladas con menos coste de inferencia que el modelo base.