Wuli-art/Qwen-Image-2512-Turbo-LoRA

Wuli-art

Texto a imagen

LoRA turbo para Qwen-Image-2512 entrenado por Wuli Team, optimizado para generación de imágenes de texto a imagen en 4 u 8 pasos. Mantiene una calidad de salida cercana al modelo original, pero acelera la inferencia en más de 20 veces gracias a destilación CFG y a una fuerte reducción de pasos. La página destaca mejoras progresivas entre las versiones V1.0, V2.0 y V3.0, especialmente en color, detalle y compatibilidad con ComfyUI.

Como usar

Uso recomendado con DiffSynth-Engine cargando el modelo base Qwen/Qwen-Image-2512 y aplicando la LoRA turbo de Wuli. La configuración mostrada usa cfg_scale=1, 4 pasos de inferencia y resolución de 1328x1328; también se recomienda probar 8 pasos cuando la escena tenga más detalle.
import math
from diffsynth_engine import fetch_model, QwenImagePipeline, QwenImagePipelineConfig

# Create pipeline
config = QwenImagePipelineConfig.basic_config(
    model_path=fetch_model("Qwen/Qwen-Image-2512", path="transformer/*.safetensors"),
    encoder_path=fetch_model("Qwen/Qwen-Image-2512", path="text_encoder/*.safetensors"),
    vae_path=fetch_model("Qwen/Qwen-Image-2512", path="vae/*.safetensors"),
    offload_mode="cpu_offload",
)
pipe = QwenImagePipeline.from_pretrained(config)

# Load our turbo LoRA
pipe.load_lora(
    path=fetch_model("Wuli-Art/Qwen-Image-2512-Turbo-LoRA", path="Wuli-Qwen-Image-2512-Turbo-LoRA-4steps-V1.0-bf16.safetensors"),
    scale=1.0,
    fused=True,
)

# Change scheduler config
scheduler_config = {
    "exponential_shift_mu": math.log(2.5),
    "use_dynamic_shifting": True,
    "shift_terminal": None
}
pipe.apply_scheduler_config(scheduler_config)

# Sample image
output = pipe(
    prompt="a young girl with flowing long hair, wearing a white halter dress and smiling sweetly. The background features a blue seaside where seagulls fly freely.",
    cfg_scale=1,
    num_inference_steps=4, # 8 is also recommended
    seed=42,
    width=1328,
    height=1328
)
output.save("output.png")

Funcionalidades

Generación texto a imagen basada en Diffusers.
Adaptador LoRA para `Qwen/Qwen-Image-2512`.
Modo turbo con inferencia recomendada en 4 u 8 pasos.
Aceleración superior a 20x frente al modelo base de 40 pasos.
Mejoras iterativas de color y detalle en V2.0 y V3.0.
Compatible con ComfyUI en las versiones recientes.
Útil para renders 3D, ilustración estilizada, escenas narrativas complejas y cómic multiviñeta.
Puede degradar calidad en detalles extremadamente complejos si se usan muy pocos pasos.

Casos de uso

Generación rápida de imágenes de alta resolución con estética cercana a Qwen-Image-2512 original.
Prototipado visual donde la latencia importa, por ejemplo demos web o flujos interactivos.
Creación de ilustraciones estilizadas con buena respuesta a prompts narrativos largos.
Producción de cómics o escenas con texto embebido y composición por paneles.
Renders de objetos y escenas detalladas con menos coste de inferencia que el modelo base.