Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps

Wuli-art

Texto a imagen

LoRA turbo de 2 pasos para Qwen-Image-2512, entrenado por Wuli Team para generación de imágenes texto-a-imagen más rápida que su versión turbo previa de 4 pasos. Está orientado a producir imágenes de alta calidad con muy pocas iteraciones, aunque puede perder calidad en tareas de renderizado de texto muy complejas.

Como usar

Carga el modelo base Qwen/Qwen-Image-2512, aplica este LoRA turbo y genera imágenes con 2 pasos de inferencia. Ejemplo con DiffSynth-Engine:
import math
from diffsynth_engine import fetch_model, QwenImagePipeline, QwenImagePipelineConfig

# Create pipeline
config = QwenImagePipelineConfig.basic_config(
    model_path=fetch_model("Qwen/Qwen-Image-2512", path="transformer/*.safetensors"),
    encoder_path=fetch_model("Qwen/Qwen-Image-2512", path="text_encoder/*.safetensors"),
    vae_path=fetch_model("Qwen/Qwen-Image-2512", path="vae/*.safetensors"),
    offload_mode="cpu_offload",
)
pipe = QwenImagePipeline.from_pretrained(config)

# Load our turbo LoRA
pipe.load_lora(
    path=fetch_model("Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-Steps", path="Wuli-Qwen-Image-2512-Turbo-LoRA-2steps-V1.0-bf16.safetensors"),
    scale=1.0,
    fused=True,
)

# Change scheduler config
scheduler_config = {
    "exponential_shift_mu": math.log(2.5),
    "use_dynamic_shifting": True,
    "shift_terminal": 0.7155
}
pipe.apply_scheduler_config(scheduler_config)

# Sample image
output = pipe(
    prompt="a young girl with flowing long hair, wearing a white halter dress and smiling sweetly. The background features a blue seaside where seagulls fly freely.",
    cfg_scale=1,
    num_inference_steps=2,
    seed=42,
    width=1328,
    height=1328
)
output.save("output.png")

Si la salida pierde calidad en tareas con texto muy complejo dentro de la imagen, conviene aumentar num_inference_steps.

Funcionalidades

Generación texto-a-imagen basada en Diffusers
LoRA turbo de 2 pasos sobre la base `Qwen/Qwen-Image-2512`
Optimizado para inferencia muy rápida con solo 2 pasos
Mejora respecto al turbo LoRA previo de 4 pasos del mismo equipo
Compatible con `DiffSynth-Engine`
Adecuado para retratos, escenas naturales, animales y composiciones fotorrealistas
La calidad en renderizado de texto complejo puede mejorar aumentando `num_inference_steps`

Casos de uso

Generación rápida de imágenes fotorrealistas con muy baja latencia
Creación de retratos juveniles y selfies con estética natural
Escenas de paisajes detallados como cañones, ríos, cascadas o costas con niebla
Primeros planos realistas de animales con alto nivel de detalle
Prototipado visual rápido sobre la base Qwen-Image-2512
Generación de imágenes de alta resolución en flujos donde importa más la velocidad que un número alto de pasos