alibaba-pai/Z-Image-Fun-Lora-Distill

alibaba-pai
Texto a imagen

LoRA de destilación para Z-Image enfocada en generación de imagen rápida con menos pasos de inferencia. Destila simultáneamente los pasos y el CFG, no requiere pesos de Z-Image-Turbo y fue entrenada desde cero. Está pensada para modelos derivados de Z-Image, con compatibilidad con otros LoRA y controles, aceptando una ligera reducción de calidad y cambios de composición a cambio de velocidad.

Como usar

Clona el repositorio VideoX-Fun, crea los directorios de modelos, descarga los pesos en las carpetas indicadas y configura lora_path antes de ejecutar los scripts.

# Clone the code
git clone https://github.com/aigc-apps/VideoX-Fun.git

# Enter VideoX-Fun's directory
cd VideoX-Fun

# Create model directories
mkdir -p models/Diffusion_Transformer
mkdir -p models/Personalized_Model

Estructura esperada:

models/
├── Diffusion_Transformer/
│   └── Z-Image/
├── Personalized_Model/
│   ├── Z-Image-Fun-Lora-Distill-4-Steps-2602.safetensors
│   ├── Z-Image-Fun-Lora-Distill-8-Steps-2602.safetensors
│   ├── Z-Image-Fun-Controlnet-Union-2.1.safetensors
│   └── Z-Image-Fun-Controlnet-Union-2.1-lite.safetensors

Configura en examples/z_image/predict_t2i.py:

lora_path = "Personalized_Model/Z-Image-Fun-Lora-Distill-8-Steps.safetensors"

Luego ejecuta:

examples/z_image/predict_t2i.py

También soporta:

examples/z_image_fun/predict_t2i_control_2.1.py
examples/z_image_fun/predict_i2i_inpaint_2.1.py

Ajustes recomendados:

cfg = 1.0
steps = 8
lora_weight = 0.8  # rango sugerido: 0.7 ~ 0.9

Funcionalidades

Versiones 2603, 2602 y anteriores con variantes de 2, 4 y 8 pasos.
La variante 2603 añade estrategia de pasos temporales aleatorios para adaptarse mejor a sigmas menores de 0.500.
La versión de 2 pasos reduce la inferencia de 8 a 2 pasos y recomienda mayor fuerza de LoRA.
La versión de 4 pasos reduce la inferencia de 8 a 4 pasos manteniendo colores más cercanos al modelo original y mejor textura de piel frente a variantes antiguas.
La versión 2603 corrige el desenfoque que aparecía en 2602 con sigmas bajos.
No requiere CFG durante la inferencia en la variante base de 8 pasos.
Compatible con otros LoRA y con ControlNet para flujos como pose, canny, depth e inpaint.
Incluye archivos específicos para ComfyUI en varias versiones.

Casos de uso

Generación de texto a imagen con Z-Image cuando se prioriza velocidad de inferencia.
Aceleración de pipelines derivados de Z-Image sin depender de Z-Image-Turbo.
Flujos con ControlNet para pose, canny, depth e inpaint.
Escenarios donde se necesita reducir pasos de 8 a 4 o incluso 2 manteniendo compatibilidad con LoRA existentes.
Pruebas rápidas de composición visual con versiones adaptadas a sigmas bajos, especialmente en la línea 2603.