alibaba-pai/Z-Image-Fun-Lora-Distill
alibaba-pai
Texto a imagen
LoRA de destilación para Z-Image enfocada en generación de imagen rápida con menos pasos de inferencia. Destila simultáneamente los pasos y el CFG, no requiere pesos de Z-Image-Turbo y fue entrenada desde cero. Está pensada para modelos derivados de Z-Image, con compatibilidad con otros LoRA y controles, aceptando una ligera reducción de calidad y cambios de composición a cambio de velocidad.
Como usar
Clona el repositorio VideoX-Fun, crea los directorios de modelos, descarga los pesos en las carpetas indicadas y configura lora_path antes de ejecutar los scripts.
# Clone the code
git clone https://github.com/aigc-apps/VideoX-Fun.git
# Enter VideoX-Fun's directory
cd VideoX-Fun
# Create model directories
mkdir -p models/Diffusion_Transformer
mkdir -p models/Personalized_Model
Estructura esperada:
models/
├── Diffusion_Transformer/
│ └── Z-Image/
├── Personalized_Model/
│ ├── Z-Image-Fun-Lora-Distill-4-Steps-2602.safetensors
│ ├── Z-Image-Fun-Lora-Distill-8-Steps-2602.safetensors
│ ├── Z-Image-Fun-Controlnet-Union-2.1.safetensors
│ └── Z-Image-Fun-Controlnet-Union-2.1-lite.safetensors
Configura en examples/z_image/predict_t2i.py:
lora_path = "Personalized_Model/Z-Image-Fun-Lora-Distill-8-Steps.safetensors"
Luego ejecuta:
examples/z_image/predict_t2i.py
También soporta:
examples/z_image_fun/predict_t2i_control_2.1.py
examples/z_image_fun/predict_i2i_inpaint_2.1.py
Ajustes recomendados:
cfg = 1.0
steps = 8
lora_weight = 0.8 # rango sugerido: 0.7 ~ 0.9
Funcionalidades
- Versiones 2603, 2602 y anteriores con variantes de 2, 4 y 8 pasos.
- La variante 2603 añade estrategia de pasos temporales aleatorios para adaptarse mejor a sigmas menores de 0.500.
- La versión de 2 pasos reduce la inferencia de 8 a 2 pasos y recomienda mayor fuerza de LoRA.
- La versión de 4 pasos reduce la inferencia de 8 a 4 pasos manteniendo colores más cercanos al modelo original y mejor textura de piel frente a variantes antiguas.
- La versión 2603 corrige el desenfoque que aparecía en 2602 con sigmas bajos.
- No requiere CFG durante la inferencia en la variante base de 8 pasos.
- Compatible con otros LoRA y con ControlNet para flujos como pose, canny, depth e inpaint.
- Incluye archivos específicos para ComfyUI en varias versiones.
Casos de uso
- Generación de texto a imagen con Z-Image cuando se prioriza velocidad de inferencia.
- Aceleración de pipelines derivados de Z-Image sin depender de Z-Image-Turbo.
- Flujos con ControlNet para pose, canny, depth e inpaint.
- Escenarios donde se necesita reducir pasos de 8 a 4 o incluso 2 manteniendo compatibilidad con LoRA existentes.
- Pruebas rápidas de composición visual con versiones adaptadas a sigmas bajos, especialmente en la línea 2603.