babakarto/z-image-base-gguf
babakarto
Texto a imagen
Versión cuantizada en formato GGUF de Tongyi-MAI/Z-Image, el modelo de difusión de Alibaba de unos 6B parámetros, preparada para generar imágenes en ComfyUI mediante los nodos ComfyUI-GGUF. Está basada en la arquitectura Lumina2 tipo DiT y es una variante no destilada, por lo que admite CFG, prompts negativos y LoRA.
Como usar
Requiere ComfyUI y los nodos personalizados ComfyUI-GGUF.
Instalación de ComfyUI-GGUF:
cd ComfyUI/custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
pip install --upgrade gguf
Después, descarga el archivo GGUF elegido y colócalo en:
ComfyUI/models/unet/
En el flujo de ComfyUI, usa el nodo Unet Loader (GGUF) en lugar del cargador estándar de modelos.
Funcionalidades
- Generación de imágenes a partir de texto con un modelo de difusión de aproximadamente 6B parámetros.
- Formato GGUF optimizado para uso local con ComfyUI-GGUF.
- Arquitectura Lumina2 basada en DiT.
- Variante no destilada con soporte para CFG, prompts negativos y LoRA.
- Cuantización Q8_0 de 6.8 GB, recomendada para unos 7-8 GB de VRAM y marcada como la opción de mejor calidad cuantizada.
- Versión BF16 de 12.4 GB, cercana al modelo original y recomendada para unos 13 GB de VRAM.
- Rango de pasos recomendado: 28 a 50.
- Licencia Apache 2.0, igual que el modelo Z-Image original.
Casos de uso
- Generar imágenes localmente desde prompts de texto en ComfyUI.
- Ejecutar Z-Image en hardware con menos VRAM usando cuantizaciones GGUF.
- Crear flujos de trabajo de imagen con CFG, prompts negativos y LoRA.
- Probar la variante base no destilada de Z-Image sin depender de proveedores de inferencia alojados.