babakarto/z-image-base-gguf

babakarto
Texto a imagen

Versión cuantizada en formato GGUF de Tongyi-MAI/Z-Image, el modelo de difusión de Alibaba de unos 6B parámetros, preparada para generar imágenes en ComfyUI mediante los nodos ComfyUI-GGUF. Está basada en la arquitectura Lumina2 tipo DiT y es una variante no destilada, por lo que admite CFG, prompts negativos y LoRA.

Como usar

Requiere ComfyUI y los nodos personalizados ComfyUI-GGUF.

Instalación de ComfyUI-GGUF:

cd ComfyUI/custom_nodes
git clone https://github.com/city96/ComfyUI-GGUF
pip install --upgrade gguf

Después, descarga el archivo GGUF elegido y colócalo en:

ComfyUI/models/unet/

En el flujo de ComfyUI, usa el nodo Unet Loader (GGUF) en lugar del cargador estándar de modelos.

Funcionalidades

Generación de imágenes a partir de texto con un modelo de difusión de aproximadamente 6B parámetros.
Formato GGUF optimizado para uso local con ComfyUI-GGUF.
Arquitectura Lumina2 basada en DiT.
Variante no destilada con soporte para CFG, prompts negativos y LoRA.
Cuantización Q8_0 de 6.8 GB, recomendada para unos 7-8 GB de VRAM y marcada como la opción de mejor calidad cuantizada.
Versión BF16 de 12.4 GB, cercana al modelo original y recomendada para unos 13 GB de VRAM.
Rango de pasos recomendado: 28 a 50.
Licencia Apache 2.0, igual que el modelo Z-Image original.

Casos de uso

Generar imágenes localmente desde prompts de texto en ComfyUI.
Ejecutar Z-Image en hardware con menos VRAM usando cuantizaciones GGUF.
Crear flujos de trabajo de imagen con CFG, prompts negativos y LoRA.
Probar la variante base no destilada de Z-Image sin depender de proveedores de inferencia alojados.