leejet/Z-Image-Turbo-GGUF

leejet

Texto a imagen

Versión cuantizada en formato GGUF de Z-Image-Turbo, orientada a generación de imágenes por texto con `stable-diffusion.cpp`. Está pensada para reducir memoria y permitir ejecución incluso en GPU con solo 4 GB de VRAM, ofreciendo varias cuantizaciones entre 2 y 8 bits.

Como usar

Puede usarse con stable-diffusion.cpp para generar imágenes a partir de prompts de texto. La página incluye un ejemplo de ejecución con un modelo de difusión GGUF, un VAE y un LLM auxiliar:
.\bin\Release\sd.exe --diffusion-model z_image_turbo-Q3_K.gguf --vae ae.safetensors --llm Qwen3-4B-Instruct-2507-Q4_K_M.gguf -p "A cinematic, melancholic photograph of a solitary hooded figure walking through a sprawling, rain-slicked metropolis at night. The city lights are a chaotic blur of neon orange and cool blue, reflecting on the wet asphalt. The scene evokes a sense of being a single component in a vast machine. Superimposed over the image in a sleek, modern, slightly glitched font is the philosophical quote: 'THE CITY IS A CIRCUIT BOARD, AND I AM A BROKEN TRANSISTOR.' -- moody, atmospheric, profound, dark academic" --cfg-scale 1.0 -v --offload-to-cpu --diffusion-fa -H 1024 -W 512

También se enlaza una guía específica para usar Z-Image en una GPU con solo 4 GB de VRAM.

Funcionalidades

Generación de imágenes a partir de texto
Pesos cuantizados en formato GGUF
Compatible con `stable-diffusion.cpp`
Opciones de cuantización Q2_K, Q4_0, Q5_0, Q6_K y Q8_0
Diseñado para uso eficiente de memoria en hardware limitado
Basado en el modelo `Tongyi-MAI/Z-Image-Turbo`
Licencia Apache-2.0 heredada del modelo original

Casos de uso

Generación de imágenes en equipos con VRAM limitada
Pruebas de calidad/rendimiento entre distintos niveles de cuantización
Despliegues locales de generación visual con `stable-diffusion.cpp`
Experimentación con variantes compactas de Z-Image-Turbo para inferencia eficiente