BlackStone-Yu/Z-Image-Turbo-GGUF

BlackStone-Yu

Texto a imagen

Versión cuantizada en formato GGUF de Z-Image-Turbo, un modelo de generación de imágenes de 6B parámetros basado en una arquitectura Single-Stream Diffusion Transformer. Está orientado a generación texto-a-imagen rápida, con inferencia de pocos pasos, buena calidad fotorealista, renderizado bilingüe de texto en inglés y chino, y seguimiento robusto de instrucciones. Esta publicación incluye variantes GGUF para ejecución local con llama.cpp, Ollama, LM Studio, Diffusers y herramientas compatibles.

Como usar

Instalación y uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("BlackStone-Yu/Z-Image-Turbo-GGUF", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso con llama-cpp-python:
# !pip install llama-cpp-python
from llama_cpp import Llama

llm = Llama.from_pretrained(
    repo_id="BlackStone-Yu/Z-Image-Turbo-GGUF",
    filename="Qwen3-4B-UD-Q6_K_XL.gguf",
)

llm.create_chat_completion(
    messages = "\"Astronaut riding a horse\""
)

Uso con llama.cpp:
brew install llama.cpp

# Start a local OpenAI-compatible server with a web UI:
llama-server -hf BlackStone-Yu/Z-Image-Turbo-GGUF:UD-Q6_K_XL

# Run inference directly in the terminal:
llama-cli -hf BlackStone-Yu/Z-Image-Turbo-GGUF:UD-Q6_K_XL

Uso con Ollama:
ollama run hf.co/BlackStone-Yu/Z-Image-Turbo-GGUF:UD-Q6_K_XL

Uso con Docker Model Runner:
docker model run hf.co/BlackStone-Yu/Z-Image-Turbo-GGUF:UD-Q6_K_XL

Uso con Lemonade:
lemonade pull BlackStone-Yu/Z-Image-Turbo-GGUF:UD-Q6_K_XL
lemonade run user.Z-Image-Turbo-GGUF-UD-Q6_K_XL
lemonade list

Funcionalidades

Generación de imágenes texto-a-imagen con variante Turbo destilada de Z-Image.
Modelo eficiente de 6B parámetros, diseñado para generación en pocos pasos con alrededor de 8 evaluaciones del modelo.
Formato GGUF con cuantizaciones Q5_K_S, Q6_K, UD-Q6_K_XL, Q8_0 y BF16.
Arquitectura S3-DiT de flujo único que concatena tokens de texto, semántica visual y VAE de imagen en una sola secuencia.
Buen rendimiento en imágenes fotorealistas y calidad estética competitiva frente a otros modelos abiertos.
Capacidad destacada para renderizar texto complejo en chino e inglés dentro de imágenes.
Compatible con ejecución local mediante llama.cpp, Ollama, Docker Model Runner, LM Studio, Jan, Draw Things, DiffusionBee, Unsloth Studio, Pi, Hermes Agent y Lemonade.
Licencia Apache 2.0.

Casos de uso

Generar imágenes fotorealistas desde prompts de texto con baja latencia.
Crear imágenes con texto renderizado en inglés o chino dentro de la escena.
Ejecutar generación de imágenes localmente usando archivos GGUF y herramientas como llama.cpp u Ollama.
Probar Z-Image-Turbo en hardware de consumo con variantes cuantizadas de menor tamaño.
Integrar un modelo texto-a-imagen abierto en flujos locales, servidores compatibles con OpenAI o aplicaciones de escritorio.