vantagewithai/Z-Image-Turbo-GGUF

vantagewithai
Texto a imagen

Versión cuantizada en formato GGUF de Z-Image-Turbo, un modelo de generación de imágenes a partir de texto basado en difusión con arquitectura Single-Stream DiT. Tiene 6B parámetros y está orientado a inferencia eficiente de pocos pasos, con buen rendimiento en generación fotorrealista, renderizado de texto bilingüe en inglés y chino, y seguimiento robusto de instrucciones.

Como usar

Instalación de Diffusers desde GitHub:

pip install git+https://github.com/huggingface/diffusers

Ejemplo de inferencia con el pipeline oficial de Z-Image:

import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9, # This actually results in 8 DiT forwards
    guidance_scale=0.0, # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")

Descarga desde Hugging Face Hub:

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

Funcionalidades

Modelo text-to-image de 6B parámetros en formato GGUF cuantizado.
Basado en Z-Image-Turbo, una variante destilada que genera imágenes con aproximadamente 8 evaluaciones de función del modelo DiT.
Arquitectura Scalable Single-Stream DiT (S3-DiT), que concatena tokens de texto, tokens semánticos visuales y tokens VAE de imagen en una única secuencia.
Optimizado para baja latencia: el modelo original reporta inferencia subsegundo en GPUs H800 y uso cómodo en dispositivos de consumo con 16 GB de VRAM.
Soporta generación fotorrealista, renderizado preciso de texto en inglés y chino, y buena adherencia a prompts complejos.
Incluye múltiples cuantizaciones GGUF, desde 3-bit hasta BF16, con tamaños aproximados entre 3.79 GB y 12.3 GB.
Licencia Apache 2.0.

Casos de uso

Generación rápida de imágenes fotorrealistas desde prompts de texto.
Creación de imágenes que incluyen texto en inglés o chino dentro de la escena.
Prototipado local de flujos text-to-image con modelos GGUF cuantizados.
Ejecución en hardware con memoria limitada usando cuantizaciones de 3, 4, 5, 6 u 8 bits.
Generación visual guiada por instrucciones complejas donde importan la composición, el estilo y los detalles semánticos.