jayn7/Z-Image-Turbo-GGUF

jayn7
Texto a imagen

Versión cuantizada en formato GGUF de Z-Image Turbo de Tongyi-MAI para generación de imágenes a partir de texto. Está basada en la arquitectura Lumina2, mantiene un tamaño de 6B parámetros y ofrece varias cuantizaciones de 3 a 8 bits para equilibrar calidad, memoria y tamaño de archivo.

Como usar

Se utiliza cargando el archivo GGUF cuantizado del transformer y combinándolo con el pipeline base Tongyi-MAI/Z-Image-Turbo en Diffusers. Para los modelos Turbo, la guía recomendada es guidance_scale=0.0 y el ejemplo mostrado genera una imagen de 1024x1024 en CUDA con semilla fija.

pip install git+https://github.com/huggingface/diffusers

from diffusers import ZImagePipeline, ZImageTransformer2DModel, GGUFQuantizationConfig
import torch

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
height = 1024
width = 1024
seed = 42

#hf_path = "https://huggingface.co/jayn7/Z-Image-Turbo-GGUF/blob/main/z_image_turbo-Q3_K_M.gguf"
local_path = "path\\to\\local\\model\\z_image_turbo-Q3_K_M.gguf"

transformer = ZImageTransformer2DModel.from_single_file(
    local_path,
    quantization_config=GGUFQuantizationConfig(compute_dtype=torch.bfloat16),
    dtype=torch.bfloat16,
)

pipeline = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    transformer=transformer,
    dtype=torch.bfloat16,
).to("cuda")

# [Optional] Attention Backend
#pipeline.transformer.set_attention_backend("_sage_qk_int8_pv_fp16_triton")
#pipeline.transformer.set_attention_backend("flash")
#pipeline.transformer.set_attention_backend("_flash_3")

# [Optional] Model Compilation
#pipeline.transformer.compile()

# [Optional] CPU Offloading
#pipeline.enable_model_cpu_offload()

images = pipeline(
    prompt=prompt,
    num_inference_steps=9,
    guidance_scale=0.0,
    height=height,
    width=width,
    generator=torch.Generator("cuda").manual_seed(seed)
).images[0]

images.save("zimage.png")

Funcionalidades

Generación de imágenes desde texto con la base `Tongyi-MAI/Z-Image-Turbo`.
Pesos GGUF en múltiples cuantizaciones: `Q3_K_S`, `Q3_K_M`, `Q4_K_S`, `Q4_K_M`, `Q5_K_S`, `Q5_K_M`, `Q6_K` y `Q8_0`.
Compatible con `Diffusers` y `ComfyUI-GGUF`.
Usa `unsloth/Qwen3-4B-GGUF` como encoder de texto recomendado.
Optimizado para ejecución eficiente con opciones de Flash Attention, Sage Attention, compilación del transformer y offloading a CPU.
Licencia `apache-2.0`, siguiendo la licencia del modelo original Z-Image Turbo.

Casos de uso

Generación rápida de ilustraciones desde prompts de texto con el estilo y comportamiento de Z-Image Turbo.
Despliegues locales con restricciones de memoria gracias a variantes GGUF cuantizadas.
Pipelines de inferencia en `Diffusers` para prototipado visual acelerado en GPU.
Flujos en `ComfyUI-GGUF` para artistas o desarrolladores que necesiten nodos visuales con modelos cuantizados.