unsloth/Z-Image-Turbo-GGUF

unsloth
Texto a imagen

Versión GGUF cuantizada de Z-Image-Turbo, un modelo de generación de imágenes de 6B parámetros basado en arquitectura Single-Stream Diffusion Transformer (S3-DiT). Esta variante de Unsloth aplica Dynamic 2.0 con capas importantes elevadas a mayor precisión para mejorar el rendimiento en inferencia cuantizada. Está orientada a texto a imagen, con especial fortaleza en fotorealismo, renderizado bilingüe de texto (inglés y chino) y seguimiento preciso de instrucciones con muy pocos pasos de inferencia.

Como usar

Instalación y ejemplo de uso mostrado en la página del modelo:

pip install git+https://github.com/huggingface/diffusers
import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9, # This actually results in 8 DiT forwards
    guidance_scale=0.0,    # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

Descarga alternativa del modelo base indicada en la página:

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

Funcionalidades

Modelo base: `Tongyi-MAI/Z-Image-Turbo`
Formato GGUF cuantizado para despliegues más ligeros
6B parámetros
Arquitectura: `lumina2` / S3-DiT de flujo único
Generación de imágenes en pocos pasos: 8 NFEs efectivos
Enfoque en fotorealismo y calidad estética
Buen renderizado bilingüe de texto en inglés y chino
Alta adherencia a prompts e instrucciones detalladas
Variantes de cuantización desde 2-bit hasta 16-bit
Compatible con entornos de VRAM limitada según la cuantización elegida

Casos de uso

Generación de imágenes fotorrealistas a partir de prompts largos y detallados
Creación de imágenes con texto integrado en inglés o chino
Inferencia rápida de texto a imagen con muy pocos pasos
Despliegue local o en CPU/GPU con distintas cuantizaciones GGUF
Prototipado visual en entornos con memoria limitada