unsloth/Z-Image-Turbo-GGUF
unsloth
Texto a imagen
Versión GGUF cuantizada de Z-Image-Turbo, un modelo de generación de imágenes de 6B parámetros basado en arquitectura Single-Stream Diffusion Transformer (S3-DiT). Esta variante de Unsloth aplica Dynamic 2.0 con capas importantes elevadas a mayor precisión para mejorar el rendimiento en inferencia cuantizada. Está orientada a texto a imagen, con especial fortaleza en fotorealismo, renderizado bilingüe de texto (inglés y chino) y seguimiento preciso de instrucciones con muy pocos pasos de inferencia.
Como usar
Instalación y ejemplo de uso mostrado en la página del modelo:
pip install git+https://github.com/huggingface/diffusers
import torch
from diffusers import ZImagePipeline
# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image-Turbo",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=False,
)
pipe.to("cuda")
# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3
# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()
# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()
prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."
# 2. Generate Image
image = pipe(
prompt=prompt,
height=1024,
width=1024,
num_inference_steps=9, # This actually results in 8 DiT forwards
guidance_scale=0.0, # Guidance should be 0 for the Turbo models
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("example.png")
Descarga alternativa del modelo base indicada en la página:
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo
Funcionalidades
- Modelo base: `Tongyi-MAI/Z-Image-Turbo`
- Formato GGUF cuantizado para despliegues más ligeros
- 6B parámetros
- Arquitectura: `lumina2` / S3-DiT de flujo único
- Generación de imágenes en pocos pasos: 8 NFEs efectivos
- Enfoque en fotorealismo y calidad estética
- Buen renderizado bilingüe de texto en inglés y chino
- Alta adherencia a prompts e instrucciones detalladas
- Variantes de cuantización desde 2-bit hasta 16-bit
- Compatible con entornos de VRAM limitada según la cuantización elegida
Casos de uso
- Generación de imágenes fotorrealistas a partir de prompts largos y detallados
- Creación de imágenes con texto integrado en inglés o chino
- Inferencia rápida de texto a imagen con muy pocos pasos
- Despliegue local o en CPU/GPU con distintas cuantizaciones GGUF
- Prototipado visual en entornos con memoria limitada