mzbac/Z-Image-Turbo-8bit

mzbac

Texto a imagen

Z-Image-Turbo-8bit es una variante cuantizada de Z-Image-Turbo, un modelo de generación de imágenes texto-a-imagen basado en difusión y arquitectura Single-Stream DiT. Está orientado a inferencia rápida en pocos pasos: la tarjeta describe Z-Image-Turbo como una versión destilada de Z-Image que puede generar con unas 8 evaluaciones del modelo, con buen rendimiento fotorealista, renderizado bilingüe de texto en inglés y chino, y seguimiento robusto de instrucciones. El repositorio usa Diffusers y pesos Safetensors bajo licencia Apache 2.0.

Como usar

Instalación y uso directo desde la página del modelo:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("mzbac/Z-Image-Turbo-8bit", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo ampliado del proyecto Z-Image con ZImagePipeline:
pip install git+https://github.com/huggingface/diffusers

import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9, # This actually results in 8 DiT forwards
    guidance_scale=0.0, # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

Descarga indicada por el proyecto:
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

Funcionalidades

Generación texto-a-imagen con Diffusers.
Modelo de la familia Z-Image, con 6B parámetros en la base descrita por el proyecto.
Versión Turbo destilada para generación en pocos pasos, normalmente alrededor de 8 forwards DiT.
Optimizado para latencia baja y uso en GPUs con memoria limitada frente a modelos más pesados.
Buen rendimiento en imágenes fotorealistas y calidad estética.
Renderizado preciso de texto bilingüe en inglés y chino.
Seguimiento fuerte de prompts e instrucciones complejas.
Arquitectura S3-DiT de flujo único, que concatena tokens de texto, tokens semánticos visuales y tokens VAE de imagen en una sola secuencia.
Compatible con pipelines de Hugging Face Diffusers; la página también referencia uso local en apps como Draw Things y DiffusionBee.
Checkpoint etiquetado como Safetensors y Apache 2.0.

Casos de uso

Generar imágenes fotorealistas desde descripciones textuales detalladas.
Crear imágenes de alta resolución con baja latencia usando pocos pasos de inferencia.
Renderizar escenas con texto en inglés o chino dentro de la imagen.
Prototipar flujos de generación visual en aplicaciones locales basadas en Diffusers.
Crear contenido visual siguiendo instrucciones complejas sobre estilo, composición, iluminación y detalles del sujeto.
Usar un checkpoint más ligero o cuantizado para experimentar con Z-Image-Turbo en hardware con memoria limitada.