unsloth/Z-Image-Turbo-unsloth-bnb-4bit

unsloth
Texto a imagen

Versión cuantizada con BitsAndBytes a 4 bits de Z-Image-Turbo, preparada para ejecutarse con Diffusers. Usa la metodología Unsloth Dynamic 2.0, con capas importantes elevadas a mayor precisión, para conservar alto rendimiento en generación de imágenes con menor uso de memoria. El modelo base Z-Image-Turbo es una variante destilada de Z-Image, un modelo de generación de imágenes de 6B parámetros con arquitectura Single-Stream Diffusion Transformer, optimizado para inferencia en pocos pasos.

Como usar

Ejemplo directo con la versión cuantizada de Unsloth:

from diffusers import DiffusionPipeline
import torch

pipe = DiffusionPipeline.from_pretrained(
    "unsloth/Z-Image-Turbo-unsloth-bnb-4bit",
    torch_dtype=torch.bfloat16,
).to('cuda')

# uncomment if you run out of memory
# pipe.enable_model_cpu_offload()

output = pipe(
    prompt="a cute kawaii sloth",
    negative_prompt="blurry, unfocused",
    num_inference_steps=9,
    guidance_scale=1.0,
)

# Save output
image = output.images[0]
image.save('sample.png')

Ejemplo de instalación y uso del pipeline Z-Image base mencionado en la tarjeta:

pip install git+https://github.com/huggingface/diffusers
import torch
from diffusers import ZImagePipeline

# 1. Load the pipeline
# Use bfloat16 for optimal performance on supported GPUs
pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

# [Optional] Attention Backend
# Diffusers uses SDPA by default. Switch to Flash Attention for better efficiency if supported:
# pipe.transformer.set_attention_backend("flash") # Enable Flash-Attention-2
# pipe.transformer.set_attention_backend("_flash_3") # Enable Flash-Attention-3

# [Optional] Model Compilation
# Compiling the DiT model accelerates inference, but the first run will take longer to compile.
# pipe.transformer.compile()

# [Optional] CPU Offloading
# Enable CPU offloading for memory-constrained devices.
# pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

# 2. Generate Image
image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9, # This actually results in 8 DiT forwards
    guidance_scale=0.0, # Guidance should be 0 for the Turbo models
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

Descarga del modelo base indicada en la página:

pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

Funcionalidades

Generación texto-a-imagen con Diffusers y archivos Safetensors.
Cuantización BitsAndBytes de 4 bits para reducir el consumo de VRAM.
Basado en Z-Image-Turbo, una versión destilada que funciona con alrededor de 8 evaluaciones del modelo.
Diseñado para alta velocidad de inferencia y uso en dispositivos con memoria limitada, incluyendo equipos de consumo de 16 GB de VRAM según la tarjeta del modelo base.
Buen rendimiento en imágenes fotorrealistas y calidad estética.
Capacidad de renderizar texto en inglés y chino en las imágenes.
Seguimiento robusto de instrucciones en prompts complejos.
Arquitectura S3-DiT de flujo único, que concatena tokens de texto, tokens semánticos visuales y tokens VAE de imagen en una sola secuencia.
Compatible con técnicas opcionales como CPU offloading, Flash Attention y compilación del transformador cuando se usa el pipeline base.

Casos de uso

Crear imágenes fotorrealistas desde descripciones textuales con baja latencia.
Ejecutar generación de imágenes en GPUs con memoria limitada gracias a la cuantización de 4 bits.
Prototipar flujos texto-a-imagen en Diffusers usando un modelo Turbo de pocos pasos.
Generar imágenes con texto incrustado en inglés o chino.
Probar prompts complejos que combinan escena, estilo, composición, iluminación y detalles culturales.