Disty0/Z-Image-Turbo-SDNQ-uint4-svd-r32

Disty0
Texto a imagen

Versión cuantizada a 4 bits de `Tongyi-MAI/Z-Image-Turbo` usando SDNQ con `UINT4` y rango SVD 32. Está orientado a generación de imágenes con Diffusers y reduce el tamaño del modelo de 12.3 GB a 3.5 GB, manteniendo un flujo de inferencia rápido para imágenes 1024x1024 con pocos pasos.

Como usar

Instala sdnq y carga el pipeline cuantizado desde Hugging Face. El ejemplo activa opciones de matmul cuantizado cuando hay soporte disponible y genera una imagen a 1024x1024 en 9 pasos.

pip install sdnq

import torch
import diffusers
from sdnq import SDNQConfig
# import sdnq to register it into diffusers and transformers
from sdnq.common import use_torch_compile as triton_is_available
from sdnq.loader import apply_sdnq_options_to_model

pipe = diffusers.ZImagePipeline.from_pretrained(
    "Disty0/Z-Image-Turbo-SDNQ-uint4-svd-r32",
    torch_dtype=torch.bfloat16
)

# Enable INT8 MatMul for AMD, Intel ARC and Nvidia GPUs:
if triton_is_available and (torch.cuda.is_available() or torch.xpu.is_available()):
    pipe.transformer = apply_sdnq_options_to_model(pipe.transformer, use_quantized_matmul=True)
    pipe.text_encoder = apply_sdnq_options_to_model(pipe.text_encoder, use_quantized_matmul=True)
    pipe.transformer = torch.compile(pipe.transformer)  # optional for faster speeds

pipe.enable_model_cpu_offload()

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,
    guidance_scale=0.0,
    generator=torch.manual_seed(42),
).images[0]

image.save("z-image-turbo-sdnq-uint4-svd-r32.png")

Funcionalidades

Modelo de texto a imagen basado en Diffusers
Cuantización SDNQ en `UINT4` con `SVD rank 32`
Pipeline `ZImagePipeline`
Pesos en formato Safetensors
Precisión reducida de 4 bits para menor uso de memoria
Modelo base: `Tongyi-MAI/Z-Image-Turbo`
Comparativa de tamaño: BF16 original 12.3 GB vs SDNQ 3.5 GB
Soporte opcional para `torch.compile` y multiplicación matricial cuantizada INT8 en GPU compatibles

Casos de uso

Generación de imágenes de alta resolución con menor consumo de VRAM
Ejecución local más ligera del modelo `Z-Image-Turbo` en hardware limitado
Pruebas rápidas de inferencia texto a imagen con pocos pasos
Despliegues experimentales donde el tamaño del modelo es una restricción importante