lightx2v/Z-Image-Turbo-Quantized

lightx2v

Texto a imagen

Pesos cuantizados de Z-Image-Turbo para generación de imágenes a partir de texto, optimizados para ejecutarse en GPUs con 8 GB de VRAM mediante pesos del transformer en FP8 o INT8, codificador de texto Qwen3 cuantizado en int4 y descarga de partes del modelo a CPU.

Como usar

Instalación:
git clone https://github.com/ModelTC/LightX2V.git
cd LightX2V
pip install .

Uso con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("lightx2v/Z-Image-Turbo-Quantized", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo completo para GPUs de 8 GB VRAM con LightX2V:
from lightx2v import LightX2VPipeline

# Initialize pipeline
pipe = LightX2VPipeline(
    model_path="Tongyi-MAI/Z-Image-Turbo",
    model_cls="z_image",
    task="t2i",
)

# Step 1: Enable quantization (FP8 transformer + INT4 text encoder)
pipe.enable_quantize(
    dit_quantized=True,
    dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_scaled_fp8_e4m3fn.safetensors",
    quant_scheme="fp8-sgl",
    # IMPORTANT: Use int4 Qwen3 for 8GB VRAM
    text_encoder_quantized=True,
    text_encoder_quantized_ckpt="JunHowie/Qwen3-4B-GPTQ-Int4",
    text_encoder_quant_scheme="int4")

# Step 2: Enable CPU offloading
pipe.enable_offload(
    cpu_offload=True,
    offload_granularity="model",
    # Use "model" for maximum memory savings
)

# Step 3: Create generator
pipe.create_generator(
    attn_mode="flash_attn3",
    aspect_ratio="16:9",
    infer_steps=9,
    guidance_scale=1,
)

# Step 4: Generate image
pipe.generate(
    seed=42,
    prompt="A beautiful landscape with mountains and lakes, ultra HD, 4K",
    negative_prompt="",
    save_result_path="output.png",
)

Opciones de cuantización:
dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_scaled_fp8_e4m3fn.safetensors",
quant_scheme="fp8-sgl",

dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_int8.safetensors",
quant_scheme="int8-sgl",

Notas: enable_quantize() y enable_offload() deben llamarse antes de create_generator() para que tengan efecto. Para 8 GB de VRAM se recomienda FP8/INT8 en el transformer, Qwen3 int4 como codificador de texto y descarga a CPU a nivel de modelo.

Funcionalidades

Generación texto-a-imagen basada en Z-Image-Turbo.
Pesos cuantizados disponibles en FP8 E4M3FN y en INT8, ambos en archivos safetensors de 6,17 GB.
Optimización específica para GPUs de 8 GB de VRAM.
Soporte de cuantización del transformer y del codificador de texto Qwen3-4B-GPTQ-Int4.
Descarga a CPU configurable por modelo completo o por bloques del transformer.
Compatible con Diffusers, Diffusion Single File, ComfyUI y apps locales como Draw Things y DiffusionBee.
Licencia Apache 2.0.

Casos de uso

Generar imágenes desde prompts de texto en equipos con VRAM limitada.
Ejecutar Z-Image-Turbo localmente en GPUs de 8 GB.
Probar generación texto-a-imagen con pesos FP8 o INT8 para reducir memoria.
Integrar Z-Image-Turbo cuantizado en flujos LightX2V, Diffusers o herramientas locales compatibles.