lightx2v/Z-Image-Turbo-Quantized
lightx2v
Texto a imagen
Pesos cuantizados de Z-Image-Turbo para generación de imágenes a partir de texto, optimizados para ejecutarse en GPUs con 8 GB de VRAM mediante pesos del transformer en FP8 o INT8, codificador de texto Qwen3 cuantizado en int4 y descarga de partes del modelo a CPU.
Como usar
Instalación:
git clone https://github.com/ModelTC/LightX2V.git
cd LightX2V
pip install .
Uso con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("lightx2v/Z-Image-Turbo-Quantized", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo completo para GPUs de 8 GB VRAM con LightX2V:
from lightx2v import LightX2VPipeline
# Initialize pipeline
pipe = LightX2VPipeline(
model_path="Tongyi-MAI/Z-Image-Turbo",
model_cls="z_image",
task="t2i",
)
# Step 1: Enable quantization (FP8 transformer + INT4 text encoder)
pipe.enable_quantize(
dit_quantized=True,
dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_scaled_fp8_e4m3fn.safetensors",
quant_scheme="fp8-sgl",
# IMPORTANT: Use int4 Qwen3 for 8GB VRAM
text_encoder_quantized=True,
text_encoder_quantized_ckpt="JunHowie/Qwen3-4B-GPTQ-Int4",
text_encoder_quant_scheme="int4")
# Step 2: Enable CPU offloading
pipe.enable_offload(
cpu_offload=True,
offload_granularity="model",
# Use "model" for maximum memory savings
)
# Step 3: Create generator
pipe.create_generator(
attn_mode="flash_attn3",
aspect_ratio="16:9",
infer_steps=9,
guidance_scale=1,
)
# Step 4: Generate image
pipe.generate(
seed=42,
prompt="A beautiful landscape with mountains and lakes, ultra HD, 4K",
negative_prompt="",
save_result_path="output.png",
)
Opciones de cuantización:
dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_scaled_fp8_e4m3fn.safetensors",
quant_scheme="fp8-sgl",
dit_quantized_ckpt="lightx2v/Z-Image-Turbo-Quantized/z_image_turbo_int8.safetensors",
quant_scheme="int8-sgl",
Notas: enable_quantize() y enable_offload() deben llamarse antes de create_generator() para que tengan efecto. Para 8 GB de VRAM se recomienda FP8/INT8 en el transformer, Qwen3 int4 como codificador de texto y descarga a CPU a nivel de modelo.
Funcionalidades
- Generación texto-a-imagen basada en Z-Image-Turbo.
- Pesos cuantizados disponibles en FP8 E4M3FN y en INT8, ambos en archivos safetensors de 6,17 GB.
- Optimización específica para GPUs de 8 GB de VRAM.
- Soporte de cuantización del transformer y del codificador de texto Qwen3-4B-GPTQ-Int4.
- Descarga a CPU configurable por modelo completo o por bloques del transformer.
- Compatible con Diffusers, Diffusion Single File, ComfyUI y apps locales como Draw Things y DiffusionBee.
- Licencia Apache 2.0.
Casos de uso
- Generar imágenes desde prompts de texto en equipos con VRAM limitada.
- Ejecutar Z-Image-Turbo localmente en GPUs de 8 GB.
- Probar generación texto-a-imagen con pesos FP8 o INT8 para reducir memoria.
- Integrar Z-Image-Turbo cuantizado en flujos LightX2V, Diffusers o herramientas locales compatibles.