tsqn/Z-Image-Turbo_fp32-fp16-bf16_full_and_ema-only

tsqn

Texto a imagen

Repositorio de variantes de Z-Image-Turbo preparadas para Diffusers con pesos en FP32, FP16 y BF16, tanto en versión completa como EMA-only. Está orientado a generación texto-a-imagen rápida con ZImagePipeline; la variante EMA-only se recomienda para inferencia porque conserva solo los pesos promediados EMA, ofrece resultados más estables y reduce el tamaño frente al modelo completo.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "tsqn/Z-Image-Turbo_fp32-fp16-bf16_full_and_ema-only",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo con ZImagePipeline y parámetros recomendados para Turbo:
import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "path/to/model_files_main_dir",
    torch_dtype=torch.float32,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,
    guidance_scale=0.0,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

Para usar los archivos sin rutas explícitas con ZImagePipeline, el README indica renombrarlos así:
text_encoder/
└── model.safetensors
transformer/
└── diffusion_pytorch_model.safetensors
vae/
└── diffusion_pytorch_model.safetensors

Funcionalidades

Generación texto-a-imagen con Diffusers y ZImagePipeline.
Incluye variantes FP32, FP16 y BF16 para ajustar calidad, estabilidad numérica y consumo de memoria.
Ofrece versiones Full y EMA-only: Full conserva parámetros de entrenamiento y EMA; EMA-only está pensada para inferencia.
Basado en Tongyi-MAI/Z-Image-Turbo y publicado en formato Safetensors.
Componentes separados para transformer, text encoder, tokenizer y VAE.
No está preparado para ComfyUI; el README indica compatibilidad específica con la librería Diffusers.
Recomendaciones de uso por memoria GPU: FP16 EMA-only para menos de 12 GB de VRAM, BF16 EMA-only para 12 GB o más, FP32 Full para entrenamiento.

Casos de uso

Generar imágenes desde prompts de texto usando Z-Image-Turbo en Diffusers.
Ejecutar inferencia local con variantes EMA-only optimizadas para menor VRAM.
Probar distintas precisiones de pesos, como FP16, BF16 o FP32, según GPU y estabilidad requerida.
Continuar entrenamiento o investigación usando la variante Full con parámetros de entrenamiento y EMA.
Integrar Z-Image-Turbo en scripts locales de generación con VAE, text encoder Qwen y transformer cargados por separado.