Tongyi-MAI/Z-Image-Turbo

Tongyi-MAI

Texto a imagen

Modelo de texto a imagen de 6B parámetros de la familia Z-Image, destilado para generar imágenes de alta calidad en solo 8 NFEs. Está optimizado para latencia inferior a un segundo en GPUs H800, puede ejecutarse en dispositivos de consumo con 16 GB de VRAM y destaca en fotorrealismo, renderizado preciso de texto en inglés y chino, y seguimiento sólido de instrucciones.

Como usar

Instala la versión más reciente de diffusers desde código fuente y carga ZImagePipeline con el checkpoint Tongyi-MAI/Z-Image-Turbo. Para la variante Turbo, la guía debe mantenerse en 0.0.
pip install git+https://github.com/huggingface/diffusers

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image-Turbo",
    torch_dtype=torch.bfloat16,
    low_cpu_mem_usage=False,
)
pipe.to("cuda")

prompt = "Young Chinese woman in red Hanfu, intricate embroidery. Impeccable makeup, red floral forehead pattern. Elaborate high bun, golden phoenix headdress, red flowers, beads. Holds round folding fan with lady, trees, bird. Neon lightning-bolt lamp (⚡️), bright yellow glow, above extended left palm. Soft-lit outdoor night background, silhouetted tiered pagoda (西安大雁塔), blurred colorful distant lights."

image = pipe(
    prompt=prompt,
    height=1024,
    width=1024,
    num_inference_steps=9,
    guidance_scale=0.0,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("example.png")

Funcionalidades

Generación de imágenes en pocos pasos: 8 NFEs con `guidance_scale=0.0` en la variante Turbo.
Muy buen rendimiento fotorrealista manteniendo calidad estética alta.
Renderizado bilingüe preciso de texto en inglés y chino dentro de la imagen.
Buen seguimiento de instrucciones para prompts complejos y detallados.
Basado en una arquitectura Single-Stream Diffusion Transformer (S3-DiT) para mayor eficiencia de parámetros.
Integración con `diffusers` mediante `ZImagePipeline`.
Pensado para inferencia rápida y despliegue práctico en hardware con VRAM moderada.

Casos de uso

Generación fotorrealista rápida para prototipos, productos creativos y demos.
Creación de imágenes con texto incrustado en inglés o chino cuando la legibilidad importa.
Producción visual de baja latencia para aplicaciones interactivas o empresariales.
Síntesis de imágenes a partir de prompts largos con requisitos compositivos y estilísticos detallados.