zai-org/CogView4-6B

zai-org

Texto a imagen

CogView4-6B es un modelo de generación texto-a-imagen de 6B parámetros publicado en Hugging Face por Z.ai. Usa Diffusers/Safetensors, admite prompts en chino e inglés y está orientado a crear imágenes de alta resolución con control de composición, atributos, relaciones y texto chino. Requiere BF16 o FP32, ya que FP16 puede provocar desbordamientos e imágenes completamente negras.

Como usar

Instalación y uso rápido con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("zai-org/CogView4-6B", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Uso recomendado desde la tarjeta del modelo, instalando Diffusers desde source:
pip install git+https://github.com/huggingface/diffusers.git
cd diffusers
pip install -e .

from diffusers import CogView4Pipeline

pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16)

# Open it for reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."

image = pipe(
    prompt=prompt,
    guidance_scale=3.5,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview4.png")

Funcionalidades

Generación texto-a-imagen mediante `CogView4Pipeline` y `DiffusionPipeline` de Diffusers.
Resoluciones entre 512 px y 2048 px por lado, divisibles por 32, con un máximo de 2^21 píxeles.
Soporte de precisión BF16 y FP32; FP16 no está soportado por riesgo de overflow.
Opciones de reducción de memoria como `enable_model_cpu_offload`, slicing y tiling del VAE.
Evaluado en DPG-Bench con puntuación global 85.13, destacando en atributo 91.17 y relación 91.14.
Evaluado en GenEval con puntuación global 0.73, incluyendo 0.99 en objeto único y 0.86 en dos objetos.
Evaluado en T2I-CompBench con resultados fuertes en color 0.7786, textura 0.6983, numeracy 0.6626 y complex 3-in-1 0.3869.
Mejor precisión de texto chino frente a Kolors en la evaluación incluida: F1 0.6168 y Pick@4 0.3265.
Licencia Apache 2.0.

Casos de uso

Crear imágenes detalladas a partir de prompts descriptivos en inglés o chino.
Generar escenas complejas con varios objetos, atributos visuales y relaciones espaciales.
Producir imágenes cuadradas o panorámicas de alta resolución dentro de los límites de píxeles indicados.
Evaluar o comparar modelos texto-a-imagen en benchmarks como DPG-Bench, GenEval y T2I-CompBench.
Generar imágenes con texto chino cuando la precisión de caracteres es importante.