zai-org/CogView4-6B
zai-org
Texto a imagen
CogView4-6B es un modelo de generación texto-a-imagen de 6B parámetros publicado en Hugging Face por Z.ai. Usa Diffusers/Safetensors, admite prompts en chino e inglés y está orientado a crear imágenes de alta resolución con control de composición, atributos, relaciones y texto chino. Requiere BF16 o FP32, ya que FP16 puede provocar desbordamientos e imágenes completamente negras.
Como usar
Instalación y uso rápido con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("zai-org/CogView4-6B", dtype=torch.bfloat16, device_map="cuda")
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Uso recomendado desde la tarjeta del modelo, instalando Diffusers desde source:
pip install git+https://github.com/huggingface/diffusers.git
cd diffusers
pip install -e .
from diffusers import CogView4Pipeline
pipe = CogView4Pipeline.from_pretrained("THUDM/CogView4-6B", torch_dtype=torch.bfloat16)
# Open it for reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
prompt=prompt,
guidance_scale=3.5,
num_images_per_prompt=1,
num_inference_steps=50,
width=1024,
height=1024,
).images[0]
image.save("cogview4.png")
Funcionalidades
- Generación texto-a-imagen mediante `CogView4Pipeline` y `DiffusionPipeline` de Diffusers.
- Resoluciones entre 512 px y 2048 px por lado, divisibles por 32, con un máximo de 2^21 píxeles.
- Soporte de precisión BF16 y FP32; FP16 no está soportado por riesgo de overflow.
- Opciones de reducción de memoria como `enable_model_cpu_offload`, slicing y tiling del VAE.
- Evaluado en DPG-Bench con puntuación global 85.13, destacando en atributo 91.17 y relación 91.14.
- Evaluado en GenEval con puntuación global 0.73, incluyendo 0.99 en objeto único y 0.86 en dos objetos.
- Evaluado en T2I-CompBench con resultados fuertes en color 0.7786, textura 0.6983, numeracy 0.6626 y complex 3-in-1 0.3869.
- Mejor precisión de texto chino frente a Kolors en la evaluación incluida: F1 0.6168 y Pick@4 0.3265.
- Licencia Apache 2.0.
Casos de uso
- Crear imágenes detalladas a partir de prompts descriptivos en inglés o chino.
- Generar escenas complejas con varios objetos, atributos visuales y relaciones espaciales.
- Producir imágenes cuadradas o panorámicas de alta resolución dentro de los límites de píxeles indicados.
- Evaluar o comparar modelos texto-a-imagen en benchmarks como DPG-Bench, GenEval y T2I-CompBench.
- Generar imágenes con texto chino cuando la precisión de caracteres es importante.