ovedrive/Qwen-Image-2512-4bit

ovedrive

Texto a imagen

Modelo de texto a imagen basado en Qwen-Image-2512 y cuantizado en NF4 a 4 bits. Está pensado para ejecutar Qwen-Image-2512 con menor consumo de VRAM, alrededor de 20 GB y potencialmente 16 GB, conservando algunas capas del transformador en precisión completa para mantener mejor calidad visual. Hereda las mejoras de Qwen-Image-2512 frente a la versión base de agosto: mayor realismo humano, detalles naturales más finos y renderizado de texto más fiable en composiciones multimodales.

Como usar

Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
    "ovedrive/Qwen-Image-2512-4bit",
    dtype=torch.bfloat16,
    device_map="cuda"
)

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

Ejemplo más completo con selección de dispositivo, relación de aspecto y semilla fija:
from diffusers import DiffusionPipeline
import torch

model_name = "ovedrive/qwen-image-2512-4bit"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)

positive_magic = {
    "en": "Ultra HD, 4K, cinematic composition.",
    "zh": "超清，4K，电影级构图",
}

prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " "

aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1140),
    "3:4": (1140, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt + positive_magic["en"],
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=20,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("example.png")

Funcionalidades

Generación de imágenes a partir de texto con Diffusers y QwenImagePipeline.
Cuantización NF4 de 4 bits para reducir el uso de memoria en GPU.
Algunas capas se mantienen en precisión completa para evitar la degradación de calidad de una cuantización ciega de todo el transformador.
Funciona con parámetros del Qwen-Image original; el autor recomienda al menos 20 pasos de inferencia.
Mejor realismo en sujetos humanos, con menos aspecto artificial y más detalle facial.
Mayor detalle en paisajes, agua, vegetación, niebla, pelo y pelaje animal.
Mejor renderizado de texto, diseño y composición de imágenes con texto integrado.
Soporta prompts en inglés y chino.
Licencia cc-by-nc-sa-4.0 indicada en Hugging Face.

Casos de uso

Generar imágenes fotorrealistas de personas con mejor detalle facial, pelo y contexto de escena.
Crear imágenes de naturaleza con agua, vegetación, niebla, texturas y pelaje animal más definidos.
Producir carteles, diapositivas, infografías y pósteres educativos con texto dentro de la imagen.
Ejecutar Qwen-Image-2512 en hardware con menos memoria que el modelo completo gracias a la cuantización de 4 bits.
Experimentar localmente con generación de imágenes en inglés o chino usando Diffusers.