ovedrive/Qwen-Image-2512-4bit
ovedrive
Texto a imagen
Modelo de texto a imagen basado en Qwen-Image-2512 y cuantizado en NF4 a 4 bits. Está pensado para ejecutar Qwen-Image-2512 con menor consumo de VRAM, alrededor de 20 GB y potencialmente 16 GB, conservando algunas capas del transformador en precisión completa para mantener mejor calidad visual. Hereda las mejoras de Qwen-Image-2512 frente a la versión base de agosto: mayor realismo humano, detalles naturales más finos y renderizado de texto más fiable en composiciones multimodales.
Como usar
Instalación y uso básico con Diffusers:
pip install -U diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline
# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained(
"ovedrive/Qwen-Image-2512-4bit",
dtype=torch.bfloat16,
device_map="cuda"
)
prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]
Ejemplo más completo con selección de dispositivo, relación de aspecto y semilla fija:
from diffusers import DiffusionPipeline
import torch
model_name = "ovedrive/qwen-image-2512-4bit"
# Load the pipeline
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
"en": "Ultra HD, 4K, cinematic composition.",
"zh": "超清,4K,电影级构图",
}
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $2 per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈3.1415926-53589793-23846264-33832795-02384197". Ultra HD, 4K, cinematic composition'''
negative_prompt = " "
aspect_ratios = {
"1:1": (1328, 1328),
"16:9": (1664, 928),
"9:16": (928, 1664),
"4:3": (1472, 1140),
"3:4": (1140, 1472),
"3:2": (1584, 1056),
"2:3": (1056, 1584),
}
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + positive_magic["en"],
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=20,
true_cfg_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")
Funcionalidades
- Generación de imágenes a partir de texto con Diffusers y QwenImagePipeline.
- Cuantización NF4 de 4 bits para reducir el uso de memoria en GPU.
- Algunas capas se mantienen en precisión completa para evitar la degradación de calidad de una cuantización ciega de todo el transformador.
- Funciona con parámetros del Qwen-Image original; el autor recomienda al menos 20 pasos de inferencia.
- Mejor realismo en sujetos humanos, con menos aspecto artificial y más detalle facial.
- Mayor detalle en paisajes, agua, vegetación, niebla, pelo y pelaje animal.
- Mejor renderizado de texto, diseño y composición de imágenes con texto integrado.
- Soporta prompts en inglés y chino.
- Licencia cc-by-nc-sa-4.0 indicada en Hugging Face.
Casos de uso
- Generar imágenes fotorrealistas de personas con mejor detalle facial, pelo y contexto de escena.
- Crear imágenes de naturaleza con agua, vegetación, niebla, texturas y pelaje animal más definidos.
- Producir carteles, diapositivas, infografías y pósteres educativos con texto dentro de la imagen.
- Ejecutar Qwen-Image-2512 en hardware con menos memoria que el modelo completo gracias a la cuantización de 4 bits.
- Experimentar localmente con generación de imágenes en inglés o chino usando Diffusers.