Frederic75/Qwen-Image-2512-GGUF

Frederic75

Texto a imagen

Versión cuantizada en formato GGUF de Qwen-Image-2512, una actualización de diciembre del modelo fundacional de texto a imagen Qwen-Image. Está orientado a generar imágenes más realistas, con especial mejora en rostros y sujetos humanos, mayor detalle en texturas naturales como agua, vegetación y pelaje, y mejor renderizado de texto dentro de composiciones multimodales. El repositorio ofrece variantes cuantizadas de 2 a 8 bits para ejecución local, aunque no aparece desplegado en proveedores de inferencia de Hugging Face.

Como usar

Instalación y ejemplo con Diffusers:
pip install -U diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline

# switch to "mps" for apple devices
pipe = DiffusionPipeline.from_pretrained("Frederic75/Qwen-Image-2512-GGUF", dtype=torch.bfloat16, device_map="cuda")

prompt = "Astronaut in a jungle, cold color palette, muted colors, detailed, 8k"
image = pipe(prompt).images[0]

También se enlaza para uso en notebooks como Google Colab y Kaggle, y en aplicaciones locales como Draw Things y DiffusionBee.

Funcionalidades

Generación de imágenes a partir de texto con arquitectura qwen_image y 20B parámetros.
Cuantizaciones GGUF disponibles en múltiples tamaños: Q2_K_M, Q3_K_M, Q4_K_S, Q4_0, Q4_1, Q4_K_M, Q5_K_S, Q5_0, Q5_1, Q5_K_M, Q6_K y Q8_0.
Mejor realismo humano frente a Qwen-Image base, reduciendo el aspecto artificial en piel, rasgos faciales, edad y contexto visual.
Mayor fidelidad en detalles naturales, incluyendo paisajes, cascadas, niebla, pelo de animales y texturas rugosas.
Renderizado de texto mejorado para diapositivas, infografías, pósteres educativos y composiciones con texto e imagen.
Compatible con Diffusers según las instrucciones del repositorio.

Casos de uso

Crear retratos humanos fotorrealistas con rasgos faciales, piel, cabello y edad más convincentes.
Generar escenas naturales detalladas, como cañones, ríos, cascadas, costas con niebla y fauna con pelaje definido.
Producir imágenes con texto integrado, como diapositivas, comparativas antes/después, infografías técnicas y pósteres educativos.
Ejecutar Qwen-Image-2512 localmente en versiones cuantizadas GGUF para ajustar el tamaño del modelo al hardware disponible.