unsloth/Qwen-Image-2512-GGUF

unsloth

Texto a imagen

Versión cuantizada en formato GGUF de Qwen-Image-2512, el modelo fundacional de texto a imagen de Qwen actualizado en diciembre. Usa la metodología Unsloth Dynamic 2.0 para mantener alto rendimiento en cuantización, con capas importantes elevadas a mayor precisión. Está orientado a generación de imágenes con mayor realismo humano, más detalle natural y mejor renderizado de texto que la versión base de Qwen-Image publicada en agosto.

Como usar

Instalación de la versión más reciente de diffusers:
pip install git+https://github.com/huggingface/diffusers

Ejemplo de uso de Qwen-Image-2512 con Diffusers:
from diffusers import DiffusionPipeline
import torch

model_name = "Qwen/Qwen-Image-2512"

# Load the pipeline
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"

pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype).to(device)

# Generate image
prompt = '''A 20-year-old East Asian girl with delicate, charming features and large, bright brown eyes—expressive and lively, with a cheerful or subtly smiling expression. Her naturally wavy long hair is either loose or tied in twin ponytails. She has fair skin and light makeup accentuating her youthful freshness. She wears a modern, cute dress or relaxed outfit in bright, soft colors—lightweight fabric, minimalist cut. She stands indoors at an anime convention, surrounded by banners, posters, or stalls. Lighting is typical indoor illumination—no staged lighting—and the image resembles a casual iPhone snapshot: unpretentious composition, yet brimming with vivid, fresh, youthful charm.'''
negative_prompt = "低分辨率，低画质，肢体畸形，手指畸形，画面过饱和，蜡像感，人脸无细节，过度光滑，画面具有AI感。构图混乱。文字模糊，扭曲。"

# Generate with different aspect ratios
aspect_ratios = {
    "1:1": (1328, 1328),
    "16:9": (1664, 928),
    "9:16": (928, 1664),
    "4:3": (1472, 1104),
    "3:4": (1104, 1472),
    "3:2": (1584, 1056),
    "2:3": (1056, 1584),
}

width, height = aspect_ratios["16:9"]

image = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]

image.save("example.png")

Para usar específicamente la variante GGUF de Unsloth, la tarjeta recomienda seguir las guías de ComfyUI o stable-diffusion.cpp.

Funcionalidades

Modelo texto-a-imagen cuantizado en GGUF basado en Qwen/Qwen-Image-2512.
20B parámetros con arquitectura qwen_image.
Metodología Unsloth Dynamic 2.0, con capas críticas en mayor precisión para mejorar el rendimiento de las cuantizaciones.
Mejor realismo humano: reduce el aspecto artificial de imagen generada por IA y mejora detalles faciales, piel, cabello, edad y contexto ambiental.
Detalle natural más fino: mejora la representación de paisajes, agua, vegetación, niebla, pelaje animal y texturas naturales complejas.
Renderizado de texto mejorado: mayor precisión, composición multimodal texto+imagen más fiel y mejor distribución visual en diapositivas, infografías y pósteres.
Evaluado en más de 10.000 rondas ciegas en AI Arena, donde se presenta como uno de los modelos open source más fuertes y competitivo frente a modelos cerrados.
Compatible con flujos como ComfyUI, stable-diffusion.cpp y herramientas de ComfyUI-GGUF de city96.
Cuantizaciones disponibles desde 2-bit hasta 16-bit: Q2_K, Q3_K_S, Q3_K_M, Q4_K_S, Q4_0, Q4_1, Q4_K_M, Q5_K_S, Q5_0, Q5_1, Q5_K_M, Q6_K, Q8_0, BF16 y F16.
Licencia Apache 2.0.

Casos de uso

Generación de retratos humanos más realistas, con mejor detalle facial, textura de piel, cabello y señales de edad.
Creación de imágenes tipo fotografía casual o smartphone con composición natural y menor apariencia sintética.
Generación de escenas naturales con agua, vegetación, niebla, montañas, animales y pelaje con mayor fidelidad de textura.
Creación de diapositivas, infografías y pósteres donde el texto renderizado dentro de la imagen debe ser más legible, ordenado y fiel al prompt.
Composición multimodal texto+imagen, por ejemplo comparativas antes/después, cronologías, material educativo o material industrial visual.
Ejecución local o en flujos optimizados mediante cuantizaciones GGUF, especialmente cuando se necesita reducir tamaño de modelo frente a BF16/F16.