city96/Qwen-Image-gguf

city96
Texto a imagen

Conversión directa a GGUF del modelo Qwen/Qwen-Image para generación de imágenes a partir de texto. Está pensada para usarse localmente en ComfyUI mediante el nodo personalizado ComfyUI-GGUF, manteniendo las restricciones y términos de licencia del modelo original porque no es un ajuste fino, sino una cuantización.

Como usar

Para usar el modelo en ComfyUI, instala el nodo personalizado ComfyUI-GGUF y coloca los archivos necesarios en estas carpetas:

| Tipo | Nombre | Ubicación | Descarga | |---|---|---|---| | Modelo principal | Qwen-Image | ComfyUI/models/diffusion_models | GGUF, este repositorio | | Codificador de texto | Qwen2.5-VL-7B | ComfyUI/models/text_encoders | Safetensors o GGUF | | VAE | Qwen-Image VAE | ComfyUI/models/vae | Safetensors |

La página indica que hay un flujo de ejemplo y salidas de ejemplo, pero no incluye un fragmento de código en el HTML proporcionado.

Funcionalidades

Modelo de texto a imagen en formato GGUF basado en Qwen/Qwen-Image.
Arquitectura qwen_image con aproximadamente 20B parámetros.
Compatible con ComfyUI usando el nodo personalizado ComfyUI-GGUF.
Incluye cuantizaciones de 2 a 16 bits, desde Q2_K de 7.06 GB hasta BF16 de 40.9 GB.
Las cuantizaciones Q5_K_M, Q4_K_M y especialmente Q3_K_M, Q3_K_S y Q2_K usan lógica dinámica que conserva la primera y última capa en alta precisión.
Soporta flujos con el codificador de texto Qwen2.5-VL-7B y el VAE de Qwen-Image.
Licencia Apache 2.0 heredada junto con las restricciones del modelo original.

Casos de uso

Generación local de imágenes a partir de texto en ComfyUI.
Ejecución de Qwen-Image en equipos con distintos presupuestos de memoria usando cuantizaciones GGUF.
Pruebas comparativas entre cuantizaciones Q2, Q3, Q4, Q5, Q6, Q8 y BF16.
Creación de flujos de trabajo de imagen con Qwen-Image, Qwen2.5-VL-7B como codificador de texto y el VAE de Qwen-Image.