QuantStack/Qwen-Image-Distill-GGUF

QuantStack

Texto a imagen

Conversión directa en formato GGUF del modelo DiffSynth-Studio/Qwen-Image-Distill-Full. Es una versión cuantizada de Qwen-Image para generación de imágenes a partir de texto, pensada para ejecutarse en flujos locales como ComfyUI usando el nodo personalizado ComfyUI-GGUF.

Como usar

El modelo se usa con ComfyUI mediante el nodo personalizado ComfyUI-GGUF de city96. Los archivos del modelo deben colocarse en ComfyUI/models/unet. La página indica consultar el README de GitHub para más instrucciones de instalación. No se incluye ningún snippet de código en el HTML proporcionado.

Funcionalidades

Modelo text-to-image basado en la arquitectura qwen_image.
Formato GGUF cuantizado para ejecución local.
Modelo principal Qwen-Image, con encoder de texto Qwen2.5-VL-7B y VAE Qwen-Image como componentes relacionados.
Disponible en múltiples cuantizaciones: Q2_K, Q3_K_S, Q3_K_M, Q4_K_S, Q4_0, Q4_1, Q4_K_M, Q5_K_S, Q5_0, Q5_1, Q5_K_M, Q6_K y Q8_0.
Tamaño del modelo: 20B parámetros.
Licencia Apache 2.0, manteniendo las restricciones y términos del modelo original por ser una conversión cuantizada.
No está desplegado en proveedores de inferencia de Hugging Face según la página proporcionada.

Casos de uso

Generación local de imágenes a partir de prompts de texto.
Ejecución de Qwen-Image en ComfyUI con pesos GGUF cuantizados.
Pruebas de distintas cuantizaciones para ajustar consumo de memoria, tamaño de archivo y calidad de salida.
Flujos creativos o experimentales que requieran un modelo text-to-image compatible con ComfyUI.