Phil2Sat/Qwen-Image-Edit-Rapid-AIO-GGUF

Phil2Sat

Texto a imagen

Modelo cuantizado en formato GGUF para generación y edición de imágenes basado en Qwen Image Edit, orientado a flujos de texto a imagen, imagen a imagen y uso conversacional en ComfyUI. Empaqueta variantes cuantizadas del ajuste Rapid AIO e incluye LoRAs NSFW y Lightning, pero requiere descargar por separado el VAE y el text encoder porque no pueden integrarse en GGUF.

Como usar

Uso recomendado en ComfyUI para generación y edición de imágenes con archivos GGUF cuantizados. Para que funcione correctamente, además del modelo principal hay que añadir un VAE externo y un text encoder compatible. El repositorio también indica que el archivo mmproj debe colocarse al lado del archivo GGUF del encoder recomendado; de lo contrario puede aparecer el error de multiplicación de matrices. La página menciona flujos de trabajo de ejemplo para text2image en 4 pasos y para edición de imágenes en 4 pasos con variantes como Q2_K y Q5_K_M.

Funcionalidades

Basado en `Qwen/Qwen-Image-Edit-2511`, afinado desde `Phr00t/Qwen-Image-Edit-Rapid-AIO` y cuantizado por `Phil2Sat`
Arquitectura `qwen2vl` con tamaño aproximado de 8B parámetros
Pensado para `Text-to-Image`, edición de imágenes (`i2i`) y uso conversacional
Incluye múltiples cuantizaciones GGUF: `Q2_K`, `Q3_K_S`, `Q3_K_M`, `Q4_0`, `Q4_1`, `Q4_K_S`, `Q4_K_M`, `Q5_0`, `Q5_1`, `Q5_K_S`, `Q5_K_M`, `Q6_K`, `Q8_0` y `F16`
Ofrece variantes por versión del modelo Rapid NSFW, incluyendo `v5.0`, `v5.2`, `v5.3`, `v7.1` y `v9.0`
Incluye archivos recomendados de `Qwen2.5-VL-7B-Instruct-abliterated` y su `mmproj` corregido para uso directo
Requiere colocar el archivo `mmproj` junto al archivo `.gguf` del text encoder recomendado
Necesita reemplazar `comfy_extras/nodes_qwen.py` por una versión corregida para evitar fallos de codificación de texto
El autor recomienda usar `Qwen2.5-VL-7B-Instruct-abliterated` como text encoder en lugar del predeterminado
No está desplegado por proveedores de inferencia en Hugging Face en la página proporcionada

Casos de uso

Generación rápida de imágenes desde texto en ComfyUI usando cuantizaciones ligeras como `Q2_K`
Edición de imágenes existente con flujos `image-to-image` de pocos pasos
Pruebas locales de variantes NSFW y Lightning del ajuste Rapid AIO
Uso conversacional multimodal apoyado en un encoder visual `Qwen2.5-VL-7B-Instruct-abliterated`
Ejecución local con distintas cuantizaciones para equilibrar calidad, memoria y velocidad