Phil2Sat/Qwen-Image-Edit-Rapid-AIO-GGUF
Modelo cuantizado en formato GGUF para generación y edición de imágenes basado en Qwen Image Edit, orientado a flujos de texto a imagen, imagen a imagen y uso conversacional en ComfyUI. Empaqueta variantes cuantizadas del ajuste Rapid AIO e incluye LoRAs NSFW y Lightning, pero requiere descargar por separado el VAE y el text encoder porque no pueden integrarse en GGUF.
Como usar
Uso recomendado en ComfyUI para generación y edición de imágenes con archivos GGUF cuantizados. Para que funcione correctamente, además del modelo principal hay que añadir un VAE externo y un text encoder compatible. El repositorio también indica que el archivo mmproj debe colocarse al lado del archivo GGUF del encoder recomendado; de lo contrario puede aparecer el error de multiplicación de matrices. La página menciona flujos de trabajo de ejemplo para text2image en 4 pasos y para edición de imágenes en 4 pasos con variantes como Q2_K y Q5_K_M.
Funcionalidades
- Basado en `Qwen/Qwen-Image-Edit-2511`, afinado desde `Phr00t/Qwen-Image-Edit-Rapid-AIO` y cuantizado por `Phil2Sat`
- Arquitectura `qwen2vl` con tamaño aproximado de 8B parámetros
- Pensado para `Text-to-Image`, edición de imágenes (`i2i`) y uso conversacional
- Incluye múltiples cuantizaciones GGUF: `Q2_K`, `Q3_K_S`, `Q3_K_M`, `Q4_0`, `Q4_1`, `Q4_K_S`, `Q4_K_M`, `Q5_0`, `Q5_1`, `Q5_K_S`, `Q5_K_M`, `Q6_K`, `Q8_0` y `F16`
- Ofrece variantes por versión del modelo Rapid NSFW, incluyendo `v5.0`, `v5.2`, `v5.3`, `v7.1` y `v9.0`
- Incluye archivos recomendados de `Qwen2.5-VL-7B-Instruct-abliterated` y su `mmproj` corregido para uso directo
- Requiere colocar el archivo `mmproj` junto al archivo `.gguf` del text encoder recomendado
- Necesita reemplazar `comfy_extras/nodes_qwen.py` por una versión corregida para evitar fallos de codificación de texto
- El autor recomienda usar `Qwen2.5-VL-7B-Instruct-abliterated` como text encoder en lugar del predeterminado
- No está desplegado por proveedores de inferencia en Hugging Face en la página proporcionada
Casos de uso
- Generación rápida de imágenes desde texto en ComfyUI usando cuantizaciones ligeras como `Q2_K`
- Edición de imágenes existente con flujos `image-to-image` de pocos pasos
- Pruebas locales de variantes NSFW y Lightning del ajuste Rapid AIO
- Uso conversacional multimodal apoyado en un encoder visual `Qwen2.5-VL-7B-Instruct-abliterated`
- Ejecución local con distintas cuantizaciones para equilibrar calidad, memoria y velocidad