calcuis/hunyuanimage-gguf

calcuis

Texto a imagen

Versión cuantizada en formato GGUF de HunyuanImage 2.1 para generación de imágenes a partir de texto en ComfyUI mediante gguf-node. El repositorio incluye variantes estándar, v2, refiner, distilled y lite, con cuantizaciones de 2 a 16 bits para equilibrar calidad, velocidad, memoria y tiempo de carga.

Como usar

Uso previsto en ComfyUI con gguf-node:

Descargar una variante de hunyuanimage2.1 y colocarla en ./ComfyUI/models/diffusion_models.
Descargar byt5-sm y qwen2.5-vl-7b y colocarlos en ./ComfyUI/models/text_encoders.
Descargar pig y colocarlo en ./ComfyUI/models/vae.
Ejecutar el modelo con gguf-node en ComfyUI.

Recomendaciones del autor:

Modelo estándar: todos los archivos deberían funcionar; usar unas 12-15 steps para calidad.
Refiner: usar v2; puede cargar una imagen borrosa, distorsionada o de mala calidad para refinarla/enfocarla.
Distilled: usar v2; puede generar con unas 8 steps.
Lite: usar 8 steps + CFG 1; se indica que produce salida idéntica al estándar y es 2-3 veces más rápido.
Lite v2.2: ejemplo con steps=10 y cfg=1.5; calidad cercana al estándar y menor tiempo de carga.

Si la GPU no libera VRAM después de varios intentos, el autor sugiere usar un encoder safetensors fp8 escalado y revisar compatibilidad según tarjeta y drivers.

Funcionalidades

Modelo Text-to-Image basado en HunyuanImage 2.1 y arquitectura PIG, con tamaño indicado de 17B parámetros.
Distribución en formato GGUF pensada para ejecutarse con gguf-node dentro de ComfyUI.
Incluye múltiples cuantizaciones: IQ2/Q2, IQ3/Q3, IQ4/Q4/MXFP4, Q5, Q6, Q8 y F16, con tamaños aproximados desde 5.03 GB hasta 35.9 GB según variante.
La variante estándar debería generar resultados de calidad con unas 12-15 steps.
La variante v2 es más ligera y se recomienda para el modelo refiner y el modelo distilled.
El modelo distilled puede generar salida con unas 8 steps.
La variante lite puede ejecutarse con 8 steps y CFG 1, con salida indicada como idéntica al modelo estándar pero 2-3 veces más rápida.
La variante lite v2.2 busca conservar aproximadamente el 80-90% de la calidad del estándar y reducir el tiempo de carga hasta un 60-70%, según configuración de steps y CFG.
Incluye flujo de refiner para cargar imágenes borrosas, distorsionadas o de baja calidad y refinarlas o enfocarlas.
Licencia: tencent-hunyuan-community.

Casos de uso

Generación local de imágenes desde prompts de texto en ComfyUI.
Ejecución de HunyuanImage 2.1 en hardware con menos VRAM usando cuantizaciones GGUF.
Comparación entre variantes estándar, lite, distilled y refiner para ajustar calidad, velocidad y memoria.
Refinado o enfoque de imágenes borrosas, distorsionadas o de baja calidad.
Flujos de creación de imágenes anime, cyberpunk u otros estilos detallados mediante prompts positivos y negativos.