calcuis/hunyuanimage-gguf
calcuis
Texto a imagen
Versión cuantizada en formato GGUF de HunyuanImage 2.1 para generación de imágenes a partir de texto en ComfyUI mediante gguf-node. El repositorio incluye variantes estándar, v2, refiner, distilled y lite, con cuantizaciones de 2 a 16 bits para equilibrar calidad, velocidad, memoria y tiempo de carga.
Como usar
Uso previsto en ComfyUI con gguf-node:
- Descargar una variante de
hunyuanimage2.1 y colocarla en ./ComfyUI/models/diffusion_models.
- Descargar
byt5-sm y qwen2.5-vl-7b y colocarlos en ./ComfyUI/models/text_encoders.
- Descargar
pig y colocarlo en ./ComfyUI/models/vae.
- Ejecutar el modelo con gguf-node en ComfyUI.
Recomendaciones del autor:
- Modelo estándar: todos los archivos deberían funcionar; usar unas 12-15 steps para calidad.
- Refiner: usar v2; puede cargar una imagen borrosa, distorsionada o de mala calidad para refinarla/enfocarla.
- Distilled: usar v2; puede generar con unas 8 steps.
- Lite: usar 8 steps + CFG 1; se indica que produce salida idéntica al estándar y es 2-3 veces más rápido.
- Lite v2.2: ejemplo con steps=10 y cfg=1.5; calidad cercana al estándar y menor tiempo de carga.
Si la GPU no libera VRAM después de varios intentos, el autor sugiere usar un encoder safetensors fp8 escalado y revisar compatibilidad según tarjeta y drivers.
Funcionalidades
- Modelo Text-to-Image basado en HunyuanImage 2.1 y arquitectura PIG, con tamaño indicado de 17B parámetros.
- Distribución en formato GGUF pensada para ejecutarse con gguf-node dentro de ComfyUI.
- Incluye múltiples cuantizaciones: IQ2/Q2, IQ3/Q3, IQ4/Q4/MXFP4, Q5, Q6, Q8 y F16, con tamaños aproximados desde 5.03 GB hasta 35.9 GB según variante.
- La variante estándar debería generar resultados de calidad con unas 12-15 steps.
- La variante v2 es más ligera y se recomienda para el modelo refiner y el modelo distilled.
- El modelo distilled puede generar salida con unas 8 steps.
- La variante lite puede ejecutarse con 8 steps y CFG 1, con salida indicada como idéntica al modelo estándar pero 2-3 veces más rápida.
- La variante lite v2.2 busca conservar aproximadamente el 80-90% de la calidad del estándar y reducir el tiempo de carga hasta un 60-70%, según configuración de steps y CFG.
- Incluye flujo de refiner para cargar imágenes borrosas, distorsionadas o de baja calidad y refinarlas o enfocarlas.
- Licencia: tencent-hunyuan-community.
Casos de uso
- Generación local de imágenes desde prompts de texto en ComfyUI.
- Ejecución de HunyuanImage 2.1 en hardware con menos VRAM usando cuantizaciones GGUF.
- Comparación entre variantes estándar, lite, distilled y refiner para ajustar calidad, velocidad y memoria.
- Refinado o enfoque de imágenes borrosas, distorsionadas o de baja calidad.
- Flujos de creación de imágenes anime, cyberpunk u otros estilos detallados mediante prompts positivos y negativos.