EricRollei/HunyuanImage-3.0-Instruct-Distil-NF4-v2
Versión cuantizada NF4 de 4 bits de HunyuanImage-3.0 Instruct Distil, derivada del modelo de Tencent. Está orientada a generación texto-a-imagen, edición de imágenes y fusión de múltiples imágenes con menor consumo de VRAM. Usa la variante CFG-Distilled de 8 pasos, lo que permite una generación aproximadamente 6 veces más rápida que el modelo Instruct completo de 50 pasos, manteniendo capas críticas en BF16 para preservar calidad visual.
Como usar
Uso directo con Transformers:
# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("EricRollei/HunyuanImage-3.0-Instruct-Distil-NF4-v2", trust_remote_code=True, dtype="auto")
Uso recomendado con ComfyUI:
cd ComfyUI/custom_nodes
git clone https://github.com/EricRollei/Comfy_HunyuanImage3
Después, descarga el modelo en el directorio de modelos, usa el nodo "Hunyuan 3 Instruct Loader", selecciona la carpeta del modelo con precisión nf4 y conéctalo a "Hunyuan 3 Instruct Generate" para texto-a-imagen, "Hunyuan 3 Instruct Edit" para edición o "Hunyuan 3 Instruct Multi-Fusion" para combinar imágenes.
Funcionalidades
- Generación texto-a-imagen con prompts en inglés y chino.
- Edición de imágenes y fusión multiimagen mediante nodos ComfyUI compatibles.
- Cuantización NF4 de 4 bits con bitsandbytes y doble cuantización.
- Arquitectura HunyuanImage-3.0 Mixture-of-Experts Diffusion Transformer, con 80B parámetros totales y 13B activos por token.
- Variante Instruct Distil con 8 pasos de difusión y guidance scale por defecto de 2.5.
- Modo Chain-of-Thought think_recaption para mejorar prompts antes de generar.
- Soporte de block swap para descargar bloques del transformer a CPU y reducir VRAM necesaria.
- Resolución de salida de hasta 2048x2048.
- Mantiene en BF16 capas críticas como VAE, proyecciones de atención, embeddings, SigLIP2 y capas finales.
Casos de uso
- Crear imágenes desde texto en hardware de una sola GPU de 48 GB.
- Editar imágenes con instrucciones usando la variante Instruct de HunyuanImage 3.0.
- Combinar múltiples imágenes en flujos de trabajo de fusión visual.
- Ejecutar HunyuanImage-3.0 Instruct Distil con menor VRAM mediante cuantización NF4.
- Usar ComfyUI para flujos locales de generación, edición y prompt enhancement.
- Probar modos `image`, `recaption` y `think_recaption` según la prioridad entre velocidad y calidad.