EricRollei/HunyuanImage-3.0-Instruct-Distil-NF4-v2

EricRollei

Texto a imagen

Versión cuantizada NF4 de 4 bits de HunyuanImage-3.0 Instruct Distil, derivada del modelo de Tencent. Está orientada a generación texto-a-imagen, edición de imágenes y fusión de múltiples imágenes con menor consumo de VRAM. Usa la variante CFG-Distilled de 8 pasos, lo que permite una generación aproximadamente 6 veces más rápida que el modelo Instruct completo de 50 pasos, manteniendo capas críticas en BF16 para preservar calidad visual.

Como usar

Uso directo con Transformers:
# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("EricRollei/HunyuanImage-3.0-Instruct-Distil-NF4-v2", trust_remote_code=True, dtype="auto")

Uso recomendado con ComfyUI:
cd ComfyUI/custom_nodes
git clone https://github.com/EricRollei/Comfy_HunyuanImage3

Después, descarga el modelo en el directorio de modelos, usa el nodo "Hunyuan 3 Instruct Loader", selecciona la carpeta del modelo con precisión nf4 y conéctalo a "Hunyuan 3 Instruct Generate" para texto-a-imagen, "Hunyuan 3 Instruct Edit" para edición o "Hunyuan 3 Instruct Multi-Fusion" para combinar imágenes.

Funcionalidades

Generación texto-a-imagen con prompts en inglés y chino.
Edición de imágenes y fusión multiimagen mediante nodos ComfyUI compatibles.
Cuantización NF4 de 4 bits con bitsandbytes y doble cuantización.
Arquitectura HunyuanImage-3.0 Mixture-of-Experts Diffusion Transformer, con 80B parámetros totales y 13B activos por token.
Variante Instruct Distil con 8 pasos de difusión y guidance scale por defecto de 2.5.
Modo Chain-of-Thought think_recaption para mejorar prompts antes de generar.
Soporte de block swap para descargar bloques del transformer a CPU y reducir VRAM necesaria.
Resolución de salida de hasta 2048x2048.
Mantiene en BF16 capas críticas como VAE, proyecciones de atención, embeddings, SigLIP2 y capas finales.

Casos de uso

Crear imágenes desde texto en hardware de una sola GPU de 48 GB.
Editar imágenes con instrucciones usando la variante Instruct de HunyuanImage 3.0.
Combinar múltiples imágenes en flujos de trabajo de fusión visual.
Ejecutar HunyuanImage-3.0 Instruct Distil con menor VRAM mediante cuantización NF4.
Usar ComfyUI para flujos locales de generación, edición y prompt enhancement.
Probar modos `image`, `recaption` y `think_recaption` según la prioridad entre velocidad y calidad.