Bedovyy/Anima-INT8

Bedovyy

Texto a imagen

Modelo de texto a imagen basado en Anima, cuantizado en INT8 para ejecución en ComfyUI. Está orientado a generar imágenes con menor tiempo de inferencia que BF16/FP8 en varias GPU probadas, especialmente RTX 3090, usando cuantización tensorwise o rowwise. Requiere un nodo personalizado de ComfyUI para cargar el modelo.

Como usar

Para usarlo en ComfyUI hay que clonar ComfyUI-Flux2-INT8 dentro del directorio custom_nodes. Después, cargar el modelo con el nodo Load Diffusion Model INT8 (W8A8) y dejar on_the_fly_qunatization en False.
No hay snippets oficiales disponibles para la librería Diffusion Single File en Hugging Face.
Configuración INT8 Tensorwise:
{
  "format": "comfy_quant",
  "block_names": ["net.blocks."],
  "rules": [
    {
      "policy": "keep",
      "match": ["blocks.0", "adaln_modulation", ".mlp.layer2"]
    },
    {
      "policy": "int8_tensorwise",
      "match": ["q_proj", "k_proj", "v_proj", "output_proj", ".mlp"]
    }
  ]
}

Configuración INT8 Rowwise:
{
  "format": "comfy_quant",
  "block_names": ["net.blocks."],
  "rules": [
    {
      "policy": "keep",
      "match": ["blocks.0.", "adaln_modulation", ".0.mlp", ".1.mlp", ".2.mlp", ".3.mlp"]
    },
    {
      "policy": "int8_rowwise",
      "match": ["q_proj", "k_proj", "v_proj", "output_proj", ".mlp"]
    }
  ]
}

Funcionalidades

Generación de imágenes desde texto mediante difusión.
Archivo único compatible con flujos de Diffusion Single File y ComfyUI.
Cuantización INT8 Tensorwise para acelerar capas de atención y MLP seleccionadas.
Variante INT8 Rowwise disponible para ejecución sin Torch Compile.
Pruebas de velocidad reportadas en RTX 5090, RTX 3090 y RTX 3060 con resolución 832x1216, CFG 4.0 y 30 pasos.
Basado en circlestone-labs/Anima y publicado bajo licencia no comercial de CircleStone Labs.

Casos de uso

Generar imágenes con Anima en ComfyUI usando pesos cuantizados para mejorar la velocidad.
Ejecutar flujos de texto a imagen en GPUs de escritorio donde INT8 puede reducir el tiempo de generación.
Comparar rendimiento entre BF16, FP8, INT8 Tensorwise e INT8 Rowwise en pipelines de ComfyUI.
Experimentar con variantes cuantizadas no comerciales del modelo Anima.