calcuis/koji

calcuis

Texto a imagen

Versión cuantizada en GGUF de Koji, presentada como un paquete de prueba pequeño para generación de imágenes texto-a-imagen. Es un modelo mini basado en SD1, de tamaño reducido y ejecución muy rápida, pensado sobre todo para probar el nodo GGUF en ComfyUI, aunque la tarjeta advierte posibles problemas de calidad.

Como usar

Uso general en ComfyUI:

Coloca los archivos GGUF en ./ComfyUI/models/diffusion_models.
Coloca l-clip en ./ComfyUI/models/text_encoders.
Coloca el decodificador VAE en ./ComfyUI/models/vae.
Para usar el paquete sin instalación manual, descarga el pack de ComfyUI con el nuevo gguf-node y ejecuta el archivo .bat del directorio principal.
Para cargar un flujo de trabajo, arrastra cualquier archivo JSON de workflow al navegador activo de ComfyUI, o arrastra una imagen/video generado que contenga metadatos del workflow.

Ejemplos de prompt mencionados:
masterpiece, best quality, 1girl, yellow eyes, medium hair, stairs, cherry blossoms, temple, fox girl, detached sleeves, animal ears, happy, arms behind back, tail

Prompt negativo:
(worst quality, low quality:1.4),

Funcionalidades

Modelo texto-a-imagen en formato GGUF.
Basado en arquitectura SD1 con aproximadamente 0.9B parámetros.
Disponible en múltiples cuantizaciones: Q2_K, Q3_K_S, Q3_K_M, Q3_K_L, Q4_K_S, Q4_0, Q4_1, Q4_K_M, Q5_K_S, Q5_0, Q5_1, Q5_K_M, Q6_K, Q8_0 y F16.
Tamaños de archivo desde 289 MB en 2-bit Q2_K hasta 1.72 GB en F16.
Diseñado para usarse con ComfyUI colocando los archivos GGUF en diffusion_models, el encoder l-clip en text_encoders y el decodificador VAE en vae.
Incluye ejemplos de prompts anime/fantasía con prompts negativos de baja calidad.
Licencia Apache 2.0.

Casos de uso

Probar el nodo GGUF en ComfyUI con un modelo pequeño y rápido.
Experimentar con generación de imágenes estilo anime/fantasía usando prompts texto-a-imagen.
Evaluar distintas cuantizaciones GGUF y su impacto en tamaño/rendimiento.
Crear pruebas locales ligeras sin depender de un proveedor de inferencia externo.