calcuis/lumina-gguf

calcuis

Texto a imagen

Versión cuantizada en formato GGUF de Lumina Image 2.0 para generación de imágenes a partir de texto. El repositorio empaqueta variantes cuantizadas de Lumina 2, con Gemma 2 2B como codificador de texto y un VAE de FLUX.1-dev como decodificador, pensadas para ejecutarse localmente con gguf-connector o en ComfyUI mediante gguf-node.

Como usar

Ejecutar directamente con gguf-connector:
ggc l2

El flujo indicado por la página permite seleccionar uno de varios archivos GGUF disponibles, por ejemplo lumina2-q2_k.gguf, lumina2-q4_0.gguf o lumina2-q8_0.gguf. La página indica que, tras elegir un archivo GGUF en el directorio actual, se obtiene una imagen en pocos segundos incluso con una GPU básica.
Uso con gguf-node en ComfyUI:
Arrastra lumina2 (cualquier variante que prefieras) a ./ComfyUI/models/diffusion_models
Arrastra gemma2-2b [2.32GB] y tokenizer [4.24MB] a ./ComfyUI/models/text_encoders
Arrastra pig [168MB] a ./ComfyUI/models/vae

Ejemplo de prompt incluido:
a cute anime girl with massive fennec ears mouth open and a big fluffy tail long blonde hair and blue eyes wearing a maid outfit with a long black dress and a large purple liquid stained white apron and white gloves and black leggings sitting on a large cushion in the middle of a kitchen in a dark victorian mansion with a stained glass window drinking a glass with a galaxy inside

Negative prompt:
blurry ugly bad

Funcionalidades

Tarea: generación de imágenes desde texto (text-to-image).
Formato GGUF con múltiples cuantizaciones disponibles, desde 2 bits hasta 8 bits, además de un VAE F16.
Basado en Alpha-VLLM/Lumina-Image-2.0 y marcado como modelo cuantizado de ese modelo base.
Arquitectura GGUF declarada: gemma2, con longitud de contexto de 8192 tokens.
Tamaño mostrado: 3B parámetros; total GGUF indicado: 2,614,341,888 bytes.
Licencia Apache 2.0.
Incluye ejemplos de prompts con negative prompt para imágenes estilo anime/fantasía.
No aparece desplegado en proveedores de inferencia de Hugging Face en la página suministrada.

Casos de uso

Generar imágenes desde prompts textuales usando Lumina Image 2.0 en formato local GGUF.
Probar variantes cuantizadas de Lumina 2 para equilibrar calidad, tamaño de archivo y requisitos de hardware.
Integrar Lumina 2 cuantizado en flujos de ComfyUI con gguf-node.
Ejecutar generación de imágenes local con gguf-connector sin depender de un proveedor de inferencia alojado.
Experimentar con prompts de alta alineación texto-imagen, especialmente escenas descriptivas de estilo anime/fantasía.