vantagewithai/LongCat-Image-GGUF

vantagewithai

Texto a imagen

Versión cuantizada en formato GGUF de LongCat-Image, un modelo fundacional abierto y bilingüe chino-inglés para generación de imágenes. Está diseñado para mejorar el renderizado de texto multilingüe, especialmente caracteres chinos, producir imágenes fotorrealistas y facilitar despliegues más eficientes con un modelo de 6B parámetros.

Como usar

Uso directo con Transformers:
# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("vantagewithai/LongCat-Image-GGUF", dtype="auto")

Para usar la versión GGUF en ComfyUI, se deben utilizar los archivos ubicados en la carpeta comfy del repositorio del modelo.

Funcionalidades

Generación de imágenes a partir de texto con arquitectura tipo Flux.
Modelo bilingüe chino-inglés orientado a prompts y texto renderizado en ambos idiomas.
Renderizado sólido de caracteres chinos comunes, con alta estabilidad y amplia cobertura de diccionario chino.
Buen fotorrealismo gracias a una estrategia de datos y entrenamiento enfocada en calidad visual.
Versión GGUF cuantizada con variantes de 2, 3, 4, 5, 6, 8 y 16 bits para distintos compromisos entre tamaño y calidad.
Tamaño base de 6B parámetros, con pesos GGUF desde aproximadamente 2.1 GB hasta 12.5 GB según la cuantización.
Licencia Apache 2.0.

Casos de uso

Generación de imágenes fotorrealistas desde prompts en inglés o chino.
Creación de imágenes que requieren texto chino integrado con mayor precisión.
Experimentación local con versiones GGUF cuantizadas para reducir requisitos de memoria.
Flujos de trabajo en ComfyUI usando los archivos GGUF preparados para esa integración.
Evaluación de modelos abiertos de generación de imagen bilingüe frente a modelos más grandes.