vantagewithai/LongCat-Image-GGUF
vantagewithai
Texto a imagen
Versión cuantizada en formato GGUF de LongCat-Image, un modelo fundacional abierto y bilingüe chino-inglés para generación de imágenes. Está diseñado para mejorar el renderizado de texto multilingüe, especialmente caracteres chinos, producir imágenes fotorrealistas y facilitar despliegues más eficientes con un modelo de 6B parámetros.
Como usar
Uso directo con Transformers:
# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("vantagewithai/LongCat-Image-GGUF", dtype="auto")
Para usar la versión GGUF en ComfyUI, se deben utilizar los archivos ubicados en la carpeta comfy del repositorio del modelo.
Funcionalidades
- Generación de imágenes a partir de texto con arquitectura tipo Flux.
- Modelo bilingüe chino-inglés orientado a prompts y texto renderizado en ambos idiomas.
- Renderizado sólido de caracteres chinos comunes, con alta estabilidad y amplia cobertura de diccionario chino.
- Buen fotorrealismo gracias a una estrategia de datos y entrenamiento enfocada en calidad visual.
- Versión GGUF cuantizada con variantes de 2, 3, 4, 5, 6, 8 y 16 bits para distintos compromisos entre tamaño y calidad.
- Tamaño base de 6B parámetros, con pesos GGUF desde aproximadamente 2.1 GB hasta 12.5 GB según la cuantización.
- Licencia Apache 2.0.
Casos de uso
- Generación de imágenes fotorrealistas desde prompts en inglés o chino.
- Creación de imágenes que requieren texto chino integrado con mayor precisión.
- Experimentación local con versiones GGUF cuantizadas para reducir requisitos de memoria.
- Flujos de trabajo en ComfyUI usando los archivos GGUF preparados para esa integración.
- Evaluación de modelos abiertos de generación de imagen bilingüe frente a modelos más grandes.