calcuis/pixart
calcuis
Texto a imagen
Versión cuantizada en formato GGUF de PixArt para generación de imágenes a partir de texto. Está basada en PixArt-XL-2-1024-MS y orientada a usarse con ComfyUI mediante gguf-node, con modelos PixArt XL/Sigma recomendados para salida de 1024x1024.
Como usar
Configuración recomendada en ComfyUI:
Arrastra pixart-xl-2-1024-ms-q4_k_m.gguf [1GB] a ./ComfyUI/models/diffusion_models
Arrastra t5xxl_fp16-q4_0.gguf [2.9GB] a ./ComfyUI/models/text_encoders
Arrastra pixart_vae_fp8_e4m3fn.safetensors [83.7MB] a ./ComfyUI/models/vae
Uso directo: ejecutar el archivo .bat del directorio principal si se usa el paquete gguf-node indicado, y arrastrar el archivo JSON del workflow o una imagen de demostración al navegador. Para mejores resultados, configurar el tamaño de salida según el modelo, especialmente 1024x1024 para pixart-xl-2-1024-ms y pixart-sigma-xl-2-1024-ms.
Funcionalidades
- Generación de imágenes texto-a-imagen con arquitectura PixArt.
- Pesos cuantizados GGUF disponibles en varias precisiones, incluidas Q3_K_M, Q4_0, Q4_K_M, Q5_K_M, Q6_K y F16.
- Modelo base: PixArt-alpha/PixArt-XL-2-1024-MS.
- Tamaño aproximado del modelo: 0.6B parámetros.
- Compatible con flujos de trabajo de ComfyUI y gguf-node.
- El codificador T5 permite usar descripciones cortas o frases, no solo etiquetas.
- Licencia openrail++.
- No está desplegado actualmente por proveedores de inferencia en Hugging Face.
Casos de uso
- Crear imágenes fotorealistas o estilizadas desde prompts descriptivos.
- Generar retratos cercanos de personas, personajes o animales.
- Probar PixArt XL en equipos con menos memoria usando cuantizaciones GGUF.
- Ejecutar workflows de ComfyUI para síntesis de imágenes de 1024x1024.
- Experimentar con prompts en lenguaje natural gracias al codificador T5.