calcuis/pixart

calcuis

Texto a imagen

Versión cuantizada en formato GGUF de PixArt para generación de imágenes a partir de texto. Está basada en PixArt-XL-2-1024-MS y orientada a usarse con ComfyUI mediante gguf-node, con modelos PixArt XL/Sigma recomendados para salida de 1024x1024.

Como usar

Configuración recomendada en ComfyUI:
Arrastra pixart-xl-2-1024-ms-q4_k_m.gguf [1GB] a ./ComfyUI/models/diffusion_models
Arrastra t5xxl_fp16-q4_0.gguf [2.9GB] a ./ComfyUI/models/text_encoders
Arrastra pixart_vae_fp8_e4m3fn.safetensors [83.7MB] a ./ComfyUI/models/vae

Uso directo: ejecutar el archivo .bat del directorio principal si se usa el paquete gguf-node indicado, y arrastrar el archivo JSON del workflow o una imagen de demostración al navegador. Para mejores resultados, configurar el tamaño de salida según el modelo, especialmente 1024x1024 para pixart-xl-2-1024-ms y pixart-sigma-xl-2-1024-ms.

Funcionalidades

Generación de imágenes texto-a-imagen con arquitectura PixArt.
Pesos cuantizados GGUF disponibles en varias precisiones, incluidas Q3_K_M, Q4_0, Q4_K_M, Q5_K_M, Q6_K y F16.
Modelo base: PixArt-alpha/PixArt-XL-2-1024-MS.
Tamaño aproximado del modelo: 0.6B parámetros.
Compatible con flujos de trabajo de ComfyUI y gguf-node.
El codificador T5 permite usar descripciones cortas o frases, no solo etiquetas.
Licencia openrail++.
No está desplegado actualmente por proveedores de inferencia en Hugging Face.

Casos de uso

Crear imágenes fotorealistas o estilizadas desde prompts descriptivos.
Generar retratos cercanos de personas, personajes o animales.
Probar PixArt XL en equipos con menos memoria usando cuantizaciones GGUF.
Ejecutar workflows de ComfyUI para síntesis de imágenes de 1024x1024.
Experimentar con prompts en lenguaje natural gracias al codificador T5.