enterprise-explorers/sd-vae-ft-mse-flax
enterprise-explorers
Texto a imagen
Versión Flax del autoencoder VAE kl-f8 `ft-MSE` para Stable Diffusion, ajustado finamente solo en el decodificador para mejorar la reconstrucción de imágenes y caras manteniendo compatibilidad como reemplazo directo del autoencoder existente. Fue continuado desde `ft-EMA`, usa pesos EMA y se entrenó 280.000 pasos adicionales con una pérdida centrada en reconstrucción MSE (`MSE + 0.1 * LPIPS`), lo que produce salidas algo más suaves.
Como usar
Estos pesos están pensados para utilizarse con la biblioteca Diffusers como VAE de Stable Diffusion. La página no incluye un fragmento de código de uso explícito.
Funcionalidades
- Autoencoder VAE kl-f8 ajustado para Stable Diffusion en formato Flax.
- Diseñado para usarse con la biblioteca Diffusers.
- Decodificador ajustado finamente; el resto del autoencoder se mantiene compatible con modelos existentes.
- Entrenado sobre una mezcla 1:1 de LAION-Aesthetics y LAION-Humans con imágenes SFW de humanos.
- Mejora métricas de reconstrucción frente al VAE original en COCO 2017 y LAION-Aesthetics 5+.
- En COCO 2017 alcanza PSNR 24.5, SSIM 0.71 y PSIM 0.92; en LAION-Aesthetics 5+ alcanza PSNR 27.3, SSIM 0.83 y PSIM 0.65.
- Licencia MIT.
Casos de uso
- Reemplazar el VAE original de Stable Diffusion por una variante con reconstrucciones más suaves.
- Mejorar la reconstrucción de rostros en flujos de generación de imágenes con Stable Diffusion.
- Usar un VAE compatible con Diffusers en pipelines Flax/JAX.
- Evaluar reconstrucciones de imágenes 256x256 en conjuntos como COCO 2017 o LAION-Aesthetics.