pcuenq/sd-vae-ft-mse-flax
Autoencoders mejorados mediante el ajuste fino del decodificador. Publicamos dos versiones del autoencoder kl-f8, afinadas a partir del autoencoder kl-f8 original en una proporción de 1:1 de LAION-Aesthetics y LAION-Humans, un subconjunto no publicado que contiene solo imágenes aptas de humanos. La primera, ft-EMA, se reanudó desde el checkpoint original, entrenado durante 313198 pasos y utiliza pesos EMA. La segunda, ft-MSE, se reanudó desde ft-EMA y se entrenó durante otros 280k pasos utilizando una pérdida diferente, con más énfasis en la reconstrucción MSE (MSE + 0.1 * LPIPS). Produce salidas algo más 'suaves'.
Como usar
Este modelo está diseñado para ser utilizado con la biblioteca 🧨 diffusers. Si buscas usar el modelo con el código original de CompVis Stable Diffusion, puedes encontrarlo aquí.
# Uso con la biblioteca diffusers
from diffusers import StableDiffusionPipeline
pipeline = StableDiffusionPipeline.from_pretrained('pcuenq/sd-vae-ft-mse-flax')
Funcionalidades
- Mejora de autoencoders utilizando el ajuste fino del decodificador
- Compatibilidad con la biblioteca 🧨 diffusers
- Pesos EMA y un énfasis mayor en la reconstrucción MSE para una mejor salida
Casos de uso
- Reconstrucción de rostros
- Mejora de calidad de imágenes en datasets de estética
- Generación de imágenes para aplicaciones de distribución estable