pcuenq/sd-vae-ft-mse-flax

pcuenq

Texto a imagen

Autoencoders mejorados mediante el ajuste fino del decodificador. Publicamos dos versiones del autoencoder kl-f8, afinadas a partir del autoencoder kl-f8 original en una proporción de 1:1 de LAION-Aesthetics y LAION-Humans, un subconjunto no publicado que contiene solo imágenes aptas de humanos. La primera, ft-EMA, se reanudó desde el checkpoint original, entrenado durante 313198 pasos y utiliza pesos EMA. La segunda, ft-MSE, se reanudó desde ft-EMA y se entrenó durante otros 280k pasos utilizando una pérdida diferente, con más énfasis en la reconstrucción MSE (MSE + 0.1 * LPIPS). Produce salidas algo más 'suaves'.

Como usar

Este modelo está diseñado para ser utilizado con la biblioteca 🧨 diffusers. Si buscas usar el modelo con el código original de CompVis Stable Diffusion, puedes encontrarlo aquí.
# Uso con la biblioteca diffusers
from diffusers import StableDiffusionPipeline
pipeline = StableDiffusionPipeline.from_pretrained('pcuenq/sd-vae-ft-mse-flax')

Funcionalidades

Mejora de autoencoders utilizando el ajuste fino del decodificador
Compatibilidad con la biblioteca 🧨 diffusers
Pesos EMA y un énfasis mayor en la reconstrucción MSE para una mejor salida

Casos de uso

Reconstrucción de rostros
Mejora de calidad de imágenes en datasets de estética
Generación de imágenes para aplicaciones de distribución estable