cafe_aesthetic

cafeai

Clasificación de imagen

Este modelo es un clasificador de imágenes ajustado en microsoft/beit-base-patch16-384. Su propósito es ser utilizado en el paso de acondicionamiento del conjunto de datos para el proyecto Waifu Diffusion, un esfuerzo de ajuste fino para Stable Diffusion. Dado que WD1.4 planea tener un conjunto de datos significativamente grande (~15 millones de imágenes), es inviable analizar cada imagen manualmente para determinar si debe incluirse o no en el conjunto de datos de entrenamiento final. Este clasificador de imágenes fue entrenado en aproximadamente 3.5k imágenes de la vida real y de anime/manga. Su propósito es eliminar imágenes estéticamente inservibles de nuestro conjunto de datos clasificándolas como "no_estética". El clasificador de imágenes se entrenó para pecar de precavido y generalmente tenderá a incluir imágenes a menos que estén en un formato "tipo manga", tengan líneas desordenadas y/o sean bocetos, o incluyan una cantidad inaceptable de texto (principalmente texto que cubra el sujeto principal de la imagen). La idea es que ciertas imágenes perjudicarán un ajuste fino de Stable Diffusion.

Como usar

Nota: Este clasificador no es perfecto, al igual que cualquier otro clasificador. Sin embargo, con un conjunto de datos suficientemente grande, cualquier imperfección o clasificación incorrecta debería promediarse debido a la Ley de los Grandes Números.
Puedes probar el clasificador aquí.

Funcionalidades

Clasificación de imágenes
Entrenado con Transformers y PyTorch
Utiliza el modelo base microsoft/beit-base-patch16-384
Remueve imágenes estéticamente inservibles
Entrenado en aproximadamente 3.5k imágenes de la vida real y de anime/manga
Incluye normas para filtrar imágenes tipo manga, líneas desordenadas, bocetos, y texto excesivo

Casos de uso

Filtrado de imágenes no estéticas en proyectos de Diffusion Estable
Preprocesamiento de conjuntos de datos grandes de imágenes para mejorar la calidad del entrenamiento
Eliminación de imágenes tipo manga, croquis y con texto excesivo