cafe_aesthetic
Este modelo es un clasificador de imágenes ajustado en microsoft/beit-base-patch16-384. Su propósito es ser utilizado en el paso de acondicionamiento del conjunto de datos para el proyecto Waifu Diffusion, un esfuerzo de ajuste fino para Stable Diffusion. Dado que WD1.4 planea tener un conjunto de datos significativamente grande (~15 millones de imágenes), es inviable analizar cada imagen manualmente para determinar si debe incluirse o no en el conjunto de datos de entrenamiento final. Este clasificador de imágenes fue entrenado en aproximadamente 3.5k imágenes de la vida real y de anime/manga. Su propósito es eliminar imágenes estéticamente inservibles de nuestro conjunto de datos clasificándolas como "no_estética". El clasificador de imágenes se entrenó para pecar de precavido y generalmente tenderá a incluir imágenes a menos que estén en un formato "tipo manga", tengan líneas desordenadas y/o sean bocetos, o incluyan una cantidad inaceptable de texto (principalmente texto que cubra el sujeto principal de la imagen). La idea es que ciertas imágenes perjudicarán un ajuste fino de Stable Diffusion.
Como usar
Nota: Este clasificador no es perfecto, al igual que cualquier otro clasificador. Sin embargo, con un conjunto de datos suficientemente grande, cualquier imperfección o clasificación incorrecta debería promediarse debido a la Ley de los Grandes Números.
Puedes probar el clasificador aquí.
Funcionalidades
- Clasificación de imágenes
- Entrenado con Transformers y PyTorch
- Utiliza el modelo base microsoft/beit-base-patch16-384
- Remueve imágenes estéticamente inservibles
- Entrenado en aproximadamente 3.5k imágenes de la vida real y de anime/manga
- Incluye normas para filtrar imágenes tipo manga, líneas desordenadas, bocetos, y texto excesivo
Casos de uso
- Filtrado de imágenes no estéticas en proyectos de Diffusion Estable
- Preprocesamiento de conjuntos de datos grandes de imágenes para mejorar la calidad del entrenamiento
- Eliminación de imágenes tipo manga, croquis y con texto excesivo