rorshark-vit-base
amunchet
Clasificación de imagen
Este modelo es una versión ajustada de google/vit-base-patch16-224-in21k en el conjunto de datos imagefolder. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.0393, Precisión: 0.9923.
Como usar
El siguiente modelo se puede utilizar para la clasificación de imágenes. A continuación se presentan los hiperparámetros utilizados durante el entrenamiento:
- learning_rate: 2e-05
- train_batch_size: 8
- eval_batch_size: 8
- seed: 1337
- optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
- lr_scheduler_type: linear
- num_epochs: 5.0
Resultados del entrenamiento:
| Pérdida Entrenamiento | Época | Paso | Pérdida Validación | Precisión |
|------------------------|-------|------|-----------------------|------------|
| 0.0597 | 1.0 | 368 | 0.0546 | 0.9865 |
| 0.2009 | 2.0 | 736 | 0.0531 | 0.9865 |
| 0.0114 | 3.0 | 1104 | 0.0418 | 0.9904 |
| 0.0998 | 4.0 | 1472 | 0.0425 | 0.9904 |
| 0.1244 | 5.0 | 1840 | 0.0393 | 0.9923 |
Versiones del framework:
- Transformers 4.36.0.dev0
- Pytorch 2.1.1+cu118
- Datasets 2.15.0
- Tokenizers 0.15.0
Funcionalidades
- Clasificación de imágenes
- Transformadores
- TensorBoard
- Safetensors
Casos de uso
- Clasificación de imágenes en aplicaciones de visión por computadora
- Análisis de grandes conjuntos de datos de imágenes
- Automatización de tareas de etiquetado de imágenes