vivit-b-16x2-kinetics400-0513-O_M

kkumtori

Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 1.0697 Precisión: 0.805.

Como usar

A continuación se enumeran los hiperparámetros utilizados durante el entrenamiento:

tasa de aprendizaje: 5e-05
tamaño del lote de entrenamiento: 2
tamaño del lote de evaluación: 2
semilla: 42
optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
tipo de programador de tasa de aprendizaje: lineal
proporción de calentamiento de programador de tasa de aprendizaje: 0.1
pasos de entrenamiento: 2900

## Resultados del Entrenamiento
- Pérdida de Entrenamiento
- Época
- Paso
- Pérdida de Validación
- Precisión

1.5951 0.1 290 1.5856 0.45
1.1484 1.1 580 0.9889 0.65
0.436 2.1 870 0.7230 0.77
0.1011 3.1 1160 1.0218 0.78
0.0631 4.1 1450 1.0562 0.805
0.0005 5.1 1740 1.0855 0.805
0.0004 6.1 2030 1.2053 0.785
0.0005 7.1 2320 1.1131 0.8
0.1483 8.1 2610 1.0447 0.81
0.0013 9.1 2900 1.0697 0.805

## Versiones del Framework
- Transformers 4.40.2
- Pytorch 2.2.1+cu121
- Datasets 2.19.1
- Tokenizers 0.19.1

Funcionalidades

Clasificación de Video
Transformers
TensorBoard
Safetensors
Generado a partir de Trainer
Puntos finales de inferencia

Casos de uso

Clasificación de Videos para sistemas de vigilancia.
Análisis de videos deportivos.
Etiquetado de contenido multimedia.