vivit-b-16x2-mixed-dataset

yehiawp4
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Alcanza los siguientes resultados en el conjunto de evaluación: Pérdida: 0.1118, Precisión: 0.9740.

Como usar

### Hiperparámetros de entrenamiento
 - tasa de aprendizaje: 5e-05
 - tamaño del lote de entrenamiento: 2
 - tamaño del lote de evaluación: 2
 - semilla: 42
 - optimizador: Adam con betas=(0.9,0.999) y epsilon=1e-08
 - tipo de programador de tasa de aprendizaje: lineal
 - proporción de calentamiento del programador de tasa de aprendizaje: 0.1
 - pasos de entrenamiento: 7044

### Resultados de entrenamiento
|Pérdida de entrenamiento|Época|Paso|Pérdida de validación|Precisión|
|------------------------|-----|----|-------------------|---------|
|0.2111|0.17|1174|0.8879|0.7863|
|0.0911|1.17|2348|0.5390|0.8831|
|0.0021|2.17|3522|0.2326|0.9355|
|0.0028|3.17|4696|0.3125|0.9395|
|0.0008|4.17|5870|0.3077|0.9476|
|0.125|5.17|7044|0.1982|0.9617|

### Versiones de Framework
 - Transformadores 4.39.0
 - Pytorch 2.1.0
 - Conjuntos de datos 2.18.0
 - Tokenizadores 0.15.2

Funcionalidades

Clasificación de videos
Transformadores
Safetensors
Generado a partir de Trainer
Puntos finales de inferencia

Casos de uso

Clasificación de videos
Análisis de contenido de video