vivit-b-16x2-kinetics400-finetuned-kinectic

JackWong0911

Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.9264 y Precisión: 0.7342.

Como usar

Los siguientes hiperparámetros se usaron durante el entrenamiento:
learning_rate: 5e-05
train_batch_size: 1
eval_batch_size: 1
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 300

Resultados del entrenamiento:
| Pérdida de entrenamiento | Época | Paso | Pérdida de validación | Precisión |
|--------------------------|-------|------|----------------------|-----------|
| 1.0732                   | 0.17  | 50   | 1.2968               | 0.4702    |
| 1.5128                   | 1.17  | 100  | 1.0409               | 0.6607    |
| 0.1189                   | 2.17  | 150  | 0.9205               | 0.6607    |
| 0.3398                   | 3.17  | 200  | 0.7474               | 0.7440    |
| 0.0102                   | 4.17  | 250  | 1.0972               | 0.6786    |
| 0.0035                   | 5.17  | 300  | 0.9135               | 0.7143    |
Versiones del framework:

Transformers 4.38.1
Pytorch 2.1.0+cu121
Datasets 2.18.0
Tokenizers 0.15.2

Funcionalidades

Clasificación de video
Transformers
TensorBoard
Safetensors
Generado a partir de Trainer
Puntos finales de inferencia

Casos de uso

Clasificación de videos
Análisis de contenido multimedia
Automatización de etiquetas de video