vivit-b-16x2-kinetics400-finetuned-kinectic

JackWong0911
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en un conjunto de datos desconocido. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.9264 y Precisión: 0.7342.

Como usar

Los siguientes hiperparámetros se usaron durante el entrenamiento:

learning_rate: 5e-05
train_batch_size: 1
eval_batch_size: 1
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
training_steps: 300

Resultados del entrenamiento:

| Pérdida de entrenamiento | Época | Paso | Pérdida de validación | Precisión | |--------------------------|-------|------|----------------------|-----------| | 1.0732 | 0.17 | 50 | 1.2968 | 0.4702 | | 1.5128 | 1.17 | 100 | 1.0409 | 0.6607 | | 0.1189 | 2.17 | 150 | 0.9205 | 0.6607 | | 0.3398 | 3.17 | 200 | 0.7474 | 0.7440 | | 0.0102 | 4.17 | 250 | 1.0972 | 0.6786 | | 0.0035 | 5.17 | 300 | 0.9135 | 0.7143 |

Versiones del framework:

  • Transformers 4.38.1
  • Pytorch 2.1.0+cu121
  • Datasets 2.18.0
  • Tokenizers 0.15.2

Funcionalidades

Clasificación de video
Transformers
TensorBoard
Safetensors
Generado a partir de Trainer
Puntos finales de inferencia

Casos de uso

Clasificación de videos
Análisis de contenido multimedia
Automatización de etiquetas de video