vivit-b-16x2-kinetics400-finetuned-cremad

Yassmen
Clasificación de video

Este modelo es una versión ajustada de google/vivit-b-16x2-kinetics400 en el conjunto de datos CREMA-D. Alcanza los siguientes resultados en el conjunto de evaluación: Pérdida: 1.1824, Precisión: 0.6575, F1: 0.6595, Recall: 0.6575, Precisión: 0.6676.

Como usar

Este modelo se puede usar para la clasificación de videos utilizando el siguiente código en Python:

from transformers import AutoModelForVideoClassification, AutoFeatureExtractor

model_name = "Yassmen/vivit-b-16x2-kinetics400-finetuned-cremad"
model = AutoModelForVideoClassification.from_pretrained(model_name)
extractor = AutoFeatureExtractor.from_pretrained(model_name)
# Aquí puede cargar y procesar su video

Funcionalidades

Clasificación de videos
Transformers
Compatible con TensorBoard
Safetensors
Generado a partir de Trainer
Inicie Puntos de Inferencia

Casos de uso

Clasificación de emociones en videos
Aplicaciones de análisis de medios
Investigación en la detección automática de expresiones faciales