TimeSformer (modelo de gran tamaño, afinado en Kinetics-400)

fcakyon
Clasificación de video

El modelo TimeSformer está preentrenado en Kinetics-400. Fue introducido en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong y otros, y fue liberado por primera vez en este repositorio. El modelo TimeSformer permite la clasificación de videos en una de las 400 etiquetas posibles del Kinetics-400.

Como usar

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(96, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained('fcakyon/timesformer-large-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('fcakyon/timesformer-large-finetuned-k400')

inputs = processor(video, return_tensors='pt')

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print('Clase predicha:', model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de Videos
Transformers
PyTorch
TimeSformer
Visión
Puntos de Inferencia

Casos de uso

Clasificación de videos en una de las 400 etiquetas del Kinetics-400.