TimeSformer (modelo de tamaño base, ajustado con Kinetics-400)

fcakyon
Clasificación de video

El modelo TimeSformer está preentrenado en Kinetics-400. Fue introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. Este repositorio fue el primero en lanzarlo. Es un modelo diseñado para la clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400.

Como usar

Aquí tienes cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-k400")

inputs = processor(video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformers
PyTorch
Inference Endpoints

Casos de uso

Clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400