TimeSformer (modelo tamaño base, ajustado en Kinetics-600)

fcakyon
Clasificación de video

El modelo TimeSformer preentrenado en Kinetics-600. Fue presentado en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong et al. y se lanzó por primera vez en este repositorio. El equipo que lanzó TimeSformer no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por fcakyon. Este modelo se puede utilizar para la clasificación de videos en una de las 600 posibles etiquetas de Kinetics-600.

Como usar

Aquí se explica cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para obtener más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
TimeSformer
Visión

Casos de uso

Clasificación de videos en una de las 600 etiquetas de Kinetics-600