TimeSformer (modelo de gran tamaño, ajustado en Something Something v2)

fcakyon
Clasificación de video

El modelo TimeSformer pre-entrenado en Something Something v2. Fue presentado en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. y lanzado por primera vez en este repositorio. Este modelo está diseñado para la clasificación de videos en una de las 174 etiquetas posibles de Something Something v2.

Como usar

Aquí está cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(64, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-large-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-large-finetuned-ssv2")

inputs = feature_extractor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformers
PyTorch
Procesamiento de video

Casos de uso

Clasificación de videos en 174 posibles etiquetas de Something Something v2