TimeSformer (modelo de tamaño base, ajustado fino en Something Something v2)

fcakyon
Clasificación de video

Modelo TimeSformer pre-entrenado en Something Something v2. Se introdujo en el artículo 'TimeSformer: ¿Es la atención espacio-temporal todo lo que necesitas para entender videos?' por Tong et al. Este modelo está ajustado fino para la clasificación de video en una de las 174 etiquetas posibles de Something Something v2.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-ssv2")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Clase predicha:", model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de videos
Transformers
PyTorch
TimeSformer
Visión

Casos de uso

Clasificación de videos en una de las 174 etiquetas posibles del conjunto de datos Something Something v2