TimeSformer (variante de alta resolución, afinado en Something Something v2)

fcakyon

Clasificación de video

TimeSformer es un modelo de clasificación de video preentrenado en Something Something v2. Fue introducido en el artículo 'TimeSformer: ¿Es la atención espacio-temporal todo lo que necesitas para entender videos?' por Tong et al. y se lanzó por primera vez en este repositorio. El modelo se puede utilizar para la clasificación de videos en una de las 174 etiquetas posibles de Something Something v2.

Como usar

Aquí tienes cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-ssv2")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-ssv2")

inputs = feature_extractor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulta la documentación.

Funcionalidades

Clasificación de video
Transformers
Compatibilidad con PyTorch
Modelo basado en TimeSformer
Afinado en Something Something v2

Casos de uso

Clasificación de video en una de las 174 etiquetas posibles de Something Something v2