TimeSformer (variante de alta resolución, ajustada con Kinetics-400)

fcakyon
Clasificación de video

El modelo TimeSformer, pre-entrenado en Kinetics-400, fue introducido en el artículo TimeSformer: ¿Es la atención espacio-temporal todo lo que necesitas para la comprensión de video? por Tong y otros, y fue liberado por primera vez en este repositorio.

Como usar

Aquí se explica cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k400")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
	outputs = model(**inputs)
	logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Para más ejemplos de código, nos remitimos a la documentación.

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
TimeSformer
Visión por computadora

Casos de uso

Clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400