TimeSformer (variante de alta resolución, ajustada en Kinetics-600)

fcakyon
Clasificación de video

Modelo TimeSformer preentrenado en Kinetics-600. Fue introducido en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong et al. y publicado por primera vez en este repositorio. El modelo no tiene una tarjeta de modelo escrita por el equipo que lanzó TimeSformer, así que esta tarjeta de modelo ha sido escrita por fcakyon.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:

from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")

inputs = processor(images=video, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])

Funcionalidades

Clasificación de videos
Transformadores
PyTorch
TimeSformer
Visión por computadora

Casos de uso

Clasificación de videos en una de las 600 etiquetas posibles de Kinetics-600