facebook/timesformer-hr-finetuned-k600

facebook

Clasificación de video

TimeSformer es un modelo base pre-entrenado en Kinetics-600. Fue presentado en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong y otros, y publicado por primera vez en este repositorio. Este modelo permite la clasificación de videos en una de las 600 posibles etiquetas de Kinetics-600.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(16, 3, 448, 448))

processor = AutoImageProcessor.from_pretrained('facebook/timesformer-hr-finetuned-k600')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-hr-finetuned-k600')

inputs = processor(images=video, return_tensors='pt')

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Para más ejemplos de código, consulte la documentación.

Funcionalidades

Clasificación de videos
Transformers
PyTorch
Modelo pre-entrenado en Kinetics-600
Procesamiento de visión

Casos de uso

Clasificación de videos en etiquetas de Kinetics-600