facebook/timesformer-hr-finetuned-k600
facebook
Clasificación de video
TimeSformer es un modelo base pre-entrenado en Kinetics-600. Fue presentado en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong y otros, y publicado por primera vez en este repositorio. Este modelo permite la clasificación de videos en una de las 600 posibles etiquetas de Kinetics-600.
Como usar
Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained('facebook/timesformer-hr-finetuned-k600')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-hr-finetuned-k600')
inputs = processor(images=video, return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de videos
- Transformers
- PyTorch
- Modelo pre-entrenado en Kinetics-600
- Procesamiento de visión
Casos de uso
- Clasificación de videos en etiquetas de Kinetics-600