TimeSformer (modelo de gran tamaño, afinado en Kinetics-400)
fcakyon
Clasificación de video
El modelo TimeSformer está preentrenado en Kinetics-400. Fue introducido en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong y otros, y fue liberado por primera vez en este repositorio. El modelo TimeSformer permite la clasificación de videos en una de las 400 etiquetas posibles del Kinetics-400.
Como usar
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(96, 3, 224, 224))
processor = AutoImageProcessor.from_pretrained('fcakyon/timesformer-large-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('fcakyon/timesformer-large-finetuned-k400')
inputs = processor(video, return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Clase predicha:', model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de Videos
- Transformers
- PyTorch
- TimeSformer
- Visión
- Puntos de Inferencia
Casos de uso
- Clasificación de videos en una de las 400 etiquetas del Kinetics-400.