TimeSformer (variante de alta resolución, ajustada en Kinetics-600)
fcakyon
Clasificación de video
Modelo TimeSformer preentrenado en Kinetics-600. Fue introducido en el artículo TimeSformer: Is Space-Time Attention All You Need for Video Understanding? por Tong et al. y publicado por primera vez en este repositorio. El modelo no tiene una tarjeta de modelo escrita por el equipo que lanzó TimeSformer, así que esta tarjeta de modelo ha sido escrita por fcakyon.
Como usar
Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(16, 3, 448, 448))
processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-hr-finetuned-k600")
inputs = processor(images=video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Funcionalidades
- Clasificación de videos
- Transformadores
- PyTorch
- TimeSformer
- Visión por computadora
Casos de uso
- Clasificación de videos en una de las 600 etiquetas posibles de Kinetics-600