TimeSformer (modelo de tamaño base, ajustado con Kinetics-400)
fcakyon
Clasificación de video
El modelo TimeSformer está preentrenado en Kinetics-400. Fue introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. Este repositorio fue el primero en lanzarlo. Es un modelo diseñado para la clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400.
Como usar
Aquí tienes cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(8, 3, 224, 224))
processor = AutoImageProcessor.from_pretrained("fcakyon/timesformer-base-finetuned-k400")
model = TimesformerForVideoClassification.from_pretrained("fcakyon/timesformer-base-finetuned-k400")
inputs = processor(video, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
Para más ejemplos de código, consulte la documentación.
Funcionalidades
- Clasificación de videos
- Transformers
- PyTorch
- Inference Endpoints
Casos de uso
- Clasificación de videos en una de las 400 etiquetas posibles de Kinetics-400