TimeSformer (modelo base, ajustado en Kinetics-400)
facebook
Clasificación de video
TimeSformer es un modelo preentrenado en Kinetics-400, introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. Este modelo ha sido ajustado específicamente para la clasificación de videos dentro de una de las 400 etiquetas posibles de Kinetics-400.
Como usar
Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch
video = list(np.random.randn(8, 3, 224, 224))
processor = AutoImageProcessor.from_pretrained('facebook/timesformer-base-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-base-finetuned-k400')
inputs = processor(video, return_tensors='pt')
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])
Para más ejemplos de código, se remite a la documentación.
Funcionalidades
- Clasificación de videos
- Atención espacio-temporal
- Transformers
- Biblioteca PyTorch
- Procesamiento de visión
Casos de uso
- Clasificación de videos en categorías específicas
- Análisis de contenido de video
- Generación de etiquetas para videos de acuerdo a Kinetics-400
- Soporte en aplicaciones de aprendizaje automático que requieren comprensión de videos