TimeSformer (modelo base, ajustado en Kinetics-400)

facebook

Clasificación de video

TimeSformer es un modelo preentrenado en Kinetics-400, introducido en el artículo 'TimeSformer: Is Space-Time Attention All You Need for Video Understanding?' por Tong et al. Este modelo ha sido ajustado específicamente para la clasificación de videos dentro de una de las 400 etiquetas posibles de Kinetics-400.

Como usar

Aquí se muestra cómo usar este modelo para clasificar un video:
from transformers import AutoImageProcessor, TimesformerForVideoClassification
import numpy as np
import torch

video = list(np.random.randn(8, 3, 224, 224))

processor = AutoImageProcessor.from_pretrained('facebook/timesformer-base-finetuned-k400')
model = TimesformerForVideoClassification.from_pretrained('facebook/timesformer-base-finetuned-k400')

inputs = processor(video, return_tensors='pt')

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits

predicted_class_idx = logits.argmax(-1).item()
print('Predicted class:', model.config.id2label[predicted_class_idx])

Para más ejemplos de código, se remite a la documentación.

Funcionalidades

Clasificación de videos
Atención espacio-temporal
Transformers
Biblioteca PyTorch
Procesamiento de visión

Casos de uso

Clasificación de videos en categorías específicas
Análisis de contenido de video
Generación de etiquetas para videos de acuerdo a Kinetics-400
Soporte en aplicaciones de aprendizaje automático que requieren comprensión de videos