microsoft/xclip-base-patch16-kinetics-600

microsoft
Clasificación de video

X-CLIP (modelo tamaño base, resolución de parche de 16) entrenado completamente supervisado en Kinetics-600. Fue introducido en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto), lo que permite usar el modelo para tareas como clasificación de video de cero-tiro, pocos-tiros o totalmente supervisada y recuperación de video-texto.

Como usar

Para ejemplos de código, nos remitimos a la documentación.

Funcionalidades

Extensión mínima de CLIP para la comprensión general de video-lenguaje
Entrenado de manera contrastiva en pares video-texto
Permite clasificación de video de cero-tiro, pocos-tiros o totalmente supervisada
Recuperación de video-texto

Casos de uso

Clasificación de video de cero-tiro
Clasificación de video de pocos-tiros
Clasificación de video completamente supervisada
Recuperación de video-texto