microsoft/xclip-base-patch16-hmdb-16-shot

microsoft

Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parches de 16) entrenado de manera few-shot (K=16) en HMDB-51. Fue introducido en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado utilizando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto), permitiéndole ser utilizado para tareas como clasificación de video sin entrenamiento, con pocos ejemplos o completamente supervisada y recuperación video-texto.

Como usar

Para ejemplos de código, se refiere a la documentación.
Para detalles exactos del preprocesamiento durante el entrenamiento, puedes revisar aquí.
Para detalles exactos del preprocesamiento durante la validación, puedes revisar aquí.
Durante la validación, se redimensiona el borde más corto de cada cuadro, después de lo cual se realiza un recorte centrado a una resolución de tamaño fijo (como 224x224). Luego, los cuadros se normalizan a través de los canales RGB con la media y desviación estándar de ImageNet.

Funcionalidades

Clasificación de video sin entrenamiento
Clasificación de video con pocos ejemplos
Clasificación de video completamente supervisada
Recuperación video-texto

Casos de uso

Determinar cómo de bien un texto corresponde a un video dado
Clasificación de video sin entrenamiento
Clasificación de video con pocos ejemplos
Clasificación de video completamente supervisada
Recuperación de video y texto