microsoft/xclip-base-patch32-16-frames

microsoft

Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parche de 32) se entrenó de manera completamente supervisada en Kinetics-400. Fue introducido en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y se lanzó por primera vez en este repositorio. Este modelo fue entrenado utilizando 16 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general del video y el lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos sin supervisión, con poca supervisión o completamente supervisada y recuperación de video-texto.

Como usar

Para ejemplos de código, nos remitimos a la documentación.

Funcionalidades

Entrenamiento completamente supervisado en Kinetics-400
Utilización de 16 fotogramas por video
Resolución de 224x224
Extensión de CLIP para comprensión de video y lenguaje
Entrenado de manera contrastiva en pares (video, texto)

Casos de uso

Clasificación de videos sin supervisión (zero-shot)
Clasificación de videos con poca supervisión (few-shot)
Clasificación de videos completamente supervisada
Recuperación de video-texto