microsoft/xclip-large-patch14-16-frames

microsoft
Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin ajustes, con pocos ajustes o completamente supervisada y recuperación de video-texto.

Como usar

Para ejemplos de código, nos remitimos a la documentación.

Funcionalidades

CLasificación de video sin ajustes (zero-shot)
Clasiicación de video con pocos ajustes (few-shot)
Clasificación de video completamente supervisada
Recuperación de video-texto

Casos de uso

Determinar cómo de bien se corresponde un texto con un video dado.
Clasificación de videos utilizando versiones ajustadas del modelo.
Recuperar videos basados en descripciones textuales.