microsoft/xclip-base-patch16-kinetics-600-16-frames

microsoft
Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video de disparo cero, de pocos disparos o completamente supervisada y recuperación video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Funcionalidades

Extensión mínima de CLIP para la comprensión general video-lenguaje
Entrenado de manera contrastiva en pares (video, texto)
Capaz de realizar clasificación de video de disparo cero, de pocos disparos o completamente supervisada
Recuperación video-texto

Casos de uso

Clasificación de video de disparo cero
Clasificación de video de pocos disparos
Clasificación de video completamente supervisada
Recuperación video-texto