microsoft/xclip-base-patch16-kinetics-600-16-frames
microsoft
Clasificación de video
X-CLIP es una extensión mínima de CLIP para la comprensión general video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video de disparo cero, de pocos disparos o completamente supervisada y recuperación video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Extensión mínima de CLIP para la comprensión general video-lenguaje
- Entrenado de manera contrastiva en pares (video, texto)
- Capaz de realizar clasificación de video de disparo cero, de pocos disparos o completamente supervisada
- Recuperación video-texto
Casos de uso
- Clasificación de video de disparo cero
- Clasificación de video de pocos disparos
- Clasificación de video completamente supervisada
- Recuperación video-texto