microsoft/xclip-base-patch16-ucf-16-shot

microsoft
Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos en zero-shot, few-shot o completamente supervisada, así como recuperación de video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de video
Extracción de características
Transformers
PyTorch
Reconocimiento general de video

Casos de uso

Determinación de qué tan bien un texto se corresponde con un video dado
Clasificación de videos en zero-shot, few-shot o completamente supervisada
Recuperación de video-texto