microsoft/xclip-base-patch16-ucf-16-shot
microsoft
Clasificación de video
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares de (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de videos en zero-shot, few-shot o completamente supervisada, así como recuperación de video-texto.
Como usar
Para ejemplos de código, nos referimos a la documentación.
Funcionalidades
- Clasificación de video
- Extracción de características
- Transformers
- PyTorch
- Reconocimiento general de video
Casos de uso
- Determinación de qué tan bien un texto se corresponde con un video dado
- Clasificación de videos en zero-shot, few-shot o completamente supervisada
- Recuperación de video-texto