microsoft/xclip-base-patch16-kinetics-600
microsoft
Clasificación de video
X-CLIP (modelo tamaño base, resolución de parche de 16) entrenado completamente supervisado en Kinetics-600. Fue introducido en el artículo Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto), lo que permite usar el modelo para tareas como clasificación de video de cero-tiro, pocos-tiros o totalmente supervisada y recuperación de video-texto.
Como usar
Para ejemplos de código, nos remitimos a la documentación.
Funcionalidades
- Extensión mínima de CLIP para la comprensión general de video-lenguaje
- Entrenado de manera contrastiva en pares video-texto
- Permite clasificación de video de cero-tiro, pocos-tiros o totalmente supervisada
- Recuperación de video-texto
Casos de uso
- Clasificación de video de cero-tiro
- Clasificación de video de pocos-tiros
- Clasificación de video completamente supervisada
- Recuperación de video-texto