microsoft/xclip-large-patch14-kinetics-600
microsoft
Clasificación de video
El modelo X-CLIP (de gran tamaño, con resolución de parche de 14) entrenado de manera totalmente supervisada en Kinetics-600. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin entrenamiento (zero-shot), con pocas muestras (few-shot) o de manera totalmente supervisada, y recuperación de video-texto.
Como usar
Funcionalidades
- Clasificación de video totalmente supervisada
- Comprensión general de video-lenguaje
- Entrenamiento en pares (video, texto) de manera contrastiva
- Capacidad para tareas zero-shot, few-shot y totalmente supervisadas
- Resolución de entrenamiento de 224x224
- Modelado sobre el dataset Kinetics-600
Casos de uso
- Determinación de cómo se ajusta un texto dado a un video específico
- Clasificación de video sin entrenamiento previo (zero-shot)
- Clasificación de video con pocas muestras (few-shot)
- Recuperación de texto-video