microsoft/xclip-large-patch14-kinetics-600

microsoft

Clasificación de video

El modelo X-CLIP (de gran tamaño, con resolución de parche de 14) entrenado de manera totalmente supervisada en Kinetics-600. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video sin entrenamiento (zero-shot), con pocas muestras (few-shot) o de manera totalmente supervisada, y recuperación de video-texto.

Como usar

Funcionalidades

Clasificación de video totalmente supervisada
Comprensión general de video-lenguaje
Entrenamiento en pares (video, texto) de manera contrastiva
Capacidad para tareas zero-shot, few-shot y totalmente supervisadas
Resolución de entrenamiento de 224x224
Modelado sobre el dataset Kinetics-600

Casos de uso

Determinación de cómo se ajusta un texto dado a un video específico
Clasificación de video sin entrenamiento previo (zero-shot)
Clasificación de video con pocas muestras (few-shot)
Recuperación de texto-video