microsoft/xclip-base-patch16-ucf-2-shot

microsoft
Clasificación de video

El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado con unos pocos ejemplos (K=2) en UCF101. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y fue liberado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo sea utilizado para tareas como clasificación de video con cero ejemplos, pocos ejemplos, o totalmente supervisada, y recuperación de video-texto. El equipo que liberó X-CLIP no escribió una tarjeta del modelo para este modelo, por lo que esta tarjeta ha sido escrita por el equipo de Hugging Face.

Como usar

Para ejemplos de código, nos referimos a la documentación.

for code examples, we refer to the documentation.

Para ejemplos de código, nos referimos a la documentación.
// Aquí podría ir un snippet de código de cómo usar el modelo.

Funcionalidades

Clasificación de video con unos pocos ejemplos (2 ejemplos)
Entrenamiento contrastivo en pares de (video, texto)
Extensión mínima de CLIP para la comprensión general de video-lenguaje
Capacidad de ser utilizado para clasificación de video y recuperación de video-texto

Casos de uso

Clasificación de video con cero ejemplos (zero-shot video classification)
Clasificación de video con pocos ejemplos (few-shot video classification)
Clasificación de video completamente supervisada
Recuperación de texto sobre videos