microsoft/xclip-large-patch14

microsoft
Clasificación de video

Modelo X-CLIP (modelo de gran tamaño, resolución de parches de 14) entrenado completamente en Kinetics-400. Fue presentado en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y lanzado por primera vez en este repositorio. Este modelo fue entrenado usando 8 fotogramas por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general del lenguaje de video. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como la clasificación de video sin ajuste previo, con unos pocos ejemplos o totalmente supervisada, así como la recuperación de video-texto.

Como usar

Para ejemplos de código, nos referimos a la documentación.

Funcionalidades

Clasificación de video en cero-shot, few-shot o totalmente supervisada
Extracción de características
Comprensión general del lenguaje de video
Funciona con PyTorch y Transformers
Resolución de parches de 14
Entrenado en Kinetics-400

Casos de uso

Clasificación de video sin ajuste previo
Clasificación de video con unos pocos ejemplos
Clasificación de video totalmente supervisada
Recuperación de video-texto