microsoft/xclip-base-patch16-ucf-2-shot
El modelo X-CLIP (tamaño base, resolución de parche de 16) entrenado con unos pocos ejemplos (K=2) en UCF101. Fue introducido en el artículo 'Expanding Language-Image Pretrained Models for General Video Recognition' por Ni et al. y fue liberado por primera vez en este repositorio. Este modelo fue entrenado usando 32 cuadros por video, a una resolución de 224x224. X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo sea utilizado para tareas como clasificación de video con cero ejemplos, pocos ejemplos, o totalmente supervisada, y recuperación de video-texto. El equipo que liberó X-CLIP no escribió una tarjeta del modelo para este modelo, por lo que esta tarjeta ha sido escrita por el equipo de Hugging Face.
Como usar
Para ejemplos de código, nos referimos a la documentación.
for code examples, we refer to the documentation.
Para ejemplos de código, nos referimos a la documentación.
// Aquí podría ir un snippet de código de cómo usar el modelo.
Funcionalidades
- Clasificación de video con unos pocos ejemplos (2 ejemplos)
- Entrenamiento contrastivo en pares de (video, texto)
- Extensión mínima de CLIP para la comprensión general de video-lenguaje
- Capacidad de ser utilizado para clasificación de video y recuperación de video-texto
Casos de uso
- Clasificación de video con cero ejemplos (zero-shot video classification)
- Clasificación de video con pocos ejemplos (few-shot video classification)
- Clasificación de video completamente supervisada
- Recuperación de texto sobre videos