microsoft/xclip-base-patch16

microsoft

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo está entrenado de manera contrastiva en pares (video, texto). Esto permite que el modelo se use para tareas como clasificación de video sin entrenamiento, con poco entrenamiento o completamente supervisada y recuperación de video-texto. Fue introducido en el documento Expanding Language-Image Pretrained Models for General Video Recognition por Ni et al. y fue lanzado por primera vez en este repositorio. Este modelo fue entrenado utilizando 8 fotogramas por video, a una resolución de 224x224. El equipo que lanzó X-CLIP no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Para ejemplos de código, nos referimos a la documentación.
# Código de ejemplo
from transformers import AutoModel, AutoProcessor

model = AutoModel.from_pretrained('microsoft/xclip-base-patch16')
processor = AutoProcessor.from_pretrained('microsoft/xclip-base-patch16')

Funcionalidades

Clasificación de video sin entrenamiento
Clasificación de video con poco entrenamiento
Clasificación de video completamente supervisada
Recuperación de video-texto

Casos de uso

Determinar qué tan bien el texto se relaciona con un video dado