rapadilla/xclip-base-patch32

rapadilla

Clasificación de video

X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video zero-shot, few-shot o completamente supervisada y recuperación de video-texto. El modelo X-CLIP (tamaño base, resolución de parche de 32) fue entrenado completamente supervisado en Kinetics-400. Fue introducido en el artículo `Expanding Language-Image Pretrained Models for General Video Recognition` por Ni et al. y se publicó por primera vez en este repositorio. Este modelo se entrenó usando 8 fotogramas por video, a una resolución de 224x224. El equipo que lanzó X-CLIP no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.

Como usar

Para ejemplos de código, consulte la documentación.
# Ejemplo de uso
from transformers import AutoProcessor, AutoModel

processor = AutoProcessor.from_pretrained('rapadilla/xclip-base-patch32')
model = AutoModel.from_pretrained('rapadilla/xclip-base-patch32')

# Inserte su código de procesamiento y uso aquí

Funcionalidades

Clasificación de video zero-shot
Clasificación de video few-shot
Clasificación de video totalmente supervisada
Recuperación de video-texto

Casos de uso

Determinar qué tan bien encaja un texto con un video dado
Crear modelos de clasificación de video personalizados
Realizar recuperación de video-texto