rapadilla/xclip-base-patch32
X-CLIP es una extensión mínima de CLIP para la comprensión general de video-lenguaje. El modelo se entrena de manera contrastiva en pares (video, texto). Esto permite que el modelo se utilice para tareas como clasificación de video zero-shot, few-shot o completamente supervisada y recuperación de video-texto. El modelo X-CLIP (tamaño base, resolución de parche de 32) fue entrenado completamente supervisado en Kinetics-400. Fue introducido en el artículo `Expanding Language-Image Pretrained Models for General Video Recognition` por Ni et al. y se publicó por primera vez en este repositorio. Este modelo se entrenó usando 8 fotogramas por video, a una resolución de 224x224. El equipo que lanzó X-CLIP no escribió una tarjeta de modelo para este modelo, por lo que esta tarjeta de modelo ha sido escrita por el equipo de Hugging Face.
Como usar
Para ejemplos de código, consulte la documentación.
# Ejemplo de uso
from transformers import AutoProcessor, AutoModel
processor = AutoProcessor.from_pretrained('rapadilla/xclip-base-patch32')
model = AutoModel.from_pretrained('rapadilla/xclip-base-patch32')
# Inserte su código de procesamiento y uso aquí
Funcionalidades
- Clasificación de video zero-shot
- Clasificación de video few-shot
- Clasificación de video totalmente supervisada
- Recuperación de video-texto
Casos de uso
- Determinar qué tan bien encaja un texto con un video dado
- Crear modelos de clasificación de video personalizados
- Realizar recuperación de video-texto