Searchium-ai/clip4clip-webvid150k
Un modelo de recuperación de video-texto CLIP4Clip entrenado en un subconjunto del conjunto de datos WebVid. El modelo y el método de entrenamiento están descritos en el artículo 'Clip4Clip: Un estudio empírico de CLIP para la recuperación de video clips de extremo a extremo' de Lou et al., e implementado en el repositorio de GitHub adjunto. El proceso de entrenamiento utilizó el conjunto de datos WebVid, una colección completa de videos cortos con descripciones textuales correspondientes obtenidas de la web. Para fines de entrenamiento, se utilizó un subconjunto que consiste en las primeras 150,000 parejas video-texto del conjunto de datos. Este modelo de Hugging Face se basa en la arquitectura clip-vit-base-patch32, con pesos entrenados por Daphna Idelson en Searchium.
Como usar
import numpy as np
import torch
from transformers import CLIPTokenizer, CLIPTextModelWithProjection
search_sentence = 'a basketball player performing a slam dunk'
model = CLIPTextModelWithProjection.from_pretrained('Searchium-ai/clip4clip-webvid150k')
tokenizer = CLIPTokenizer.from_pretrained('Searchium-ai/clip4clip-webvid150k')
inputs = tokenizer(text=search_sentence , return_tensors='pt')
outputs = model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'])
# Normalizar las incrustaciones para la recuperación:
final_output = outputs[0] / outputs[0].norm(dim=-1, keepdim=True)
final_output = final_output.cpu().detach().numpy()
print('final output: ', final_output)
Funcionalidades
- Modelo de recuperación de video-texto CLIP4Clip
- Entrenado en un subconjunto del conjunto de datos WebVid
- Basado en la arquitectura clip-vit-base-patch32
- Manipulación efectiva de grandes cantidades de datos de video
- Capacidad de recuperar videos basados en consultas de texto
Casos de uso
- Aplicaciones de recuperación de video-texto a gran escala
- Optimización de búsquedas basadas en video en grandes conjuntos de datos
- Desarrollo de demos interactivas para la búsqueda de videos a gran escala