Searchium-ai/clip4clip-webvid150k

Searchium-ai
Texto a video

Un modelo de recuperación de video-texto CLIP4Clip entrenado en un subconjunto del conjunto de datos WebVid. El modelo y el método de entrenamiento están descritos en el artículo 'Clip4Clip: Un estudio empírico de CLIP para la recuperación de video clips de extremo a extremo' de Lou et al., e implementado en el repositorio de GitHub adjunto. El proceso de entrenamiento utilizó el conjunto de datos WebVid, una colección completa de videos cortos con descripciones textuales correspondientes obtenidas de la web. Para fines de entrenamiento, se utilizó un subconjunto que consiste en las primeras 150,000 parejas video-texto del conjunto de datos. Este modelo de Hugging Face se basa en la arquitectura clip-vit-base-patch32, con pesos entrenados por Daphna Idelson en Searchium.

Como usar

import numpy as np
import torch
from transformers import CLIPTokenizer, CLIPTextModelWithProjection

search_sentence = 'a basketball player performing a slam dunk'

model = CLIPTextModelWithProjection.from_pretrained('Searchium-ai/clip4clip-webvid150k')
tokenizer = CLIPTokenizer.from_pretrained('Searchium-ai/clip4clip-webvid150k')

inputs = tokenizer(text=search_sentence , return_tensors='pt')
outputs = model(input_ids=inputs['input_ids'], attention_mask=inputs['attention_mask'])

# Normalizar las incrustaciones para la recuperación:
final_output = outputs[0] / outputs[0].norm(dim=-1, keepdim=True)
final_output = final_output.cpu().detach().numpy()
print('final output: ', final_output)

Funcionalidades

Modelo de recuperación de video-texto CLIP4Clip
Entrenado en un subconjunto del conjunto de datos WebVid
Basado en la arquitectura clip-vit-base-patch32
Manipulación efectiva de grandes cantidades de datos de video
Capacidad de recuperar videos basados en consultas de texto

Casos de uso

Aplicaciones de recuperación de video-texto a gran escala
Optimización de búsquedas basadas en video en grandes conjuntos de datos
Desarrollo de demos interactivas para la búsqueda de videos a gran escala