cross-encoder/msmarco-MiniLM-L12-en-de-v1

cross-encoder

Clasificación de texto

Este es un modelo de Cross-Encoder multilingüe para EN-DE que puede ser utilizado para el re-rankeado de pasajes. Fue entrenado en la tarea de Re-rankeado de Pasajes de MS Marco. El modelo puede ser usado para Recuperación de Información: Ver SBERT.net para recuperar y re-rankear. El código de entrenamiento está disponible en este repositorio, ver train_script.py.

Como usar

Uso con SentenceTransformers
from sentence_transformers import CrossEncoder
model = CrossEncoder('model_name', max_length=512)
query = 'How many people live in Berlin?'
docs = ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.']
pairs = [(query, doc) for doc in docs]
scores = model.predict(pairs)

Uso con Transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'],  padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
  scores = model(**features).logits
print(scores)

Funcionalidades

Modelo de Cross-Encoder multilingüe
Entrenado en la tarea de Re-rankeado de Pasajes de MS Marco
Compatible con SentenceTransformers y Transformers
Recuperación de Información y Re-rankeado

Casos de uso

Recuperación de Información
Re-rankeado de pasajes