cross-encoder/msmarco-MiniLM-L6-en-de-v1

cross-encoder
Clasificación de texto

Este es un modelo Cross-Encoder multilingüe para EN-DE que se puede usar para re-ordenar pasajes. Fue entrenado en la tarea de clasificación de pasajes de MS Marco. El modelo puede ser utilizado para la recuperación de información. El código de entrenamiento está disponible en este repositorio, vea train_script.py.

Como usar

Uso con SentenceTransformers

from sentence_transformers import CrossEncoder
model = CrossEncoder('model_name', max_length=512)
query = 'How many people live in Berlin?'
docs = ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.']
pairs = [(query, doc) for doc in docs]
scores = model.predict(pairs)

Uso con Transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')

features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'], padding=True, truncation=True, return_tensors="pt")

model.eval()
with torch.no_grad():
  scores = model(**features).logits
print(scores)

Funcionalidades

Clasificación de textos
Transformers
PyTorch
bert
Compatible con AutoTrain
Compatible con Inference Endpoints
Licencia: apache-2.0

Casos de uso

Re-clasificación de pasajes
Recuperación de información
Búsqueda semántica end-to-end