cross-encoder/msmarco-MiniLM-L6-en-de-v1
cross-encoder
Clasificación de texto
Este es un modelo Cross-Encoder multilingüe para EN-DE que se puede usar para re-ordenar pasajes. Fue entrenado en la tarea de clasificación de pasajes de MS Marco. El modelo puede ser utilizado para la recuperación de información. El código de entrenamiento está disponible en este repositorio, vea train_script.py.
Como usar
Uso con SentenceTransformers
from sentence_transformers import CrossEncoder
model = CrossEncoder('model_name', max_length=512)
query = 'How many people live in Berlin?'
docs = ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.']
pairs = [(query, doc) for doc in docs]
scores = model.predict(pairs)
Uso con Transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model = AutoModelForSequenceClassification.from_pretrained('model_name')
tokenizer = AutoTokenizer.from_pretrained('model_name')
features = tokenizer(['How many people live in Berlin?', 'How many people live in Berlin?'], ['Berlin has a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers.', 'New York City is famous for the Metropolitan Museum of Art.'], padding=True, truncation=True, return_tensors="pt")
model.eval()
with torch.no_grad():
scores = model(**features).logits
print(scores)
Funcionalidades
- Clasificación de textos
- Transformers
- PyTorch
- bert
- Compatible con AutoTrain
- Compatible con Inference Endpoints
- Licencia: apache-2.0
Casos de uso
- Re-clasificación de pasajes
- Recuperación de información
- Búsqueda semántica end-to-end