gowitheflow/LASER-cubed-bert-base-unsup
gowitheflow
Similitud de oraciones
LASER-cubed-bert-base-unsup es un modelo no supervisado entrenado en el dataset wiki1M. Sin necesidad de que los conjuntos de entrenamiento tengan textos largos, proporciona una sorprendente capacidad de generalización para la recuperación de documentos largos.
Como usar
Usa el modelo con Sentence Transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("gowitheflow/LASER-cubed-bert-base-unsup")
text = "LASER-cubed es un modelo increíble - Se generaliza a textos largos sin necesidad de que los conjuntos de entrenamiento tengan textos largos."
representation = model.encode(text)
Evalúa el modelo con el framework BEIR:
from beir.retrieval import models
from beir.datasets.data_loader import GenericDataLoader
from beir.retrieval.evaluation import EvaluateRetrieval
from beir.retrieval.search.dense import DenseRetrievalExactSearch as DRES
# descarga los conjuntos de datos con el repositorio original de BEIR primero
data_path = './datasets/arguana'
corpus, queries, qrels = GenericDataLoader(data_folder=data_path).load(split="test")
model = DRES(models.SentenceBERT("gowitheflow/LASER-cubed-bert-base-unsup"), batch_size=512)
retriever = EvaluateRetrieval(model, score_function="cos_sim")
results = retriever.retrieve(corpus, queries)
ndcg, _map, recall, precision = retriever.evaluate(qrels, results, retriever.k_values)
Funcionalidades
- Modelo no supervisado
- Entrenado en el dataset wiki1M
- Alta capacidad de generalización en la recuperación de documentos largos
- Basado en BERT-base
Casos de uso
- Recuperación de información