gowitheflow/LASER-cubed-bert-base-unsup

gowitheflow

Similitud de oraciones

LASER-cubed-bert-base-unsup es un modelo no supervisado entrenado en el dataset wiki1M. Sin necesidad de que los conjuntos de entrenamiento tengan textos largos, proporciona una sorprendente capacidad de generalización para la recuperación de documentos largos.

Como usar

Usa el modelo con Sentence Transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("gowitheflow/LASER-cubed-bert-base-unsup")

text = "LASER-cubed es un modelo increíble - Se generaliza a textos largos sin necesidad de que los conjuntos de entrenamiento tengan textos largos."
representation = model.encode(text)

Evalúa el modelo con el framework BEIR:
from beir.retrieval import models
from beir.datasets.data_loader import GenericDataLoader
from beir.retrieval.evaluation import EvaluateRetrieval
from beir.retrieval.search.dense import DenseRetrievalExactSearch as DRES

# descarga los conjuntos de datos con el repositorio original de BEIR primero
data_path = './datasets/arguana'
corpus, queries, qrels = GenericDataLoader(data_folder=data_path).load(split="test")
model = DRES(models.SentenceBERT("gowitheflow/LASER-cubed-bert-base-unsup"), batch_size=512)
retriever = EvaluateRetrieval(model, score_function="cos_sim")
results = retriever.retrieve(corpus, queries)
ndcg, _map, recall, precision = retriever.evaluate(qrels, results, retriever.k_values)

Funcionalidades

Modelo no supervisado
Entrenado en el dataset wiki1M
Alta capacidad de generalización en la recuperación de documentos largos
Basado en BERT-base

Casos de uso

Recuperación de información