Muennighoff/SGPT-5.8B-weightedmean-nli-bitfit

Muennighoff

Similitud de oraciones

SGPT-5.8B-weightedmean-nli-bitfit es un modelo orientado a la similitud de oraciones, desarrollado utilizando el modelo de transformación de sentencias basado en GPT-J. Este modelo se centra en la extracción de características y la similitud semántica de oraciones. Además, ha sido evaluado en una amplia variedad de conjuntos de datos y ha mostrado un rendimiento consistente en tareas de clasificación, minería de textos bilingües, agrupación, recuperación de información, entre otras.

Como usar

Para usar este modelo, se pueden seguir las instrucciones de uso proporcionadas en su repositorio de GitHub:
Para instrucciones de uso, consulte nuestra base de código: https://github.com/Muennighoff/sgpt

El modelo fue entrenado con los siguientes parámetros:
DataLoader:
torch.utils.data.dataloader.DataLoader de longitud 249592 con parámetros:
{'batch_size': 2, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss:
sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss con parámetros:
{'scale': 20.0, 'similarity_fct': 'cos_sim'}

Parámetros del método fit():
{
"epochs": 10,
"evaluation_steps": 0,
"evaluator": "NoneType",
"max_grad_norm": 1,
"optimizer_class": "",
"optimizer_params": {
"lr": 5e-05
},
"scheduler": "WarmupLinear",
"steps_per_epoch": null,
"warmup_steps": 1000,
"weight_decay": 0.01
}

Funcionalidades

Similitud de oraciones
Extracción de características
Basado en el modelo GPT-J
Compatible con PyTorch
Compatible con AutoTrain
Compatible con Inference Endpoints

Casos de uso

Búsquedas semánticas
Clasificación de texto
Minería de textos bilingües
Agrupación de oraciones
Recuperación de información
Reranking de resultados de búsqueda