sgpt-bloom-1b7-nli

bigscience-data
Similitud de oraciones

SGPT: GPT Embeddings de Oraciones para Búsqueda Semántica.

Como usar

Para instrucciones de uso, refiérase a: https://github.com/Muennighoff/sgpt#symmetric-semantic-search

El modelo fue entrenado con el comando:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch examples/training/nli/training_nli_v2.py --model_name bigscience/bloom-1b3 --freezenonbias --train_batch_size 128 --lr 32e-5 --pooling weightedmean --wandb --wandbwatchlog gradients --gradcache --chunksize 4

Evaluación de Resultados

{
  "askubuntu": 57.44,
  "cqadupstack": 14.18,
  "twitterpara": 73.99,
  "scidocs": 74.74,
  "avg": 55.087500000000006
}

Entrenamiento

El modelo fue entrenado con los parámetros:

DataLoader:

sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader

Loss:

sentence_transformers.losses.MultipleNegativesRankingLoss.MNRLGradCache

Parámetros del método fit():

{
  "epochs": 1,
  "evaluation_steps": 440,
  "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
  "max_grad_norm": 1,
  "optimizer_class": "",
  "optimizer_params": {
    "lr": 0.00032
  },
  "scheduler": "WarmupLinear",
  "steps_per_epoch": null,
  "warmup_steps": 441,
  "weight_decay": 0.01
}

Arquitectura Completa del Modelo

SentenceTransformer(
  (0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: BloomModel
  (1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': True, 'pooling_mode_lasttoken': False})
)

Citación y Autores

@article{muennighoff2022sgpt,
  title={SGPT: GPT Sentence Embeddings for Semantic Search},
  author={Muennighoff, Niklas},
  journal={arXiv preprint arXiv:2202.08904},
  year={2022}
}

Funcionalidades

Transformadores de oración
PyTorch
bloom
extracción de características
similaridad de oraciones
mteb
índice de modelo
compatible con AutoTrain
compatible con puntos finales
arxiv:2202.08904

Casos de uso

Clasificación de opiniones en Amazon (francés y chino)
Clasificación de dominios en MTOP (francés)
Clasificación de intenciones en MTOP y Amazon (francés)
Clasificación de escenarios en Amazon Massivo (francés)
Similaridad de frases en STS22 (francés y chino)