danielivanov/embedding-model-it-mmarco

danielivanov

Similitud de oraciones

El modelo fue entrenado para la similitud de oraciones usando PyTorch y Transformers. Utiliza el modelo BERT para la extracción de características y ofrece capacidades de inferencia de text-embeddings.

Como usar

El modelo se entrenó con los siguientes parámetros:
DataLoader:
{
  'batch_size': 16,
  'sampler': 'torch.utils.data.sampler.RandomSampler',
  'batch_sampler': 'torch.utils.data.sampler.BatchSampler'
}

Loss:
{
 'distance_metric': 'TripletDistanceMetric.EUCLIDEAN',
 'triplet_margin': 5
}

Parámetros del método fit():
{
 'epochs': 10,
 'evaluation_steps': 500,
 'evaluator': 'sentence_transformers.evaluation.TripletEvaluator.TripletEvaluator',
 'max_grad_norm': 1,
 'optimizer_class': '',
 'optimizer_params': {
  'lr': 2e-05
},
 'scheduler': 'WarmupLinear',
 'steps_per_epoch': 1500,
 'warmup_steps': 6250,
 'weight_decay': 0.01
}

El modelo puede ser utilizado para obtener embeddings de texto así:
Estructura completa del modelo:
SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) con modelo Transformer: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

Funcionalidades

Similitud de oraciones
Transformadores de texto
Extracción de características con BERT
Inferencia de embeddings de texto

Casos de uso

Extracción de características de texto en italiano
Similitud de textos
Aplicaciones de recuperación de información