danielivanov/embedding-model-it-mmarco
danielivanov
Similitud de oraciones
El modelo fue entrenado para la similitud de oraciones usando PyTorch y Transformers. Utiliza el modelo BERT para la extracción de características y ofrece capacidades de inferencia de text-embeddings.
Como usar
El modelo se entrenó con los siguientes parámetros:
DataLoader:
{
'batch_size': 16,
'sampler': 'torch.utils.data.sampler.RandomSampler',
'batch_sampler': 'torch.utils.data.sampler.BatchSampler'
}
Loss:
{
'distance_metric': 'TripletDistanceMetric.EUCLIDEAN',
'triplet_margin': 5
}
Parámetros del método fit():
{
'epochs': 10,
'evaluation_steps': 500,
'evaluator': 'sentence_transformers.evaluation.TripletEvaluator.TripletEvaluator',
'max_grad_norm': 1,
'optimizer_class': '',
'optimizer_params': {
'lr': 2e-05
},
'scheduler': 'WarmupLinear',
'steps_per_epoch': 1500,
'warmup_steps': 6250,
'weight_decay': 0.01
}
El modelo puede ser utilizado para obtener embeddings de texto así:
Estructura completa del modelo:
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) con modelo Transformer: BertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)
Funcionalidades
- Similitud de oraciones
- Transformadores de texto
- Extracción de características con BERT
- Inferencia de embeddings de texto
Casos de uso
- Extracción de características de texto en italiano
- Similitud de textos
- Aplicaciones de recuperación de información