sentence-camembert-base por Van Tuan DANG

dangvantuan
Similitud de oraciones

El modelo sentence-camembert-base es un modelo de embeddings de oraciones preentrenado que utiliza Siamese BERT-Networks y está afinado con el dataset stsb_multi_mt para la similitud de textos en francés.

Como usar

El modelo puede ser utilizado directamente (sin un modelo de lenguaje) de la siguiente manera:

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-base")

sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]

embeddings = model.encode(sentences)

El modelo puede ser evaluado de la siguiente manera en los datos de prueba en francés del stsb:

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset

def convert_dataset(dataset):
    dataset_samples = []
    for df in dataset:
        score = float(df['similarity_score']) / 5.0  # Normalizar la puntuación a rango 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Cargar el dataset para evaluación
 df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
 df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convertir el dataset para evaluación

# Para el set de desarrollo:
 dev_samples = convert_dataset(df_dev)
 val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
 val_evaluator(model, output_path="./")

# Para el set de prueba:
 test_samples = convert_dataset(df_test)
 test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
 test_evaluator(model, output_path="./")

Resultado de prueba: El rendimiento se mide usando la correlación de Pearson y Spearman:

En desarrollo:

  • Modelo: dangvantuan/sentence-camembert-base
  • Correlación de Pearson: 86.73
  • Correlación de Spearman: 86.54
  • Parámetros: 110M

En prueba:

  • Modelo: dangvantuan/sentence-camembert-base
  • Correlación de Pearson: 82.36
  • Correlación de Spearman: 81.64

Funcionalidades

Transformadores de oraciones
PyTorch
Camembert
Similitud de oraciones
Embeddings de oraciones
Compatible con AutoTrain
Inferencia de embeddings de texto
Compatibilidad con endpoints de inferencia

Casos de uso

Generación de embeddings de oraciones en francés
Medición de la similitud entre oraciones
Aplicaciones de análisis y procesamiento del lenguaje natural