sentence-camembert-base por Van Tuan DANG
dangvantuan
Similitud de oraciones
El modelo sentence-camembert-base es un modelo de embeddings de oraciones preentrenado que utiliza Siamese BERT-Networks y está afinado con el dataset stsb_multi_mt para la similitud de textos en francés.
Como usar
El modelo puede ser utilizado directamente (sin un modelo de lenguaje) de la siguiente manera:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier.",
]
embeddings = model.encode(sentences)
El modelo puede ser evaluado de la siguiente manera en los datos de prueba en francés del stsb:
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples = []
for df in dataset:
score = float(df['similarity_score']) / 5.0 # Normalizar la puntuación a rango 0 ... 1
inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
# Cargar el dataset para evaluación
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
# Convertir el dataset para evaluación
# Para el set de desarrollo:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
# Para el set de prueba:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
Resultado de prueba:
El rendimiento se mide usando la correlación de Pearson y Spearman:
En desarrollo:
- Modelo: dangvantuan/sentence-camembert-base
- Correlación de Pearson: 86.73
- Correlación de Spearman: 86.54
- Parámetros: 110M
En prueba:
- Modelo: dangvantuan/sentence-camembert-base
- Correlación de Pearson: 82.36
- Correlación de Spearman: 81.64
Funcionalidades
- Transformadores de oraciones
- PyTorch
- Camembert
- Similitud de oraciones
- Embeddings de oraciones
- Compatible con AutoTrain
- Inferencia de embeddings de texto
- Compatibilidad con endpoints de inferencia
Casos de uso
- Generación de embeddings de oraciones en francés
- Medición de la similitud entre oraciones
- Aplicaciones de análisis y procesamiento del lenguaje natural