Lajavaness/sentence-camembert-base
Lajavaness
Similitud de oraciones
Modelos de incrustaciones de oraciones preentrenados que son el estado del arte de las incrustaciones de oraciones para el francés. Este modelo se mejora desde dangvantuan/sentence-camembert-base utilizando ajuste fino con Augmented SBERT en el conjunto de datos stsb junto con Estrategias de Muestreo por Pares a través de 2 modelos CrossEncoder-camembert-large y dangvantuan/sentence-camembert-large.
Como usar
El modelo se puede usar directamente (sin un modelo de lenguaje) de la siguiente manera:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Lajavaness/sentence-camembert-base")
sentences = ["Un avion est en train de décoller.",
"Un homme joue d'une grande flûte.",
"Un homme étale du fromage râpé sur une pizza.",
"Une personne jette un chat au plafond.",
"Une personne est en train de plier un morceau de papier."]
embeddings = model.encode(sentences)
El modelo puede ser evaluado de la siguiente manera en los datos de prueba en francés del stsb:
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from sentence_transformers.evaluation import EmbeddingSimilarityEvaluator
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples=[]
for df in dataset:
score = float(df['similarity_score'])/5.0 # Normalizar puntuación en rango 0 ... 1
inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
# Cargar el conjunto de datos para evaluación
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
# Convertir el conjunto de datos para evaluación
# Para el conjunto de desarrollo:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
# Para el conjunto de prueba:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
Funcionalidades
- Estado del arte en incrustaciones de oraciones para francés
- Ajustado finamente con Augmented SBERT
- Estrategias de Muestreo por Pares
- Alta correlación de Pearson y Spearman en varios benchmarks
- Compilación basada en modelos preexistentes como CrossEncoder-camembert-large y dangvantuan/sentence-camembert-large
Casos de uso
- Incrustaciones de oraciones para la búsqueda semántica
- Correlaciones de similitud de texto
- Incrustaciones para modelos de traducción y análisis de texto en francés
- Evaluaciones de puntuación por pares de oraciones