sentence-camembert-large

dangvantuan
Similitud de oraciones

Sentence-CamemBERT-Large es el Modelo de Embeddings para Francés desarrollado por La Javaness. El propósito de este modelo de embeddings es representar el contenido y la semántica de una oración en francés en un vector matemático que permite entender el significado del texto más allá de las palabras individuales en consultas y documentos, ofreciendo una potente búsqueda semántica. Los modelos de embeddings de oraciones preentrenados son el estado del arte de los Embeddings de Oraciones para Francés. El modelo está ajustado finamente utilizando el modelo preentrenado facebook/camembert-large y Siamese BERT-Networks con 'sentences-transformers' en el conjunto de datos stsb.

Como usar

El modelo se puede usar directamente (sin un modelo de lenguaje) de la siguiente manera:

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-large")

sentences = ["Un avion est en train de décoller.", "Un homme joue d'une grande flûte.", "Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond.", "Une personne est en train de plier un morceau de papier."]

embeddings = model.encode(sentences)

Evaluación del modelo en los datos de prueba en francés de stsb:

from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset

def convert_dataset(dataset):
    dataset_samples = []
    for df in dataset:
        score = float(df['similarity_score']) / 5.0  # Normalizar la puntuación al rango 0 ... 1
        inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
        dataset_samples.append(inp_example)
    return dataset_samples

# Cargar el conjunto de datos para evaluación
 df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")

# Convertir el conjunto de datos para evaluación

# Para el conjunto de desarrollo:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")

# Para el conjunto de prueba:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")

Funcionalidades

Modelo de Embeddings para Francés
Representación matemática de oraciones
Búsqueda semántica potente
Ajuste fino con facebook/camembert-large
Redes Siamese BERT

Casos de uso

Búsqueda semántica
Análisis de similitud de textos
Embeddings de oraciones en aplicaciones NLP
Clasificación y agrupación de documentos