sentence-camembert-large
Sentence-CamemBERT-Large es el Modelo de Embeddings para Francés desarrollado por La Javaness. El propósito de este modelo de embeddings es representar el contenido y la semántica de una oración en francés en un vector matemático que permite entender el significado del texto más allá de las palabras individuales en consultas y documentos, ofreciendo una potente búsqueda semántica. Los modelos de embeddings de oraciones preentrenados son el estado del arte de los Embeddings de Oraciones para Francés. El modelo está ajustado finamente utilizando el modelo preentrenado facebook/camembert-large y Siamese BERT-Networks con 'sentences-transformers' en el conjunto de datos stsb.
Como usar
El modelo se puede usar directamente (sin un modelo de lenguaje) de la siguiente manera:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("dangvantuan/sentence-camembert-large")
sentences = ["Un avion est en train de décoller.", "Un homme joue d'une grande flûte.", "Un homme étale du fromage râpé sur une pizza.", "Une personne jette un chat au plafond.", "Une personne est en train de plier un morceau de papier."]
embeddings = model.encode(sentences)
Evaluación del modelo en los datos de prueba en francés de stsb:
from sentence_transformers import SentenceTransformer
from sentence_transformers.readers import InputExample
from datasets import load_dataset
def convert_dataset(dataset):
dataset_samples = []
for df in dataset:
score = float(df['similarity_score']) / 5.0 # Normalizar la puntuación al rango 0 ... 1
inp_example = InputExample(texts=[df['sentence1'], df['sentence2']], label=score)
dataset_samples.append(inp_example)
return dataset_samples
# Cargar el conjunto de datos para evaluación
df_dev = load_dataset("stsb_multi_mt", name="fr", split="dev")
df_test = load_dataset("stsb_multi_mt", name="fr", split="test")
# Convertir el conjunto de datos para evaluación
# Para el conjunto de desarrollo:
dev_samples = convert_dataset(df_dev)
val_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(dev_samples, name='sts-dev')
val_evaluator(model, output_path="./")
# Para el conjunto de prueba:
test_samples = convert_dataset(df_test)
test_evaluator = EmbeddingSimilarityEvaluator.from_input_examples(test_samples, name='sts-test')
test_evaluator(model, output_path="./")
Funcionalidades
- Modelo de Embeddings para Francés
- Representación matemática de oraciones
- Búsqueda semántica potente
- Ajuste fino con facebook/camembert-large
- Redes Siamese BERT
Casos de uso
- Búsqueda semántica
- Análisis de similitud de textos
- Embeddings de oraciones en aplicaciones NLP
- Clasificación y agrupación de documentos