yco/bilingual-embedding-base

yco
Similitud de oraciones

Bilingual-embedding es un modelo de incrustación de oraciones bilingüe para los idiomas francés e inglés. Este modelo es una incrustación de oraciones especializada entrenada específicamente para el lenguaje bilingüe, aprovechando las robustas capacidades de XLM-RoBERTa, un modelo de lenguaje preentrenado basado en la arquitectura de XLM-RoBERTa. El modelo utiliza xlm-roberta para codificar oraciones en inglés y francés en un espacio vectorial de 1024 dimensiones, lo que facilita una amplia gama de aplicaciones, desde búsqueda semántica hasta agrupación de texto. Las incrustaciones capturan los significados matizados de las oraciones en inglés y francés, reflejando tanto las capas léxicas como contextuales del idioma. Este repositorio es una bifurcación del repositorio original Lajavaness/bilingual-embedding-base. La única diferencia es el nombre del tipo de modelo, para ser compatible con text-embeddings-inference

Como usar

Using this model becomes easy when you have sentence-transformers installed:

pip install -U sentence-transformers

Then you can use the model like this:

from sentence_transformers import SentenceTransformer

sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]

model = SentenceTransformer('Lajavaness/bilingual-embedding-base', trust_remote_code=True)
print(embeddings)

Funcionalidades

Optimizado para similaridad de oraciones
Compatible con sentence-transformers
Traduce y codifica oraciones en inglés y francés
Utiliza XLM-RoBERTa para la codificación de oraciones
Genera vectores de 1024 dimensiones
Incluye métodos avanzados de aumento de datos (Augmented SBERT)
Incluye estrategias de entrenamiento como Cross-Encoder y Bi-Encoder

Casos de uso

Búsqueda semántica
Agrupación de textos
Clasificación de intenciones
Evaluación de similaridad de texto
Recuperación de información
Clasificación de reseñas