yco/bilingual-embedding-base
Bilingual-embedding es un modelo de incrustación de oraciones bilingüe para los idiomas francés e inglés. Este modelo es una incrustación de oraciones especializada entrenada específicamente para el lenguaje bilingüe, aprovechando las robustas capacidades de XLM-RoBERTa, un modelo de lenguaje preentrenado basado en la arquitectura de XLM-RoBERTa. El modelo utiliza xlm-roberta para codificar oraciones en inglés y francés en un espacio vectorial de 1024 dimensiones, lo que facilita una amplia gama de aplicaciones, desde búsqueda semántica hasta agrupación de texto. Las incrustaciones capturan los significados matizados de las oraciones en inglés y francés, reflejando tanto las capas léxicas como contextuales del idioma. Este repositorio es una bifurcación del repositorio original Lajavaness/bilingual-embedding-base. La única diferencia es el nombre del tipo de modelo, para ser compatible con text-embeddings-inference
Como usar
Using this model becomes easy when you have sentence-transformers installed:
pip install -U sentence-transformers
Then you can use the model like this:
from sentence_transformers import SentenceTransformer
sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]
model = SentenceTransformer('Lajavaness/bilingual-embedding-base', trust_remote_code=True)
print(embeddings)
Funcionalidades
- Optimizado para similaridad de oraciones
- Compatible con sentence-transformers
- Traduce y codifica oraciones en inglés y francés
- Utiliza XLM-RoBERTa para la codificación de oraciones
- Genera vectores de 1024 dimensiones
- Incluye métodos avanzados de aumento de datos (Augmented SBERT)
- Incluye estrategias de entrenamiento como Cross-Encoder y Bi-Encoder
Casos de uso
- Búsqueda semántica
- Agrupación de textos
- Clasificación de intenciones
- Evaluación de similaridad de texto
- Recuperación de información
- Clasificación de reseñas