Lajavaness/bilingual-embedding-large-8k

Lajavaness

Similitud de oraciones

El modelo de embeddings bilingüe es un modelo especializado en la incrustación de oraciones entrenadas específicamente para el lenguaje bilingüe, aprovechando las capacidades robustas de BGE M3, un modelo de lenguaje preentrenado basado en la arquitectura BGE M3. El modelo utiliza xlm-roberta para codificar frases en inglés-francés en un espacio vectorial de 1024 dimensiones, facilitando una amplia gama de aplicaciones como la búsqueda semántica y la agrupación de textos. Las incrustaciones capturan los significados matizados de las frases en inglés-francés, reflejando tanto las capas léxicas como las contextuales del lenguaje.

Como usar

Usar este modelo es fácil cuando tienes instalado sentence-transformers:
pip install -U sentence-transformers

Entonces puedes usar el modelo así:
from sentence_transformers import SentenceTransformer

sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]

model = SentenceTransformer('Lajavaness/bilingual-embedding-large-8k', trust_remote_code=True)
print(embeddings)

Funcionalidades

Modelo de embeddings bilingüe para los idiomas francés e inglés
Capacidades robustas de BGE M3
Utiliza xlm-roberta para codificar frases en inglés-francés
Espacio vectorial de 1024 dimensiones
Aplicaciones amplias desde la búsqueda semántica hasta la agrupación de textos
Captura significados léxicos y contextuales

Casos de uso

Búsqueda semántica
Agrupación de textos
Medición de similitudes entre oraciones
Extracción de características de frases bilingües
Reranking de resultados de búsqueda