Lajavaness/bilingual-embedding-large-8k
Lajavaness
Similitud de oraciones
El modelo de embeddings bilingüe es un modelo especializado en la incrustación de oraciones entrenadas específicamente para el lenguaje bilingüe, aprovechando las capacidades robustas de BGE M3, un modelo de lenguaje preentrenado basado en la arquitectura BGE M3. El modelo utiliza xlm-roberta para codificar frases en inglés-francés en un espacio vectorial de 1024 dimensiones, facilitando una amplia gama de aplicaciones como la búsqueda semántica y la agrupación de textos. Las incrustaciones capturan los significados matizados de las frases en inglés-francés, reflejando tanto las capas léxicas como las contextuales del lenguaje.
Como usar
Usar este modelo es fácil cuando tienes instalado sentence-transformers:
pip install -U sentence-transformers
Entonces puedes usar el modelo así:
from sentence_transformers import SentenceTransformer
sentences = ["Paris est une capitale de la France", "Paris is a capital of France"]
model = SentenceTransformer('Lajavaness/bilingual-embedding-large-8k', trust_remote_code=True)
print(embeddings)
Funcionalidades
- Modelo de embeddings bilingüe para los idiomas francés e inglés
- Capacidades robustas de BGE M3
- Utiliza xlm-roberta para codificar frases en inglés-francés
- Espacio vectorial de 1024 dimensiones
- Aplicaciones amplias desde la búsqueda semántica hasta la agrupación de textos
- Captura significados léxicos y contextuales
Casos de uso
- Búsqueda semántica
- Agrupación de textos
- Medición de similitudes entre oraciones
- Extracción de características de frases bilingües
- Reranking de resultados de búsqueda