Lajavaness/bilingual-embedding-base

Lajavaness

Similitud de oraciones

Modelo base de embeddings bilingües publicado en Hugging Face y orientado a similitud semántica entre frases. Está distribuido principalmente para `sentence-transformers` y destaca especialmente en evaluaciones en francés, con resultados sólidos en recuperación, reranking, clasificación y STS; por ejemplo, obtiene 83.83 MAP/MRR en SyntecReranking, 74.37 MAP@10 en SyntecRetrieval y hasta 83.75 de Spearman en STSBenchmarkMultilingualSTS (fr).

Como usar

Se usa como encoder de texto para convertir frases o documentos cortos en vectores comparables mediante similitud coseno o producto punto. Según el fragmento, su distribución está pensada para sentence-transformers, con soporte adicional en transformers, y encaja bien en pipelines de búsqueda semántica, reranking y detección de similitud textual, sobre todo en escenarios evaluados en francés.

Funcionalidades

Genera embeddings para tareas de similitud semántica y búsqueda de oraciones.
Compatible con `sentence-transformers` y también utilizable desde `transformers`.
Buen rendimiento en recuperación y reranking en francés, especialmente en los benchmarks Syntec y Alloprof.
Capaz de cubrir tareas de STS, clasificación, clustering y pair classification dentro de MTEB.
Modelo de tipo base, adecuado como encoder generalista para indexación y comparación semántica.

Casos de uso

Búsqueda semántica de preguntas y respuestas en francés, como muestran los resultados en Mintaka y Alloprof.
Reranking de candidatos en sistemas de recuperación documental, con muy buen desempeño en SyntecReranking.
Emparejamiento de frases y detección de equivalencia semántica en tareas STS y pair classification.
Clasificación semántica de intención, dominio o temática usando embeddings como representación base.
Clustering de textos en colecciones francófonas para agrupar contenidos relacionados.