woody72/multilingual-e5-base

woody72

Similitud de oraciones

Modelo de embeddings multilingüe basado en `sentence-transformers`, orientado a similitud semántica entre frases y recuperación de texto. Está pensado para representar consultas y documentos en un espacio vectorial compartido y destaca especialmente en tareas multilingües de clasificación, STS, minería bitextual y recuperación semántica ligera.

Como usar

Se utiliza como modelo de embeddings para convertir textos en vectores y compararlos mediante similitud semántica. Encaja especialmente en búsqueda semántica, emparejamiento consulta-documento, deduplicación, reranking inicial, clustering y evaluación de similitud entre frases en varios idiomas. En la página proporcionada no aparece un bloque de código de uso explícito.

Funcionalidades

`pipeline_tag`: similitud de oraciones (`sentence-similarity`).
Biblioteca principal: `sentence-transformers`.
Enfoque multilingüe, con resultados reportados en inglés, alemán, español, francés, japonés, chino, ruso y pares bilingües con inglés.
Buen rendimiento en minería bitextual: BUCC de-en 99.24% accuracy, fr-en 97.89%, ru-en 97.47%, zh-en 98.47%.
Buen desempeño en similitud textual semántica biomédica: BIOSSES con 85.06 de Spearman usando similitud coseno.
Resultados sólidos en clasificación: Amazon Polarity 90.64% accuracy y Banking77 82.74% accuracy.
Rendimiento de recuperación útil pero irregular según dominio: por ejemplo ArguAna `nDCG@10` 44.23 y CQADupstack global `nDCG@10` 38.52.

Casos de uso

Búsqueda semántica multilingüe sobre documentos, FAQs o bases de conocimiento.
Emparejamiento entre consultas y pasajes para recuperación de información.
Detección de similitud entre frases y deduplicación de contenido.
Minería bitextual y alineación de textos entre idiomas.
Clasificación basada en embeddings para intención, sentimiento o temas.
Clustering y agrupación de textos cortos en entornos multilingües.