beademiguelperez/sentence-transformers-multilingual-e5-small

beademiguelperez

Similitud de oraciones

Modelo de embeddings multilingüe basado en `sentence-transformers` y orientado a similitud semántica entre textos. Está publicado como variante `multilingual-e5-small` y se especializa en representar frases y consultas en un espacio vectorial compartido para comparar significado entre idiomas. En los resultados visibles destaca por su buen rendimiento en recuperación y minería bilingüe, con métricas altas en BUCC de-en (accuracy 98,04), fr-en (93,35), ru-en (94,07), FEVER (nDCG@10 75,27) y HotpotQA (nDCG@10 65,09), además de clasificación sólida en MTOP Domain para inglés, español y alemán.

Como usar

Se utiliza para convertir textos en vectores y comparar cercanía semántica entre consultas, documentos o frases en distintos idiomas. Es adecuado cuando necesitas búsqueda semántica, emparejamiento de textos, recuperación densa, deduplicación semántica o clasificación basada en embeddings. La página proporcionada no incluye un bloque de código de uso visible.

Funcionalidades

Genera embeddings de frases para tareas de similitud semántica
Optimizado para escenarios multilingües con soporte evaluado en idiomas como inglés, español, alemán, francés, japonés, chino, hindi y tailandés
Construido sobre la librería `sentence-transformers`
Etiquetado para la tarea `sentence-similarity`
Muestra resultados MTEB en clasificación, recuperación, clustering, reranking, STS y bitext mining
Rinde especialmente bien en minería bilingüe y recuperación de información factual

Casos de uso

Búsqueda semántica multilingüe sobre documentos y bases de conocimiento
Recuperación densa para preguntas y respuestas en corpora tipo FEVER, HotpotQA o MSMARCO
Detección de similitud entre frases y pares de texto en varios idiomas
Minería de bitexto para alinear oraciones entre idiomas
Clasificación de intención o dominio usando embeddings como representación de entrada
Agrupación de textos por significado en colecciones multilingües