beademiguelperez/sentence-transformers-multilingual-e5-small
Modelo de embeddings multilingüe basado en `sentence-transformers` y orientado a similitud semántica entre textos. Está publicado como variante `multilingual-e5-small` y se especializa en representar frases y consultas en un espacio vectorial compartido para comparar significado entre idiomas. En los resultados visibles destaca por su buen rendimiento en recuperación y minería bilingüe, con métricas altas en BUCC de-en (accuracy 98,04), fr-en (93,35), ru-en (94,07), FEVER (nDCG@10 75,27) y HotpotQA (nDCG@10 65,09), además de clasificación sólida en MTOP Domain para inglés, español y alemán.
Como usar
Se utiliza para convertir textos en vectores y comparar cercanía semántica entre consultas, documentos o frases en distintos idiomas. Es adecuado cuando necesitas búsqueda semántica, emparejamiento de textos, recuperación densa, deduplicación semántica o clasificación basada en embeddings. La página proporcionada no incluye un bloque de código de uso visible.
Funcionalidades
- Genera embeddings de frases para tareas de similitud semántica
- Optimizado para escenarios multilingües con soporte evaluado en idiomas como inglés, español, alemán, francés, japonés, chino, hindi y tailandés
- Construido sobre la librería `sentence-transformers`
- Etiquetado para la tarea `sentence-similarity`
- Muestra resultados MTEB en clasificación, recuperación, clustering, reranking, STS y bitext mining
- Rinde especialmente bien en minería bilingüe y recuperación de información factual
Casos de uso
- Búsqueda semántica multilingüe sobre documentos y bases de conocimiento
- Recuperación densa para preguntas y respuestas en corpora tipo FEVER, HotpotQA o MSMARCO
- Detección de similitud entre frases y pares de texto en varios idiomas
- Minería de bitexto para alinear oraciones entre idiomas
- Clasificación de intención o dominio usando embeddings como representación de entrada
- Agrupación de textos por significado en colecciones multilingües