intfloat/multilingual-e5-base
intfloat
Similitud de oraciones
Modelo multilingüe de embeddings orientado a similitud semántica y recuperación de texto. Está publicado en Hugging Face por `intfloat`, usa la biblioteca `sentence-transformers` y se posiciona como un modelo base para representar consultas y documentos en múltiples idiomas con buen rendimiento en benchmarks MTEB de clasificación, recuperación, STS, clustering, reranking y minería bitextual.
Como usar
No se encontró una sección de uso con fragmentos de código en el HTML proporcionado. Con los datos disponibles, su uso previsto es generar embeddings multilingües para búsqueda semántica, recuperación de documentos, emparejamiento consulta-documento y comparación de similitud textual.
Funcionalidades
- Genera embeddings multilingües para tareas de similitud entre frases
- Optimizado para `sentence-similarity` con `pipeline_tag` de Hugging Face
- Construido sobre la biblioteca `sentence-transformers`
- Disponible mediante proveedor de inferencia `hf-inference`
- Muestra resultados amplios en MTEB para clasificación, recuperación, STS, clustering, reranking y bitext mining
- Rendimiento destacado en minería bitextual BUCC, con exactitud superior al 97% en varios pares de idiomas
- Muy usado en Hugging Face, con más de 30 millones de descargas acumuladas y 347 likes en los datos proporcionados
Casos de uso
- Búsqueda semántica multilingüe en bases documentales
- Recuperación de pasajes o documentos relevantes a partir de consultas de usuario
- Sistemas RAG donde conviene indexar contenido en varios idiomas con un único modelo de embeddings
- Detección de similitud entre frases para deduplicación o matching semántico
- Clasificación basada en embeddings y recuperación cross-lingual
- Minería de bitextos y alineación de textos paralelos entre idiomas