intfloat/multilingual-e5-base

intfloat

Similitud de oraciones

Modelo multilingüe de embeddings orientado a similitud semántica y recuperación de texto. Está publicado en Hugging Face por `intfloat`, usa la biblioteca `sentence-transformers` y se posiciona como un modelo base para representar consultas y documentos en múltiples idiomas con buen rendimiento en benchmarks MTEB de clasificación, recuperación, STS, clustering, reranking y minería bitextual.

Como usar

No se encontró una sección de uso con fragmentos de código en el HTML proporcionado. Con los datos disponibles, su uso previsto es generar embeddings multilingües para búsqueda semántica, recuperación de documentos, emparejamiento consulta-documento y comparación de similitud textual.

Funcionalidades

Genera embeddings multilingües para tareas de similitud entre frases
Optimizado para `sentence-similarity` con `pipeline_tag` de Hugging Face
Construido sobre la biblioteca `sentence-transformers`
Disponible mediante proveedor de inferencia `hf-inference`
Muestra resultados amplios en MTEB para clasificación, recuperación, STS, clustering, reranking y bitext mining
Rendimiento destacado en minería bitextual BUCC, con exactitud superior al 97% en varios pares de idiomas
Muy usado en Hugging Face, con más de 30 millones de descargas acumuladas y 347 likes en los datos proporcionados

Casos de uso

Búsqueda semántica multilingüe en bases documentales
Recuperación de pasajes o documentos relevantes a partir de consultas de usuario
Sistemas RAG donde conviene indexar contenido en varios idiomas con un único modelo de embeddings
Detección de similitud entre frases para deduplicación o matching semántico
Clasificación basada en embeddings y recuperación cross-lingual
Minería de bitextos y alineación de textos paralelos entre idiomas