intfloat/multilingual-e5-small

intfloat

Similitud de oraciones

Modelo pequeño de embeddings multilingües optimizado para similitud semántica entre frases, búsqueda semántica y recuperación de información en varios idiomas. Está publicado en Hugging Face y se sirve mediante la biblioteca `sentence-transformers`.

Como usar

Se usa para convertir consultas y documentos en vectores comparables, especialmente en búsqueda semántica, matching de preguntas, clustering textual y sistemas RAG multilingües.
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("intfloat/multilingual-e5-small")
embeddings = model.encode([
    "query: ¿Cuál es la capital de España?",
    "passage: Madrid es la capital de España."
])

Funcionalidades

Genera embeddings multilingües para comparar significado entre textos
Optimizado para tareas de `sentence-similarity` y recuperación semántica
Formato ligero (`small`), adecuado cuando importa reducir latencia y coste
Buen rendimiento en benchmarks MTEB de clasificación, recuperación, STS y minería bitextual
Compatible con despliegue e inferencia desde Hugging Face

Casos de uso

Búsqueda semántica multilingüe sobre documentación o catálogos
Recuperación de pasajes para pipelines RAG en varios idiomas
Detección de similitud entre preguntas y respuestas
Clustering de textos cortos o descripciones en distintos idiomas
Matching cruzado entre idiomas en tareas de bitext mining o FAQ