intfloat/multilingual-e5-small
intfloat
Similitud de oraciones
Modelo pequeño de embeddings multilingües optimizado para similitud semántica entre frases, búsqueda semántica y recuperación de información en varios idiomas. Está publicado en Hugging Face y se sirve mediante la biblioteca `sentence-transformers`.
Como usar
Se usa para convertir consultas y documentos en vectores comparables, especialmente en búsqueda semántica, matching de preguntas, clustering textual y sistemas RAG multilingües.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("intfloat/multilingual-e5-small")
embeddings = model.encode([
"query: ¿Cuál es la capital de España?",
"passage: Madrid es la capital de España."
])
Funcionalidades
- Genera embeddings multilingües para comparar significado entre textos
- Optimizado para tareas de `sentence-similarity` y recuperación semántica
- Formato ligero (`small`), adecuado cuando importa reducir latencia y coste
- Buen rendimiento en benchmarks MTEB de clasificación, recuperación, STS y minería bitextual
- Compatible con despliegue e inferencia desde Hugging Face
Casos de uso
- Búsqueda semántica multilingüe sobre documentación o catálogos
- Recuperación de pasajes para pipelines RAG en varios idiomas
- Detección de similitud entre preguntas y respuestas
- Clustering de textos cortos o descripciones en distintos idiomas
- Matching cruzado entre idiomas en tareas de bitext mining o FAQ