Alibaba-NLP/gte-multilingual-base

Alibaba-NLP

Similitud de oraciones

Modelo de embeddings densos multilingüe de Alibaba-NLP orientado a similitud semántica. Está diseñado para convertir texto en vectores útiles para búsqueda semántica, recuperación, clustering, reranking y tareas STS, con integración principal en `sentence-transformers` y soporte adicional en `transformers`.

Como usar

Úsalo para generar embeddings de frases, consultas y documentos, y luego comparar esos vectores con similitud coseno. Encaja especialmente bien en buscadores semánticos, deduplicación, matching consulta-documento, clustering temático y clasificación basada en embeddings. En el fragmento proporcionado no aparece un bloque de código de uso.

Funcionalidades

Genera embeddings multilingües para comparar significado entre textos en distintos idiomas.
Su `pipeline_tag` es `sentence-similarity`, por lo que está especialmente enfocado en similitud textual y recuperación semántica.
Se distribuye principalmente para `sentence-transformers`, lo que facilita su uso en indexación, búsqueda y matching de consultas.
Muestra resultados amplios en benchmarks MTEB y variantes multilingües, con señales fuertes en recuperación, bitext mining y clasificación de intención en varios idiomas.
Es una variante `base`, adecuada cuando se busca equilibrio entre calidad semántica y coste computacional.

Casos de uso

Búsqueda semántica multilingüe sobre catálogos, bases documentales o FAQs.
Recuperación de pasajes o documentos relevantes a partir de consultas cortas.
Detección de similitud entre frases para deduplicación, FAQ matching o recomendación de contenido.
Clustering de textos por tema o intención sin depender de etiquetas manuales.
Clasificación ligera de intención o dominio usando embeddings como entrada.
Minería de bitextos y emparejamiento semántico entre idiomas.