Alibaba-NLP/gte-multilingual-base
Alibaba-NLP
Similitud de oraciones
Modelo de embeddings densos multilingüe de Alibaba-NLP orientado a similitud semántica. Está diseñado para convertir texto en vectores útiles para búsqueda semántica, recuperación, clustering, reranking y tareas STS, con integración principal en `sentence-transformers` y soporte adicional en `transformers`.
Como usar
Úsalo para generar embeddings de frases, consultas y documentos, y luego comparar esos vectores con similitud coseno. Encaja especialmente bien en buscadores semánticos, deduplicación, matching consulta-documento, clustering temático y clasificación basada en embeddings. En el fragmento proporcionado no aparece un bloque de código de uso.
Funcionalidades
- Genera embeddings multilingües para comparar significado entre textos en distintos idiomas.
- Su `pipeline_tag` es `sentence-similarity`, por lo que está especialmente enfocado en similitud textual y recuperación semántica.
- Se distribuye principalmente para `sentence-transformers`, lo que facilita su uso en indexación, búsqueda y matching de consultas.
- Muestra resultados amplios en benchmarks MTEB y variantes multilingües, con señales fuertes en recuperación, bitext mining y clasificación de intención en varios idiomas.
- Es una variante `base`, adecuada cuando se busca equilibrio entre calidad semántica y coste computacional.
Casos de uso
- Búsqueda semántica multilingüe sobre catálogos, bases documentales o FAQs.
- Recuperación de pasajes o documentos relevantes a partir de consultas cortas.
- Detección de similitud entre frases para deduplicación, FAQ matching o recomendación de contenido.
- Clustering de textos por tema o intención sin depender de etiquetas manuales.
- Clasificación ligera de intención o dominio usando embeddings como entrada.
- Minería de bitextos y emparejamiento semántico entre idiomas.