bigscience/sgpt-bloom-7b1-msmarco

bigscience

Similitud de oraciones

Modelo de embeddings basado en BLOOM 7B1 ajustado para similitud semántica y recuperación de información. Está publicado en Hugging Face como modelo de `sentence-transformers` y aparece orientado a búsqueda, reranking, STS y tareas relacionadas con recuperación multilingüe.

Como usar

Se utiliza para convertir consultas y documentos en embeddings densos comparables entre sí, especialmente en búsqueda semántica, recuperación de pasajes, detección de similitud textual y reranking inicial en pipelines de recuperación. Por el nombre del modelo y las métricas visibles, está especialmente alineado con escenarios tipo MS MARCO y benchmarks MTEB.

Funcionalidades

Pipeline principal de similitud entre oraciones (`sentence-similarity`).
Implementado sobre la librería `sentence-transformers`.
Enfocado en recuperación y ranking semántico, con resultados reportados en MTEB para retrieval, reranking, STS, clustering, clasificación y bitext mining.
Muestra buen desempeño en conjuntos de recuperación como ArguAna y múltiples subconjuntos de CQADupstack.
Incluye evaluación multilingüe en varios idiomas, con métricas visibles para inglés, alemán, español, francés, japonés, chino y ruso.
Metadatos visibles: creado el 2022-08-26, última modificación el 2024-04-03, 42 likes y 55.957 descargas acumuladas.

Casos de uso

Búsqueda semántica sobre colecciones de documentos o FAQs.
Recuperación de pasajes para sistemas RAG.
Medición de similitud entre consultas y respuestas.
Reranking ligero de candidatos recuperados previamente.
Agrupación y análisis semántico de textos relacionados.
Evaluación multilingüe de similitud y recuperación en distintos dominios técnicos.