Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit

Muennighoff
Similitud de oraciones

Modelo de embeddings de 125M parámetros basado en SGPT para similitud semántica y recuperación de texto. Usa agregación por media ponderada y una variante ajustada para MS MARCO con BitFit, orientada especialmente a búsqueda semántica, recuperación densa y comparación de frases.

Como usar

Se utiliza como modelo de embeddings para convertir consultas y documentos en vectores comparables. Está pensado para casos donde se necesita recuperar pasajes relevantes, medir similitud semántica entre textos o reutilizar embeddings en pipelines de sentence-transformers. En la página proporcionada no aparece un bloque de código de uso visible.

Funcionalidades

Tarea principal: similitud de oraciones (`sentence-similarity`)
Biblioteca: `sentence-transformers`
Proveedor de inferencia disponible: Hugging Face Inference
Estado de inferencia: `warm`
Creado el 2022-03-02 y actualizado por última vez el 2023-03-27
440 descargas recientes y 125962 descargas históricas
2 'likes' en la página del modelo
Buen desempeño en recuperación y STS dentro de MTEB, con resultados destacados en conjuntos como ArguAna, Banking77 y BIOSSES
Evaluado también en clasificación, clustering, reranking y retrieval sobre múltiples benchmarks MTEB/BEIR

Casos de uso

Búsqueda semántica sobre colecciones de documentos
Recuperación densa de pasajes y ranking inicial para QA o RAG
Comparación de similitud entre frases, preguntas o títulos
Detección de duplicados o emparejamiento de consultas y respuestas
Reranking y evaluación semántica en tareas estilo MS MARCO/BEIR