Muennighoff/SGPT-125M-weightedmean-msmarco-specb-bitfit
Muennighoff
Similitud de oraciones
Modelo de embeddings de 125M parámetros basado en SGPT para similitud semántica y recuperación de texto. Usa agregación por media ponderada y una variante ajustada para MS MARCO con BitFit, orientada especialmente a búsqueda semántica, recuperación densa y comparación de frases.
Como usar
Se utiliza como modelo de embeddings para convertir consultas y documentos en vectores comparables. Está pensado para casos donde se necesita recuperar pasajes relevantes, medir similitud semántica entre textos o reutilizar embeddings en pipelines de sentence-transformers. En la página proporcionada no aparece un bloque de código de uso visible.
Funcionalidades
- Tarea principal: similitud de oraciones (`sentence-similarity`)
- Biblioteca: `sentence-transformers`
- Proveedor de inferencia disponible: Hugging Face Inference
- Estado de inferencia: `warm`
- Creado el 2022-03-02 y actualizado por última vez el 2023-03-27
- 440 descargas recientes y 125962 descargas históricas
- 2 'likes' en la página del modelo
- Buen desempeño en recuperación y STS dentro de MTEB, con resultados destacados en conjuntos como ArguAna, Banking77 y BIOSSES
- Evaluado también en clasificación, clustering, reranking y retrieval sobre múltiples benchmarks MTEB/BEIR
Casos de uso
- Búsqueda semántica sobre colecciones de documentos
- Recuperación densa de pasajes y ranking inicial para QA o RAG
- Comparación de similitud entre frases, preguntas o títulos
- Detección de duplicados o emparejamiento de consultas y respuestas
- Reranking y evaluación semántica en tareas estilo MS MARCO/BEIR