BAAI/bge-m3-unsupervised
BAAI
Similitud de oraciones
En este proyecto, presentamos BGE-M3, que se distingue por su versatilidad en Multi-Funcionalidad, Multi-Linguaje y Multi-Granularidad. Multi-Funcionalidad: Puede realizar simultáneamente las tres funcionalidades comunes de recuperación de un modelo de incrustación: recuperación densa, recuperación multi-vector y recuperación dispersa. Multi-Linguaje: Puede soportar más de 100 idiomas. Multi-Granularidad: Es capaz de procesar entradas de diferentes granularidades, que van desde oraciones cortas hasta documentos largos de hasta 8192 tokens.
Como usar
Instalar:
pip install -U FlagEmbedding
Generar Incrustaciones para texto:
from FlagEmbedding import BGEM3FlagModel
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)
sentences_1 = ["What is BGE M3?", "Defination of BM25"]
sentences_2 = ["BGE M3 is an embedding model supporting dense retrieval, lexical matching and multi-vector interaction.",
"BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document"]
embeddings_1 = model.encode(sentences_1, batch_size=12, max_length=8192)['dense_vecs']
embeddings_2 = model.encode(sentences_2)['dense_vecs']
similarity = embeddings_1 @ embeddings_2.T
print(similarity)
# [[0.6265, 0.3477], [0.3499, 0.678 ]]
Incrustación Dispersa (Peso Lexical):
from FlagEmbedding import BGEM3FlagModel
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)
sentences_1 = ["What is BGE M3?", "Defination of BM25"]
sentences_2 = ["BGE M3 is an embedding model supporting dense retrieval, lexical matching and multi-vector interaction.",
"BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document"]
output_1 = model.encode(sentences_1, return_dense=True, return_sparse=True, return_colbert_vecs=False)
output_2 = model.encode(sentences_2, return_dense=True, return_sparse=True, return_colbert_vecs=False)
# you can see the weight for each token:
print(model.convert_id_to_token(output_1['lexical_weights']))
# [{'What': 0.08356, 'is': 0.0814, 'B': 0.1296, 'GE': 0.252, 'M': 0.1702, '3': 0.2695, '?': 0.04092},
# {'De': 0.05005, 'fin': 0.1368, 'ation': 0.04498, 'of': 0.0633, 'BM': 0.2515, '25': 0.3335}]
# compute the scores via lexical matching
lexical_scores = model.compute_lexical_matching_score(output_1['lexical_weights'][0], output_2['lexical_weights'][0])
print(lexical_scores)
# 0.19554901123046875
print(model.compute_lexical_matching_score(output_1['lexical_weights'][0], output_1['lexical_weights'][1]))
# 0.0
Multi-Vector (ColBERT):
from FlagEmbedding import BGEM3FlagModel
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)
sentences_1 = ["What is BGE M3?", "Defination of BM25"]
sentences_2 = ["BGE M3 is an embedding model supporting dense retrieval, lexical matching and multi-vector interaction.",
"BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document"]
output_1 = model.encode(sentences_1, return_dense=True, return_sparse=True, return_colbert_vecs=True)
output_2 = model.encode(sentences_2, return_dense=True, return_sparse=True, return_colbert_vecs=True)
print(model.colbert_score(output_1['colbert_vecs'][0], output_2['colbert_vecs'][0]))
print(model.colbert_score(output_1['colbert_vecs'][0], output_2['colbert_vecs'][1]))
# 0.7797
# 0.4620
Funcionalidades
- Multi-Funcionalidad: recuperación densa, recuperación multi-vector y recuperación dispersa
- Multi-Linguaje: Soporte para más de 100 idiomas
- Multi-Granularidad: Procesamiento de entradas de diferentes granularidades, desde oraciones cortas hasta documentos largos de hasta 8192 tokens
Casos de uso
- Extracción de características
- Similitud de oraciones
- Incrustaciones de texto
- Recuperación de información multilingüe
- Recuperación de documentos largos