bi-encoder-mnrl-dbmdz-bert-base-turkish-cased-margin_3.0-msmarco-tr-10k
oguuzhansahin
Similitud de oraciones
Este es un modelo de sentence-transformers: Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para tareas como la agrupación o la búsqueda semántica.
Como usar
Usar este modelo se vuelve fácil cuando tienes sentence-transformers instalado:
pip install -U sentence-transformers
Entonces puedes usar el modelo así:
from sentence_transformers import SentenceTransformer, util
model = SentenceTransformer('oguuzhansahin/bi-encoder-mnrl-dbmdz-bert-base-turkish-cased-margin_3.0-msmarco-tr-10k')
query = "İstanbul'un nüfusu kaçtır?"
sentences = ["İstanbul'da yaşayan insan sayısı 15 milyonu geçmiştir",
"Londra'nın nüfusu yaklaşık 9 milyondur.",
"İstanbul'da hayat çok zor."]
query_embedding = model.encode(query, convert_to_tensor=True)
sentence_embeddings = model.encode(sentences, show_progress_bar=True)
# Calcular score de puntos entre la consulta y todas las incrustaciones de documentos
scores = util.dot_score(query_embedding, sentence_embeddings)[0].cpu().tolist()
# Combinar documentos y puntuaciones
doc_score_pairs = list(zip(sentences, scores))
# Ordenar por puntuación decreciente
doc_score_pairs = sorted(doc_score_pairs, key=lambda x: x[1], reverse=True)
# Mostrar pasajes y puntuaciones
for doc, score in doc_score_pairs:
print(score, doc)
## Resultado Esperado:
400.1816711425781 | İstanbul'da yaşayan insan sayısı 15 milyonu geçmiştir
309.97796630859375 | Londra'nın nüfusu yaklaşık 9 milyondur.
133.04507446289062 | İstanbul'da hayat çok zor.
Evaluados en el conjunto de datos dev MSMARCO traducido de 10k consultas.
Datos de Evaluación
Epoch: diferentes valores entre 0 y 4.
Pasos: múltiples valores desde 500 hasta -1.
Funcionalidades
- sentence-transformers
- retrieval
- inference
- bert
- feature-extraction
Casos de uso
- Agrupación de textos
- Búsqueda semántica
- Extracción de características de texto
- Puntaje de similitud de oraciones