myrkur/sentence-transformer-parsbert-fa
myrkur
Similitud de oraciones
Este modelo de sentence-transformers está afinado a partir de HooshvareLab/bert-base-parsbert-uncased con un enfoque en mejorar los sistemas de Generación Aumentada por Recuperación (RAG). Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones, haciéndolo altamente efectivo para recuperar información contextual relevante y generar respuestas precisas y coherentes en diversas aplicaciones como sistemas de preguntas y respuestas (QA), chatbots y generación de contenido.
Como usar
Uso Directo (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa")
# Run inference
sentences = [
'پرتغالی، در وطن اصلی خود، پرتغال، تقریباً توسط ۱۰ میلیون نفر جمعیت صحبت میشود. پرتغالی همچنین به عنوان زبان رسمی برزیل، بیش از ۲۰۰ میلیون نفر در آن کشور و همچنین کشورهای همسایه، در شرق پاراگوئه و در شمال اروگوئه، سخنگو دارد، که کمی بیش از نیمی از جمعیت آمریکای جنوبی را تشکیل میدهند؛ بنابراین پرتغالی پرسخنگوترین زبان رسمی رومی در یک کشور واحد است. این زبان در شش کشور آفریقایی زبان رسمی است (آنگولا، دماغه سبز، گینه بیسائو، موزامبیک، گینه استوایی و سائوتومه و پرنسیپ) و توسط ۳۰ میلیون نفر از ساکنان آن قاره به عنوان زبان نخست گویش میشود. در آسیا، پرتغالی با سایر زبانها در تیمور شرقی و ماکائو رسمی است، در حالی که بیشتر پرتغالیزبانان در آسیا - حدود ۴۰۰٫۰۰۰ نفر - به دلیل بازگشت مهاجرت ژاپنیهای برزیل ساکن ژاپن هستند. در آمریکای شمالی ۱٫۰۰۰٫۰۰۰ نفر به پرتغالی به عنوان زبان نخست خود صحبت میکنند. پرتغالی در اقیانوسیه به دلیل شمار سخنگویانش در تیمور شرقی، پس از فرانسوی، دومین زبان رومی است که بیش از همه گویش میشود. نزدیکترین خویشاوند آن، گالیسی، دارای وضعیت رسمی در جامعه خودمختار گالیسیا در اسپانیا، همراه با اسپانیایی است.',
'در حدود اواخر کدام قرن پیش از میلاد سکاهای کوچنشین در مرزهای شرقی اشکانیان پیشروی کردند؟',
'عباس جدیدی که بود؟',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Uso en Sistemas de Generación Aumentada por Recuperación (RAG)
Retrieval-Augmented Generation (RAG) systems leverage a combination of retrieval and generation techniques to enhance the quality and accuracy of generated responses. This model can be effectively used to retrieve relevant information from a large corpus, which can then be used to generate more informed and contextually accurate responses. Here's how you can integrate this model into a RAG system:
Install Necessary Libraries:
Ensure you have the required libraries:
pip install -U sentence-transformers transformers
from sentence_transformers import SentenceTransformer, util
import torch
# Load the model
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa")
# Example corpus
corpus = [
'پرتغالی، در وطن اصلی خود، پرتغال، تقریباً توسط ۱۰ میلیون نفر جمعیت صحبت میشود...',
'اشکانیان حدود دو قرن بر ایران حکومت کردند...',
'عباس جدیدی، کشتیگیر سابق ایرانی است...',
# ... (more documents)
]
# Encode the corpus
corpus_embeddings = model.encode(corpus, convert_to_tensor=True)
Retrieve Relevant Information:
Given a user query, retrieve the most relevant documents from the corpus:
# User query
query = "عباس جدیدی که بود؟"
query_embedding = model.encode(query, convert_to_tensor=True)
# Retrieve the top-k most similar documents
top_k = 5
hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=top_k)
hits = hits[0]
# Print the retrieved documents
for hit in hits:
print(f"Score: {hit['score']:.4f}")
print(corpus[hit['corpus_id']])
Funcionalidades
- Tipo de Modelo: Sentence Transformer
- Modelo base: HooshvareLab/bert-base-parsbert-uncased
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud de coseno
Casos de uso
- Sistemas de preguntas y respuestas (QA)
- Chatbots
- Generación de contenido