Arabic_text_embedding_for_sts
AbderrahmanSkiredj1
Similitud de oraciones
Este es un modelo de sentence-transformers entrenado en el conjunto de datos AbderrahmanSkiredj1/arabic_quora_duplicates_stsb_alue_holyquran_aranli_900k_anchor_positive_negative. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede utilizarse para la similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más.
Como usar
Uso directo (Transformadores de oraciones)
Primero, instale la biblioteca de transformadores de oraciones:
pip install -U sentence-transformers
Luego puede cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar desde el 🤗 Hub
model = SentenceTransformer("AbderrahmanSkiredj1/Arabic_text_embedding_for_sts")
# Ejecutar inferencia
sentences = [
'يتم إنتاج أمثلة جميلة من المينا، والسيراميك، والفخار في وفرة كبيرة، وغالبا ما تتبع موضوع سلتيكي.',
'يتم إنتاج عدد كبير من العناصر ذات المواضيع السلتية.',
'يتم إنتاج الفخار الصغير الذي له موضوع سلتيكي.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de Sentence Transformer
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud Coseno
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento de textos