Omartificial-Intelligence-Space/Arabic-labse-Matryoshka
Omartificial-Intelligence-Space
Similitud de oraciones
Este es un modelo de transformers de oraciones ajustado a partir de sentence-transformers/LaBSE en el conjunto de datos Omartificial-Intelligence-Space/arabic-n_li-triplet. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de parafraseo, clasificación de textos, agrupamiento y más.
Como usar
from sentence_transformers import SentenceTransformer
# Descargar desde el Hugging Face Hub
model = SentenceTransformer("Omartificial-Intelligence-Space/Arabic-labse")
# Ejecutar inferencia
sentences = [
'يجلس شاب ذو شعر أشقر على الحائط يقرأ جريدة بينما تمر امرأة وفتاة شابة.',
'ذكر شاب ينظر إلى جريدة بينما تمر إمرأتان بجانبه',
'الشاب نائم بينما الأم تقود ابنتها إلى الحديقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener los puntajes de similitud para los embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Tipo de modelo: Transformer de Oraciones
- Modelo base: sentence-transformers/LaBSE
- Longitud máxima de secuencia: 256 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud de coseno
- Conjunto de datos de entrenamiento: Omartificial-Intelligence-Space/arabic-n_li-triplet
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de parafraseo
- Clasificación de textos
- Agrupamiento de textos