Arabic-MiniLM-L12-v2-all-nli-triplet por Omartificial-Intelligence-Space
Omartificial-Intelligence-Space
Similitud de oraciones
Esta es una versión ajustada del modelo sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 entrenada en el conjunto de datos Omartificial-Intelligence-Space/arabic-n_li-triplet. El modelo mapea oraciones y párrafos a un espacio de vectores denso de 384 dimensiones y puede usarse para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.
Como usar
from sentence_transformers import SentenceTransformer
# Descargar desde el Hub de Hugging Face
model = SentenceTransformer("Omartificial-Intelligence-Space/MiniLM-L12-v2-all-nli-triplet")
# Ejecutar inferencia
oraciones = [
'يجلس شاب ذو شعر أشقر على الحائط يقرأ جريدة بينما تمر امرأة وفتاة شابة.',
'ذكر شاب ينظر إلى جريدة بينما تمر إمرأتان بجانبه',
'الشاب نائم بينما الأم تقود ابنتها إلى الحديقة',
]
embeddings = model.encode(oraciones)
print(embeddings.shape) # [3, 384]
# Obtener los puntajes de similitud para las embeddings
similaridades = model.similarity(embeddings, embeddings)
print(similaridades.shape) # [3, 3]
Funcionalidades
- Modelo basado en 'sentence-transformers'
- Longitud máxima de secuencia: 128 tokens
- Dimensionalidad de salida: 384 dimensiones
- Función de similitud: Similitud de Coseno
- Entrenado en el conjunto de datos Omartificial-Intelligence-Space/arabic-n_li-triplet
- Ajustado con MatryoshkaLoss y MultipleNegativesRankingLoss
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento de textos