Arabert All NLI Triplet Matryoshka
Omartificial-Intelligence-Space
Similitud de oraciones
Este es un modelo de transformers de oración ajustado a partir de aubmindlab/bert-base-arabertv02 en el conjunto de datos Omartificial-Intelligence-Space/arabic-n_li-triplet. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para la similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de texto, agrupamiento y más.
Como usar
Uso directo (Transformers de Oraciones)
# Primero instala la biblioteca de Sentence Transformers:
pip install -U sentence-transformers
# Luego puedes cargar este modelo y ejecutar la inferencia.
from sentence_transformers import SentenceTransformer
# Descargar del Hub de 🤗
model = SentenceTransformer("Omartificial-Intelligence-Space/Arabic-arabert-all-nli-triplet")
# Ejecutar inferencia
sentences = [
'يجلس شاب ذو شعر أشقر على الحائط يقرأ جريدة بينما تمر امرأة وفتاة شابة.',
'ذكر شاب ينظر إلى جريدة بينما تمر إمرأتان بجانبه',
'الشاب نائم بينما الأم تقود ابنتها إلى الحديقة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Funcionalidades
- Modelo de Transformer de Oración
- Modelo base: aubmindlab/bert-base-arabertv02
- Longitud máxima de secuencia: 512 tokens
- Dimensionalidad de salida: 768 tokens
- Función de similitud: Similitud Coseno
- Capaz de realizar extracción de características
Casos de uso
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de texto
- Agrupamiento