GATE-AraBert-v1

Omartificial-Intelligence-Space
Similitud de oraciones

Este es un Embedding de Texto General en Árabe entrenado usando SentenceTransformers en una configuración de tareas múltiples. El sistema se entrena en los conjuntos de datos AllNLI y STS.

Como usar

Uso Directo (Sentence Transformers)

Primero instala la biblioteca Sentence Transformers:

pip install -U sentence-transformers

Luego puedes cargar este modelo y ejecutar inferencias.

from sentence_transformers import SentenceTransformer

# Descargar desde el 🤗 Hub
model = SentenceTransformer("Omartificial-Intelligence-Space/GATE-AraBert-v1")
# Ejecutar inferencia
sentences = [
'الكلب البني مستلقي على جانبه على سجادة بيج، مع جسم أخضر في المقدمة.',
'لقد مات الكلب',
'شخص طويل القامة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Obtener las puntuaciones de similitud para las incrustaciones
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Funcionalidades

Tipo de Modelo: Sentence Transformer
Modelo base: Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2
Longitud Máxima de Secuencia: 512 tokens
Dimensionalidad de la Salida: 768 tokens
Función de Similitud: Similitud de Coseno
Conjuntos de Datos de Entrenamiento: all-nli, sts

Casos de uso

Similaridad de Frases
Extracción de Características de Texto en Árabe
Clasificación de Pares NLI en Árabe