Arabic-Triplet-Matryoshka-V2
Omartificial-Intelligence-Space
Similitud de oraciones
Este es un modelo de sentence-transformers afinado a partir de aubmindlab/bert-base-arabertv02. Mapea oraciones y párrafos a un espacio vectorial denso de 768 dimensiones y puede ser utilizado para similitud textual semántica, búsqueda semántica, minería de paráfrasis, clasificación de textos, agrupamiento y más. Este modelo está entrenado en 1 millón de muestras del conjunto de datos akhooli/arabic-triplets-1m-curated-sims-len. Entrenado durante 3 épocas, con una pérdida de entrenamiento final de 0.718 (utilizando MatryoshkaLoss).
Como usar
Modo de uso del modelo:
import sentence_transformers
model = sentence_transformers.SentenceTransformer('Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2')
embeddings1 = model.encode('Ejemplo de oración en árabe.')
embeddings2 = model.encode('Otra oración en árabe.')
similarity = sentence_transformers.util.cos_sim(embeddings1, embeddings2)
print(similarity)
Funcionalidades
- Similitud textual semántica
- Búsqueda semántica
- Minería de paráfrasis
- Clasificación de textos
- Agrupamiento
Casos de uso
- Similitud textual semántica en aplicaciones de procesamiento del lenguaje natural en árabe.
- Búsqueda semántica avanzada en bases de datos de textos en árabe.
- Minería de paráfrasis en textos árabes para encontrar y agrupar oraciones similares.
- Clasificación de textos para categorizar oraciones y párrafos en árabe.
- Clustering de textos para agrupar documentos similares en árabe.