CAMeLBERT-MSA DID MADAR Twitter-5 Model

CAMeL-Lab

Clasificación de texto

CAMeLBERT-MSA DID MADAR Twitter-5 Model es un modelo de identificación de dialectos (DID) que se construyó afinando el modelo CAMeLBERT-MSA. Para el ajuste fino, utilizamos el conjunto de datos MADAR Twitter-5, que incluye 21 etiquetas. Nuestro procedimiento de ajuste fino y los hiperparámetros que usamos se pueden encontrar en nuestro documento 'The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models.' Nuestro código de ajuste fino se puede encontrar aquí.

Como usar

Para usar el modelo con una pipeline de transformadores:
from transformers import pipeline
did = pipeline('text-classification', model='CAMeL-Lab/bert-base-arabic-camelbert-msa-did-madar-twitter5')
sentences = ['عامل ايه ؟', 'شلونك ؟ شخبارك ؟']
did(sentences)
[{'label': 'Egypt', 'score': 0.5741344094276428},
{'label': 'Kuwait', 'score': 0.5225679278373718}]

Nota: para descargar nuestros modelos, necesitarías transformers>=3.5.0. De lo contrario, podrías descargar los modelos manualmente.

Funcionalidades

Clasificación de texto
Transformadores
PyTorch
TensorFlow

Casos de uso

Identificación de dialectos árabes
Clasificación de texto para comprender la procedencia dialectal de los usuarios de Twitter