CAMeLBERT-MSA DID MADAR Twitter-5 Model
CAMeL-Lab
Clasificación de texto
CAMeLBERT-MSA DID MADAR Twitter-5 Model es un modelo de identificación de dialectos (DID) que se construyó afinando el modelo CAMeLBERT-MSA. Para el ajuste fino, utilizamos el conjunto de datos MADAR Twitter-5, que incluye 21 etiquetas. Nuestro procedimiento de ajuste fino y los hiperparámetros que usamos se pueden encontrar en nuestro documento 'The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models.' Nuestro código de ajuste fino se puede encontrar aquí.
Como usar
Para usar el modelo con una pipeline de transformadores:
from transformers import pipeline
did = pipeline('text-classification', model='CAMeL-Lab/bert-base-arabic-camelbert-msa-did-madar-twitter5')
sentences = ['عامل ايه ؟', 'شلونك ؟ شخبارك ؟']
did(sentences)
[{'label': 'Egypt', 'score': 0.5741344094276428},
{'label': 'Kuwait', 'score': 0.5225679278373718}]
Nota: para descargar nuestros modelos, necesitarías transformers>=3.5.0. De lo contrario, podrías descargar los modelos manualmente.
Funcionalidades
- Clasificación de texto
- Transformadores
- PyTorch
- TensorFlow
Casos de uso
- Identificación de dialectos árabes
- Clasificación de texto para comprender la procedencia dialectal de los usuarios de Twitter