Sentence-ALDi
AMR-KELEG
Clasificación de texto
Un modelo basado en BERT ajustado para estimar el nivel de dialecto árabe de un texto. Este modelo utiliza una cabeza de regresión sobre un modelo BERT para proporcionar una evaluación contínua del dialecto árabe en oraciones.
Como usar
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "AMR-KELEG/Sentence-ALDi"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
def compute_score(sentence):
inputs = tokenizer(sentence, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
return min(max(0, logits[0][0].item()), 1)
if __name__ == "__main__":
s1 = "الطقس جيد اليوم"
s2 = "الجو حلو النهاردة"
print(s1, round(compute_score(s1), 3)) # 0
print(s2, round(compute_score(s2), 3)) # 0.951
Funcionalidades
- Clasificación de texto
- Transformadores
- PyTorch
- Modelo basado en BERT
- Evaluación continua del dialecto árabe
Casos de uso
- Evaluar el nivel de dialecto en textos árabes.
- Análisis sociolingüístico de textos en árabe.
- Identificación de niveles de dialecto en varios corpus.
- Análisis de elecciones estilísticas de hablantes árabes en diferentes situaciones.