Sentence-ALDi

AMR-KELEG

Clasificación de texto

Un modelo basado en BERT ajustado para estimar el nivel de dialecto árabe de un texto. Este modelo utiliza una cabeza de regresión sobre un modelo BERT para proporcionar una evaluación contínua del dialecto árabe en oraciones.

Como usar

from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "AMR-KELEG/Sentence-ALDi"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

def compute_score(sentence):
    inputs = tokenizer(sentence, return_tensors="pt")
    outputs = model(**inputs)
    logits = outputs.logits
    return min(max(0, logits[0][0].item()), 1)

if __name__ == "__main__":
    s1 = "الطقس جيد اليوم"
    s2 = "الجو حلو النهاردة"
    print(s1, round(compute_score(s1), 3)) # 0
    print(s2, round(compute_score(s2), 3)) # 0.951

Funcionalidades

Clasificación de texto
Transformadores
PyTorch
Modelo basado en BERT
Evaluación continua del dialecto árabe

Casos de uso

Evaluar el nivel de dialecto en textos árabes.
Análisis sociolingüístico de textos en árabe.
Identificación de niveles de dialecto en varios corpus.
Análisis de elecciones estilísticas de hablantes árabes en diferentes situaciones.