Aimlab/xlm-roberta-base-finetuned-urdu

Aimlab

Clasificación de texto

Este modelo de clasificación de texto xlm-roberta-base entrenado en un conjunto de datos de sentimientos en urdu realiza una clasificación binaria de sentimientos en cualquier oración dada en urdu. El modelo ha sido ajustado para obtener mejores resultados en tiempos manejables. XLM-RoBERTa es un codificador de oraciones cruzado a gran escala. Está entrenado en 2.5T de datos en 100 idiomas filtrados de Common Crawl. XLM-R logra resultados de vanguardia en múltiples benchmarks multilingües. El modelo XLM-RoBERTa fue propuesto en 'Unsupervised Cross-lingual Representation Learning at Scale' por Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer y Veselin Stoyanov. Está basado en el modelo RoBERTa de Facebook lanzado en 2019. Es un modelo de lenguaje multilingüe grande, entrenado en 2.5TB de datos filtrados de CommonCrawl.

Como usar

Puedes importar este modelo directamente desde la librería transformers:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("Aimlab/xlm-roberta-base-finetuned-urdu")
model = AutoModelForSequenceClassification.from_pretrained("Aimlab/xlm-roberta-base-finetuned-urdu", id2label = {0: 'negative', 1: 'positive'})

Aquí está cómo usar este modelo para obtener la etiqueta de un texto dado:

from transformers import TextClassificationPipeline
text = "وہ ایک برا شخص ہے"
pipe = TextClassificationPipeline(model = model, tokenizer = tokenizer, top_k = 2, device = 0)
pipe(text)

Resultado:
[{'label': 'negative', 'score': 0.9987003803253174},
{'label': 'positive', 'score': 0.001299630501307547}]

Funcionalidades

Clasificación de texto
Transformers
PyTorch
Compatible con AutoTrain
Compatible con Endpoints de inferencia
Licencia: AFL-3.0
Región: EE.UU.

Casos de uso

Clasificación de sentimientos en urdu
Aplicaciones de análisis de texto
Mejora en la comprensión y generación de lenguaje natural en urdu