Genius1237/xlm-roberta-large-tydip

Genius1237

Clasificación de texto

Este modelo se basa en xlm-roberta-large y está afinado en el subconjunto en inglés del conjunto de datos TyDiP, como se discutió en el documento original. En el documento, este modelo se evaluó en inglés y 9 idiomas (hindi, coreano, español, tamil, francés, vietnamita, ruso, afrikáans, húngaro). Dada la buena performance del modelo y las habilidades interlingüísticas de XLMR, es probable que este modelo afinado pueda utilizarse para más idiomas también.

Como usar

Puedes usar este modelo directamente con una tubería de clasificación de textos
from transformers import pipeline

classifier = pipeline(task="text-classification", model="Genius1237/xlm-roberta-large-tydip")

sentences = ["Could you please get me a glass of water", "mere liye पानी का एक गिलास ले आओ "]

print(classifier(sentences))
# [{'label': 'polite', 'score': 0.9076159000396729}, {'label': 'impolite', 'score': 0.765066385269165}]

Más uso avanzado
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

tokenizer = AutoTokenizer.from_pretrained('Genius1237/xlm-roberta-large-tydip')
model = AutoModelForSequenceClassification.from_pretrained('Genius1237/xlm-roberta-large-tydip')

text = "Could you please get me a glass of water"
encoded_input = tokenizer(text, return_tensors='pt')

output = model(**encoded_input)
prediction = torch.argmax(output.logits).item()

print(model.config.id2label[prediction])
# polite

Funcionalidades

Clasificación de textos
Basado en xlm-roberta-large
Afinado en el subconjunto inglés del conjunto de datos TyDiP
Etiquetado con más de 10 idiomas
Compatible con AutoTrain
Compatible con puntos finales de inferencia
Licencia MIT
Usa bibliotecas Transformers y PyTorch
Utiliza Safetensors para almacenamiento de parámetros

Casos de uso

Clasificación de textos en múltiples idiomas
Clasificación de etiquetas de cortesía o descortesía en oraciones
Investigación sobre fenómenos de cortesía en idiomas diversos
Construcción de agentes multilingües corteses