Genius1237/xlm-roberta-large-tydip
Genius1237
Clasificación de texto
Este modelo se basa en xlm-roberta-large y está afinado en el subconjunto en inglés del conjunto de datos TyDiP, como se discutió en el documento original. En el documento, este modelo se evaluó en inglés y 9 idiomas (hindi, coreano, español, tamil, francés, vietnamita, ruso, afrikáans, húngaro). Dada la buena performance del modelo y las habilidades interlingüísticas de XLMR, es probable que este modelo afinado pueda utilizarse para más idiomas también.
Como usar
Puedes usar este modelo directamente con una tubería de clasificación de textos
from transformers import pipeline
classifier = pipeline(task="text-classification", model="Genius1237/xlm-roberta-large-tydip")
sentences = ["Could you please get me a glass of water", "mere liye पानी का एक गिलास ले आओ "]
print(classifier(sentences))
# [{'label': 'polite', 'score': 0.9076159000396729}, {'label': 'impolite', 'score': 0.765066385269165}]
Más uso avanzado
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained('Genius1237/xlm-roberta-large-tydip')
model = AutoModelForSequenceClassification.from_pretrained('Genius1237/xlm-roberta-large-tydip')
text = "Could you please get me a glass of water"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
prediction = torch.argmax(output.logits).item()
print(model.config.id2label[prediction])
# polite
Funcionalidades
- Clasificación de textos
- Basado en xlm-roberta-large
- Afinado en el subconjunto inglés del conjunto de datos TyDiP
- Etiquetado con más de 10 idiomas
- Compatible con AutoTrain
- Compatible con puntos finales de inferencia
- Licencia MIT
- Usa bibliotecas Transformers y PyTorch
- Utiliza Safetensors para almacenamiento de parámetros
Casos de uso
- Clasificación de textos en múltiples idiomas
- Clasificación de etiquetas de cortesía o descortesía en oraciones
- Investigación sobre fenómenos de cortesía en idiomas diversos
- Construcción de agentes multilingües corteses