s-nlp / roberta_toxicity_classifier
s-nlp
Clasificación de texto
Este modelo está entrenado para la tarea de clasificación de toxicidad. El conjunto de datos utilizado para el entrenamiento es la fusión de las partes en inglés de los tres conjuntos de datos de Jigsaw (Jigsaw 2018, Jigsaw 2019, Jigsaw 2020), que contiene alrededor de 2 millones de ejemplos. Lo dividimos en dos partes y ajustamos un modelo RoBERTa (RoBERTa: Un Enfoque de Preentrenamiento de BERT Robustamente Optimizado) en él. Los clasificadores tienen un rendimiento cercano en el conjunto de prueba de la primera competencia de Jigsaw, alcanzando un AUC-ROC de 0.98 y un puntaje F1 de 0.76.
Como usar
import torch
from transformers import RobertaTokenizer, RobertaForSequenceClassification
tokenizer = RobertaTokenizer.from_pretrained('s-nlp/roberta_toxicity_classifier')
model = RobertaForSequenceClassification.from_pretrained('s-nlp/roberta_toxicity_classifier')
batch = tokenizer.encode("You are amazing!", return_tensors="pt")
output = model(batch)
predicted_label = torch.sigmoid(output.logits).argmax().item()
# 0 para neutral, 1 para tóxico
Funcionalidades
- Clasificación de textos
- Transformers
- PyTorch
- Compatibilidad con AutoTrain
- Compatibilidad con Puntos de Inferencia
Casos de uso
- Clasificación de comentarios tóxicos