s-nlp / roberta_toxicity_classifier

s-nlp

Clasificación de texto

Este modelo está entrenado para la tarea de clasificación de toxicidad. El conjunto de datos utilizado para el entrenamiento es la fusión de las partes en inglés de los tres conjuntos de datos de Jigsaw (Jigsaw 2018, Jigsaw 2019, Jigsaw 2020), que contiene alrededor de 2 millones de ejemplos. Lo dividimos en dos partes y ajustamos un modelo RoBERTa (RoBERTa: Un Enfoque de Preentrenamiento de BERT Robustamente Optimizado) en él. Los clasificadores tienen un rendimiento cercano en el conjunto de prueba de la primera competencia de Jigsaw, alcanzando un AUC-ROC de 0.98 y un puntaje F1 de 0.76.

Como usar

import torch
from transformers import RobertaTokenizer, RobertaForSequenceClassification

tokenizer = RobertaTokenizer.from_pretrained('s-nlp/roberta_toxicity_classifier')
model = RobertaForSequenceClassification.from_pretrained('s-nlp/roberta_toxicity_classifier')

batch = tokenizer.encode("You are amazing!", return_tensors="pt")

output = model(batch)
predicted_label = torch.sigmoid(output.logits).argmax().item()
# 0 para neutral, 1 para tóxico

Funcionalidades

Clasificación de textos
Transformers
PyTorch
Compatibilidad con AutoTrain
Compatibilidad con Puntos de Inferencia

Casos de uso

Clasificación de comentarios tóxicos