cointegrated/rubert-tiny-toxicity

cointegrated

Clasificación de texto

Este es el modelo cointegrated/rubert-tiny ajustado para la clasificación de toxicidad e inapropiadez en textos informales cortos en ruso, como comentarios en redes sociales. El problema se formula como una clasificación multietiqueta con las siguientes clases: no tóxico, insulto, obscenidad, amenaza y peligroso. Un texto se considera seguro si es tanto no tóxico como no peligroso.

Como usar

La función a continuación estima la probabilidad de que el texto sea tóxico O peligroso:
# !pip install transformers sentencepiece --quiet
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_checkpoint = 'cointegrated/rubert-tiny-toxicity'
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
if torch.cuda.is_available():
  model.cuda()

def text2toxicity(text, aggregate=True):
  """ Calcular la toxicidad de un texto (si aggregate=True) o un vector de aspectos de toxicidad (si aggregate=False)"""
  with torch.no_grad():
    inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True).to(model.device)
    proba = torch.sigmoid(model(**inputs).logits).cpu().numpy()
    if isinstance(text, str):
      proba = proba[0]
    if aggregate:
      return 1 - proba.T[0] * (1 - proba.T[-1])
    return proba

print(text2toxicity('я люблю нигеров', True))
# 0.9350118728093193

print(text2toxicity('я люблю нигеров', False))
# [0.9715758  0.0180863  0.0045551  0.00189755 0.9331106 ]

print(text2toxicity(['я люблю нигеров', 'я люблю африканцев'], True))
# [0.93501186 0.04156357]

print(text2toxicity(['я люблю нигеров', 'я люблю африканцев'], False))
# [[9.7157580e-01 1.8086294e-02 4.5550885e-03 1.8975559e-03 9.3311059e-01]
#  [9.9979788e-01 1.9048342e-04 1.5297388e-04 1.7452303e-04 4.1369814e-02]]

Funcionalidades

Clasificación de toxicidad e inapropiadez en textos rusos informales
Modelo finamente ajustado
Clasificación multietiqueta con cinco categorías: no tóxico, insulto, obscenidad, amenaza y peligroso
Entrenado en un dataset combinado de OK ML Cup y Babakov et.al.
Se utilizó el optimizador Adam, tasa de aprendizaje de 1e-5, y un tamaño de lote de 64 durante 15 épocas

Casos de uso

Clasificación de comentarios en redes sociales para detectar toxicidad e inapropiadez
Moderación automática de plataformas en línea para eliminar contenido dañino o ofensivo
Análisis de discurso para determinar la reputación potencialmente dañina de publicaciones