cointegrated/rubert-tiny-toxicity
cointegrated
Clasificación de texto
Este es el modelo cointegrated/rubert-tiny ajustado para la clasificación de toxicidad e inapropiadez en textos informales cortos en ruso, como comentarios en redes sociales. El problema se formula como una clasificación multietiqueta con las siguientes clases: no tóxico, insulto, obscenidad, amenaza y peligroso. Un texto se considera seguro si es tanto no tóxico como no peligroso.
Como usar
La función a continuación estima la probabilidad de que el texto sea tóxico O peligroso:
# !pip install transformers sentencepiece --quiet
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_checkpoint = 'cointegrated/rubert-tiny-toxicity'
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForSequenceClassification.from_pretrained(model_checkpoint)
if torch.cuda.is_available():
model.cuda()
def text2toxicity(text, aggregate=True):
""" Calcular la toxicidad de un texto (si aggregate=True) o un vector de aspectos de toxicidad (si aggregate=False)"""
with torch.no_grad():
inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True).to(model.device)
proba = torch.sigmoid(model(**inputs).logits).cpu().numpy()
if isinstance(text, str):
proba = proba[0]
if aggregate:
return 1 - proba.T[0] * (1 - proba.T[-1])
return proba
print(text2toxicity('я люблю нигеров', True))
# 0.9350118728093193
print(text2toxicity('я люблю нигеров', False))
# [0.9715758 0.0180863 0.0045551 0.00189755 0.9331106 ]
print(text2toxicity(['я люблю нигеров', 'я люблю африканцев'], True))
# [0.93501186 0.04156357]
print(text2toxicity(['я люблю нигеров', 'я люблю африканцев'], False))
# [[9.7157580e-01 1.8086294e-02 4.5550885e-03 1.8975559e-03 9.3311059e-01]
# [9.9979788e-01 1.9048342e-04 1.5297388e-04 1.7452303e-04 4.1369814e-02]]
Funcionalidades
- Clasificación de toxicidad e inapropiadez en textos rusos informales
- Modelo finamente ajustado
- Clasificación multietiqueta con cinco categorías: no tóxico, insulto, obscenidad, amenaza y peligroso
- Entrenado en un dataset combinado de OK ML Cup y Babakov et.al.
- Se utilizó el optimizador Adam, tasa de aprendizaje de 1e-5, y un tamaño de lote de 64 durante 15 épocas
Casos de uso
- Clasificación de comentarios en redes sociales para detectar toxicidad e inapropiadez
- Moderación automática de plataformas en línea para eliminar contenido dañino o ofensivo
- Análisis de discurso para determinar la reputación potencialmente dañina de publicaciones