s-nlp/russian_toxicity_classifier

s-nlp
Clasificación de texto

Clasificador basado en Bert (entrenado a partir de Conversational Rubert) entrenado en una combinación del conjunto de datos de Comentarios Tóxicos en Ruso recopilados de 2ch.hk y Comentarios Tóxicos en Ruso recopilados de ok.ru. Los conjuntos de datos se combinaron, mezclaron y dividieron en conjuntos de entrenamiento, desarrollo y prueba en proporciones de 80-10-10. Las métricas obtenidas del conjunto de datos de prueba son: precisión, recall, f1-score y soporte.

Como usar

from transformers import BertTokenizer, BertForSequenceClassification

# cargar el tokenizador y los pesos del modelo
tokenizer = BertTokenizer.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')
model = BertForSequenceClassification.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')

# preparar la entrada
batch = tokenizer.encode('ты супер', return_tensors='pt')

# inferencia
model(batch)

Funcionalidades

Clasificación de textos
Transformers
PyTorch
TensorFlow
Safetensors
Clasificación de comentarios tóxicos en ruso

Casos de uso

Clasificación de comentarios tóxicos en plataformas rusas
Monitoreo de foros en ruso para contenido ofensivo
Mejora de la moderación automatizada de contenidos en la web