s-nlp/russian_toxicity_classifier
s-nlp
Clasificación de texto
Clasificador basado en Bert (entrenado a partir de Conversational Rubert) entrenado en una combinación del conjunto de datos de Comentarios Tóxicos en Ruso recopilados de 2ch.hk y Comentarios Tóxicos en Ruso recopilados de ok.ru. Los conjuntos de datos se combinaron, mezclaron y dividieron en conjuntos de entrenamiento, desarrollo y prueba en proporciones de 80-10-10. Las métricas obtenidas del conjunto de datos de prueba son: precisión, recall, f1-score y soporte.
Como usar
from transformers import BertTokenizer, BertForSequenceClassification
# cargar el tokenizador y los pesos del modelo
tokenizer = BertTokenizer.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')
model = BertForSequenceClassification.from_pretrained('SkolkovoInstitute/russian_toxicity_classifier')
# preparar la entrada
batch = tokenizer.encode('ты супер', return_tensors='pt')
# inferencia
model(batch)
Funcionalidades
- Clasificación de textos
- Transformers
- PyTorch
- TensorFlow
- Safetensors
- Clasificación de comentarios tóxicos en ruso
Casos de uso
- Clasificación de comentarios tóxicos en plataformas rusas
- Monitoreo de foros en ruso para contenido ofensivo
- Mejora de la moderación automatizada de contenidos en la web