RuBERT-Toxic

sismetanin
Clasificación de texto

RuBERT-Toxic es un modelo RuBERT ajustado con el conjunto de datos de comentarios tóxicos en idioma ruso de Kaggle. Se usa para la clasificación de comentarios tóxicos. Este modelo ha demostrado ser el mejor en términos de puntuación F1 con un 92.20%.

Como usar

Para usar este modelo, puedes encontrar implementaciones detalladas en GitHub o en el artículo mencionado. Aquí hay un ejemplo de código en Markdown:

# Cargar el modelo RuBERT-Toxic
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "sismetanin/rubert-toxic-pikabu-2ch"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Ejemplo de tokenización y clasificación
text = "Tu comentario aquí"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

Funcionalidades

Clasificación de comentarios tóxicos
Ajustado con el conjunto de datos de comentarios tóxicos en idioma ruso de Kaggle
Mejor rendimiento en comparación con otros modelos mencionados

Casos de uso

Detección de comentarios tóxicos en foros y redes sociales
Filtrado de contenido dañino en plataformas de comunicación