RuBERT-Toxic
sismetanin
Clasificación de texto
RuBERT-Toxic es un modelo RuBERT ajustado con el conjunto de datos de comentarios tóxicos en idioma ruso de Kaggle. Se usa para la clasificación de comentarios tóxicos. Este modelo ha demostrado ser el mejor en términos de puntuación F1 con un 92.20%.
Como usar
Para usar este modelo, puedes encontrar implementaciones detalladas en GitHub o en el artículo mencionado. Aquí hay un ejemplo de código en Markdown:
# Cargar el modelo RuBERT-Toxic
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "sismetanin/rubert-toxic-pikabu-2ch"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
# Ejemplo de tokenización y clasificación
text = "Tu comentario aquí"
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
Funcionalidades
- Clasificación de comentarios tóxicos
- Ajustado con el conjunto de datos de comentarios tóxicos en idioma ruso de Kaggle
- Mejor rendimiento en comparación con otros modelos mencionados
Casos de uso
- Detección de comentarios tóxicos en foros y redes sociales
- Filtrado de contenido dañino en plataformas de comunicación