apanc/russian-inappropriate-messages

apanc

Clasificación de texto

El 'contenido inapropiado' que intentamos recopilar en el conjunto de datos y detectar con el modelo NO es un sustituto de la toxicidad, sino más bien un derivado de la toxicidad. Por lo tanto, el modelo basado en nuestro conjunto de datos podría servir como una capa adicional de filtrado de inadecuación después de la filtración de toxicidad y obscenidades. Puede detectar el tema sensible exacto utilizando otro modelo. Este modelo está entrenado en un conjunto de datos de mensajes inapropiados en el idioma ruso. Generalmente, una expresión inapropiada es una que no contiene palabras obscenas ni ningún tipo de intención tóxica, pero que aún puede dañar la reputación del emisor. El modelo fue entrenado, validado y probado solo en las muestras con 100% de confianza, lo que permitió obtener las siguientes métricas en el conjunto de prueba: precisión, recall, f1-score y soporte.

Como usar

El modelo basado en nuestro conjunto de datos podría servir como una capa adicional de filtrado de inadecuación después de la filtración de toxicidad y obscenidades. Puede detectar el tema sensible exacto utilizando otro modelo. También puede entrenar un clasificador para la detección conjunta de toxicidad e inadecuación. Los datos para mezclar con muestras etiquetadas como tóxicas se pueden encontrar en nuestro GitHub o en Kaggle.

Funcionalidades

Clasificación de texto
Modelo basado en Transformers
Utiliza PyTorch, TensorFlow y JAX
Detecta mensajes inapropiados en idioma ruso

Casos de uso

Filtrado adicional de inadecuación después de la filtración de toxicidad y obscenidades
Detección de mensajes inapropiados que pueden dañar la reputación del emisor
Uso en sistemas de moderación de contenido para plataformas de medios sociales