apanc/russian-inappropriate-messages
El 'contenido inapropiado' que intentamos recopilar en el conjunto de datos y detectar con el modelo NO es un sustituto de la toxicidad, sino más bien un derivado de la toxicidad. Por lo tanto, el modelo basado en nuestro conjunto de datos podría servir como una capa adicional de filtrado de inadecuación después de la filtración de toxicidad y obscenidades. Puede detectar el tema sensible exacto utilizando otro modelo. Este modelo está entrenado en un conjunto de datos de mensajes inapropiados en el idioma ruso. Generalmente, una expresión inapropiada es una que no contiene palabras obscenas ni ningún tipo de intención tóxica, pero que aún puede dañar la reputación del emisor. El modelo fue entrenado, validado y probado solo en las muestras con 100% de confianza, lo que permitió obtener las siguientes métricas en el conjunto de prueba: precisión, recall, f1-score y soporte.
Como usar
El modelo basado en nuestro conjunto de datos podría servir como una capa adicional de filtrado de inadecuación después de la filtración de toxicidad y obscenidades. Puede detectar el tema sensible exacto utilizando otro modelo. También puede entrenar un clasificador para la detección conjunta de toxicidad e inadecuación. Los datos para mezclar con muestras etiquetadas como tóxicas se pueden encontrar en nuestro GitHub o en Kaggle.
Funcionalidades
- Clasificación de texto
- Modelo basado en Transformers
- Utiliza PyTorch, TensorFlow y JAX
- Detecta mensajes inapropiados en idioma ruso
Casos de uso
- Filtrado adicional de inadecuación después de la filtración de toxicidad y obscenidades
- Detección de mensajes inapropiados que pueden dañar la reputación del emisor
- Uso en sistemas de moderación de contenido para plataformas de medios sociales