apanc/russian-sensitive-topics

apanc

Clasificación de texto

Este modelo está entrenado en un conjunto de datos de temas delicados en idioma ruso. El concepto de temas delicados se describe en este artículo presentado en el taller de Procesamiento del Lenguaje Natural Balto-Eslavo en la conferencia EACL-2021. Tenga en cuenta que este artículo describe la primera versión del conjunto de datos, mientras que el modelo está entrenado en la versión extendida del conjunto de datos, de código abierto en nuestro GitHub o en Kaggle. Las propiedades del conjunto de datos son las mismas que las descritas en el artículo, la única diferencia es el tamaño.

Como usar

El modelo predice combinaciones de 18 temas delicados descritos en el artículo. Puede encontrar instrucciones paso a paso para usar el modelo aquí. Puede usar el modelo para predecir combinaciones de estos temas delicados en nuevos textos.

Funcionalidades

Clasificación de texto
Transformadores
PyTorch
TensorFlow
JAX
Clasificación de comentarios tóxicos

Casos de uso

Detección de mensajes inapropiados en temas sensibles que podrían dañar la reputación de una empresa.
Clasificación de texto en temas sensibles en ruso.
Identificación de contenido tóxico y/o inapropiado relacionado con ciertos temas sensibles.