unitary/toxic-bert

unitary

Clasificación de texto

Clasificación de comentarios tóxicos con ⚡ Pytorch Lightning y 🤗 Transformers. Modelos entrenados y código para predecir comentarios tóxicos en tres desafíos de Jigsaw: clasificación de comentarios tóxicos, sesgo no intencionado en comentarios tóxicos, clasificación de comentarios tóxicos multilingüe. Construido por Laura Hanu en Unitary, donde trabajamos para detener contenido dañino en línea interpretando el contenido visual en contexto.

Como usar

pip install detoxify

from detoxify import Detoxify

# cada modelo toma una cadena o una lista de cadenas

results = Detoxify('original').predict('texto de ejemplo')

results = Detoxify('unbiased').predict(['texto de ejemplo 1', 'texto de ejemplo 2'])

results = Detoxify('multilingual').predict(['texto de ejemplo','exemple de texte','texto de ejemplo','testo di esempio','texto de exemplo','örnek metin','пример текста'])

# opcional para mostrar los resultados correctamente (necesitarás instalar pandas)

import pandas as pd

print(pd.DataFrame(results, index=input_text).round(5))

Funcionalidades

Clasificación de comentarios tóxicos
Sesgo no intencionado en comentarios tóxicos
Clasificación de comentarios tóxicos multilingüe
Basado en Transformers y PyTorch Lightning

Casos de uso

Detectar diferentes tipos de toxicidad como amenazas, obscenidades, insultos y odio basado en identidad.
Reconocer toxicidad y minimizar el sesgo no intencionado con respecto a menciones de identidades.
Construir modelos multilingües efectivos para la clasificación de comentarios tóxicos.