unitary/multilingual-toxic-xlm-roberta

unitary

Clasificación de texto

Modelos y código entrenados para predecir comentarios tóxicos en 3 desafíos de Jigsaw: clasificación de comentarios tóxicos, sesgo no intencionado en comentarios tóxicos y clasificación de comentarios tóxicos multilingües. Construido por Laura Hanu en Unitary, donde trabajamos para detener el contenido dañino en línea interpretando contenido visual en contexto.

Como usar

# instalar detoxify
pip install detoxify

from detoxify import Detoxify

# cada modelo toma una cadena o una lista de cadenas

results = Detoxify('original').predict('example text')

results = Detoxify('unbiased').predict(['example text 1','example text 2'])

results = Detoxify('multilingual').predict(['example text','exemple de texte','texto de ejemplo','testo di esempio','texto de exemplo','örnek metin','пример текста'])

# opcional para mostrar resultados de manera agradable (necesitará instalar pandas)
import pandas as pd

print(pd.DataFrame(results, index=input_text).round(5))

Para más detalles, consulte la sección Predicción.
# cargar modelo a través de torch.hub
python run_prediction.py --input 'example' --model_name original

# cargar modelo desde la ruta de punto de control
python run_prediction.py --input 'example' --from_ckpt_path model_path

# guardar resultados en un archivo .csv
python run_prediction.py --input test_set.txt --model_name original --save_to results.csv

# ver uso
python run_prediction.py --help

Funcionalidades

Clasificación de comentarios tóxicos en múltiples idiomas
Reconocimiento de diferentes tipos de toxicidad como amenazas, obscenidades, insultos y odio basado en identidad
Minimización del sesgo no intencionado respecto a menciones de identidades
Entrenamiento en 7 idiomas diferentes
Compatibilidad con Transformers y PyTorch Lighting

Casos de uso

Detección de comentarios tóxicos en plataformas de medios sociales
Moderación de contenido online para detectar y eliminar comentarios dañinos
Investigación sobre sesgo no intencionado en herramientas de detección de comentarios tóxicos