unitary/multilingual-toxic-xlm-roberta
unitary
Clasificación de texto
Modelos y código entrenados para predecir comentarios tóxicos en 3 desafíos de Jigsaw: clasificación de comentarios tóxicos, sesgo no intencionado en comentarios tóxicos y clasificación de comentarios tóxicos multilingües. Construido por Laura Hanu en Unitary, donde trabajamos para detener el contenido dañino en línea interpretando contenido visual en contexto.
Como usar
# instalar detoxify
pip install detoxify
from detoxify import Detoxify
# cada modelo toma una cadena o una lista de cadenas
results = Detoxify('original').predict('example text')
results = Detoxify('unbiased').predict(['example text 1','example text 2'])
results = Detoxify('multilingual').predict(['example text','exemple de texte','texto de ejemplo','testo di esempio','texto de exemplo','örnek metin','пример текста'])
# opcional para mostrar resultados de manera agradable (necesitará instalar pandas)
import pandas as pd
print(pd.DataFrame(results, index=input_text).round(5))
Para más detalles, consulte la sección Predicción.
# cargar modelo a través de torch.hub
python run_prediction.py --input 'example' --model_name original
# cargar modelo desde la ruta de punto de control
python run_prediction.py --input 'example' --from_ckpt_path model_path
# guardar resultados en un archivo .csv
python run_prediction.py --input test_set.txt --model_name original --save_to results.csv
# ver uso
python run_prediction.py --help
Funcionalidades
- Clasificación de comentarios tóxicos en múltiples idiomas
- Reconocimiento de diferentes tipos de toxicidad como amenazas, obscenidades, insultos y odio basado en identidad
- Minimización del sesgo no intencionado respecto a menciones de identidades
- Entrenamiento en 7 idiomas diferentes
- Compatibilidad con Transformers y PyTorch Lighting
Casos de uso
- Detección de comentarios tóxicos en plataformas de medios sociales
- Moderación de contenido online para detectar y eliminar comentarios dañinos
- Investigación sobre sesgo no intencionado en herramientas de detección de comentarios tóxicos