deberta-v3-large_toxicity-scorer

cooperleong00

Clasificación de texto

Este modelo es el clasificador de toxicidad utilizado en el artículo Self-Detoxifying Language Models via Toxification Reversal. No usamos la API de Perspective para evaluar la toxicidad del texto recién generado debido a sus limitaciones en el rendimiento de solicitudes. En cambio, entrenamos un evaluador de toxicidad offline en 90k muestras de RTP que no se usaron para la evaluación para mejorar la eficiencia. Específicamente, ajustamos un modelo DeBERTa-v3-large (He et al., 2023) para ajustarse a las probabilidades de toxicidad de la API original minimizando la divergencia KL. Este modelo ajustado logró una precisión del 94.87% y una puntuación AUROC del 98.54% en el subconjunto de 10k reservado, lo que indica que puede estimar efectivamente la toxicidad del texto como un sustituto de la API. Con esta garantía de rendimiento de estimación precisa, el modelo tiene un rendimiento mucho mayor que la API, es decir, 27,000 muestras por segundo en comparación con típicamente 25 consultas por segundo usando la API.

Como usar

Para usar este modelo, puedes desplegarlo en los Endpoint de Inferencia dedicados.

Funcionalidades

Clasificación de textos
Transformers
PyTorch
Evaluación de toxicidad

Casos de uso

Detección de toxicidad en textos generados
Monitoreo de contenido de redes sociales
Filtrado de comentarios en tiempo real