deberta-v3-large_toxicity-scorer
Este modelo es el clasificador de toxicidad utilizado en el artículo Self-Detoxifying Language Models via Toxification Reversal. No usamos la API de Perspective para evaluar la toxicidad del texto recién generado debido a sus limitaciones en el rendimiento de solicitudes. En cambio, entrenamos un evaluador de toxicidad offline en 90k muestras de RTP que no se usaron para la evaluación para mejorar la eficiencia. Específicamente, ajustamos un modelo DeBERTa-v3-large (He et al., 2023) para ajustarse a las probabilidades de toxicidad de la API original minimizando la divergencia KL. Este modelo ajustado logró una precisión del 94.87% y una puntuación AUROC del 98.54% en el subconjunto de 10k reservado, lo que indica que puede estimar efectivamente la toxicidad del texto como un sustituto de la API. Con esta garantía de rendimiento de estimación precisa, el modelo tiene un rendimiento mucho mayor que la API, es decir, 27,000 muestras por segundo en comparación con típicamente 25 consultas por segundo usando la API.
Como usar
Para usar este modelo, puedes desplegarlo en los Endpoint de Inferencia dedicados.
Funcionalidades
- Clasificación de textos
- Transformers
- PyTorch
- Evaluación de toxicidad
Casos de uso
- Detección de toxicidad en textos generados
- Monitoreo de contenido de redes sociales
- Filtrado de comentarios en tiempo real