EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus
Este modelo fue entrenado para la clasificación de toxicidad multilingüe. Label_1 significa TÓXICO, Label_0 significa NO TÓXICO. El modelo fue ajustado a partir del modelo xlm_roberta_base para 4 idiomas: EN, RU, FR, DE. La precisión de validación es del 92%. El modelo fue ajustado con un total de 100933k oraciones. Los datos de entrenamiento para inglés y ruso provienen de https://github.com/s-nlp/multilingual_detox, los datos en francés comprenden la traducción de los datos en francés desde https://github.com/s-nlp/multilingual_detox así como todos los datos en francés del conjunto de datos Jigsaw. Los datos en alemán se compusieron de manera similar utilizando traducciones y técnicas de recolección de datos semimanuales, en particular para palabras y frases ofensivas que se extrajeron del diccionario dict.cc (https://www.dict.cc/) y Reverso Context (https://context.reverso.net/translation/).
Como usar
Para usar este modelo, puedes emplear la siguiente configuración:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus')
model = AutoModelForSequenceClassification.from_pretrained('EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus')
def classify_text(text):
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
# Procesar `outputs` para obtener la clasificación
...
Este modelo también se puede desplegar en puntos finales de inferencia dedicados.
Funcionalidades
- Clasificación de toxicidad
- Modelo multilingüe
- Basado en xlm-roberta
- Precision de validación del 92%
- Compatibilidad con AutoTrain
- Compatible con puntos finales de inferencia
Casos de uso
- Filtrar contenido tóxico en plataformas multilingües
- Moderación automática de comentarios
- Analizar la toxicidad en redes sociales
- Mejorar la seguridad y el bienestar en comunidades en línea