EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus

EIStakovskii

Clasificación de texto

Este modelo fue entrenado para la clasificación de toxicidad multilingüe. Label_1 significa TÓXICO, Label_0 significa NO TÓXICO. El modelo fue ajustado a partir del modelo xlm_roberta_base para 4 idiomas: EN, RU, FR, DE. La precisión de validación es del 92%. El modelo fue ajustado con un total de 100933k oraciones. Los datos de entrenamiento para inglés y ruso provienen de https://github.com/s-nlp/multilingual_detox, los datos en francés comprenden la traducción de los datos en francés desde https://github.com/s-nlp/multilingual_detox así como todos los datos en francés del conjunto de datos Jigsaw. Los datos en alemán se compusieron de manera similar utilizando traducciones y técnicas de recolección de datos semimanuales, en particular para palabras y frases ofensivas que se extrajeron del diccionario dict.cc (https://www.dict.cc/) y Reverso Context (https://context.reverso.net/translation/).

Como usar

Para usar este modelo, puedes emplear la siguiente configuración:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus')
model = AutoModelForSequenceClassification.from_pretrained('EIStakovskii/xlm_roberta_base_multilingual_toxicity_classifier_plus')

def classify_text(text):
    inputs = tokenizer(text, return_tensors='pt')
    outputs = model(**inputs)
    # Procesar `outputs` para obtener la clasificación
    ...

Este modelo también se puede desplegar en puntos finales de inferencia dedicados.

Funcionalidades

Clasificación de toxicidad
Modelo multilingüe
Basado en xlm-roberta
Precision de validación del 92%
Compatibilidad con AutoTrain
Compatible con puntos finales de inferencia

Casos de uso

Filtrar contenido tóxico en plataformas multilingües
Moderación automática de comentarios
Analizar la toxicidad en redes sociales
Mejorar la seguridad y el bienestar en comunidades en línea