KoalaAI/Text-Moderation

KoalaAI

Clasificación de texto

Este modelo es un modelo de clasificación de texto basado en Deberta-v3 que predice si un texto contiene contenido que podría considerarse ofensivo. Está dividido en las siguientes etiquetas: sexual, odio, violencia, acoso, autolesión, sexual/menores, odio/amenazante, violencia/gráfico, OK. Es importante recordar que este modelo solo fue entrenado en textos en inglés y puede no funcionar bien con entradas en otros idiomas.

Como usar

Puedes utilizar cURL para acceder a este modelo:
$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation

O la API de Python:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

# Carga el modelo y el tokenizer
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")

# Ejecuta el modelo en tu entrada
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)

# Obtén las predicciones
logits = outputs.logits

# Aplica softmax para obtener probabilidades (puntuaciones)
probabilities = logits.softmax(dim=-1).squeeze()

# Recupera las etiquetas
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]

# Combina etiquetas y probabilidades, luego ordena
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)

# Imprime los resultados ordenados
for label, probability in label_prob_pairs:
    print(f"Label: {label} - Probability: {probability:.4f}")

El resultado del código Python anterior se verá así:
Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006

Funcionalidades

Clasificación de texto
Basado en Deberta-v3
Predicción de contenido ofensivo
Etiquetas de categorías: sexual, odio, violencia, acoso, autolesión, sexual/menores, odio/amenazante, violencia/gráfico, OK

Casos de uso

Detección de contenido ofensivo en plataformas de redes sociales
Moderación de comentarios en sitios web
Filtrado de contenido en aplicaciones de mensajería
Monitoreo de contenido en foros en línea para identificar lenguaje potencialmente dañino