KoalaAI/Text-Moderation
KoalaAI
Clasificación de texto
Este modelo es un modelo de clasificación de texto basado en Deberta-v3 que predice si un texto contiene contenido que podría considerarse ofensivo. Está dividido en las siguientes etiquetas: sexual, odio, violencia, acoso, autolesión, sexual/menores, odio/amenazante, violencia/gráfico, OK. Es importante recordar que este modelo solo fue entrenado en textos en inglés y puede no funcionar bien con entradas en otros idiomas.
Como usar
Puedes utilizar cURL para acceder a este modelo:
$ curl -X POST -H "Authorization: Bearer YOUR_API_KEY" -H "Content-Type: application/json" -d '{"inputs": "I love AutoTrain"}' https://api-inference.huggingface.co/models/KoalaAI/Text-Moderation
O la API de Python:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
# Carga el modelo y el tokenizer
model = AutoModelForSequenceClassification.from_pretrained("KoalaAI/Text-Moderation")
tokenizer = AutoTokenizer.from_pretrained("KoalaAI/Text-Moderation")
# Ejecuta el modelo en tu entrada
inputs = tokenizer("I love AutoTrain", return_tensors="pt")
outputs = model(**inputs)
# Obtén las predicciones
logits = outputs.logits
# Aplica softmax para obtener probabilidades (puntuaciones)
probabilities = logits.softmax(dim=-1).squeeze()
# Recupera las etiquetas
id2label = model.config.id2label
labels = [id2label[idx] for idx in range(len(probabilities))]
# Combina etiquetas y probabilidades, luego ordena
label_prob_pairs = list(zip(labels, probabilities))
label_prob_pairs.sort(key=lambda item: item[1], reverse=True)
# Imprime los resultados ordenados
for label, probability in label_prob_pairs:
print(f"Label: {label} - Probability: {probability:.4f}")
El resultado del código Python anterior se verá así:
Label: OK - Probability: 0.9840
Label: H - Probability: 0.0043
Label: SH - Probability: 0.0039
Label: V - Probability: 0.0019
Label: S - Probability: 0.0018
Label: HR - Probability: 0.0015
Label: V2 - Probability: 0.0011
Label: S3 - Probability: 0.0010
Label: H2 - Probability: 0.0006
Funcionalidades
- Clasificación de texto
- Basado en Deberta-v3
- Predicción de contenido ofensivo
- Etiquetas de categorías: sexual, odio, violencia, acoso, autolesión, sexual/menores, odio/amenazante, violencia/gráfico, OK
Casos de uso
- Detección de contenido ofensivo en plataformas de redes sociales
- Moderación de comentarios en sitios web
- Filtrado de contenido en aplicaciones de mensajería
- Monitoreo de contenido en foros en línea para identificar lenguaje potencialmente dañino