beto-contextualized-hate-speech
piuba-bigdata
Clasificación de texto
Modelo entrenado para detectar comentarios de discurso de odio en artículos de noticias. El modelo base es BETO, un modelo preentrenado de BERT en español. La tarea para la cual se entrenó el modelo es un problema de clasificación de etiquetas múltiples, donde cada entrada tiene una etiqueta para cada uno de los grupos considerados.
Como usar
Lamentablemente, el pipeline de Hugging Face no soporta la clasificación de etiquetas múltiples, por lo que este modelo no puede ser probado directamente en el widget lateral. Para usarlo, puedes probar nuestro demo. Si deseas usarlo con tu propio código, utiliza el siguiente fragmento:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
model_name = "piubamas/beto-contextualized-hate-speech"
# Cargar tokenizer y modelo
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
id2label = [model.config.id2label[k] for k in range(len(model.config.id2label))]
def predict(*args):
encoding = tokenizer.encode_plus(*args)
inputs = {
k:torch.LongTensor(encoding[k]).reshape(1, -1) for k in {"input_ids", "attention_mask", "token_type_ids"}
}
output = model.forward(
**inputs
)
chars = list(zip(id2label, list(output.logits[0].detach().cpu().numpy() > 0)))
return [char for char, pred in chars if pred]
context = "China prohíbe la cría de perros para consumo humano"
text = "Chinos hdrmp hay que matarlos a todos"
prediction = predict(text, context)
Funcionalidades
- Clasificación de texto
- Transformadores
- PyTorch
- Safetensors
- BERT en español
Casos de uso
- Detección de odio hacia las mujeres
- Detección de odio hacia la comunidad LGBTI
- Detección de racismo
- Detección de clasismo
- Detección de odio por motivos de política
- Detección de odio hacia personas con discapacidad
- Detección de odio hacia personas por su apariencia
- Detección de odio hacia criminales
- Detección de llamados a la acción violenta