Silly-Machine/TuPy-Bert-Large-Binary-Classifier

Silly-Machine

Clasificación de texto

TuPy-Bert-Large-Binary-Classifier es un modelo BERT adaptado específicamente para la clasificación binaria del discurso de odio en portugués. Derivado del modelo base BERTimbau, TuPy-Bert-Large-Binary-Classifier es una solución refinada para abordar problemas de discurso de odio binario (odio o no odio). En la creación de un modelo de lenguaje portugués especializado para la clasificación de discurso de odio, el modelo original BERTimbau se sometió a un proceso de ajuste fino utilizando el conjunto de datos TuPy Hate Speech DataSet, extraído de diversas redes sociales.

Como usar

from transformers import AutoModelForSequenceClassification, AutoTokenizer, AutoConfig
import torch
import numpy as np
from scipy.special import softmax

def classify_hate_speech(model_name, text):
  model = AutoModelForSequenceClassification.from_pretrained(model_name)
  tokenizer = AutoTokenizer.from_pretrained(model_name)
  config = AutoConfig.from_pretrained(model_name)

  # Tokenize input text and prepare model input
  model_input = tokenizer(text, padding=True, return_tensors="pt")

  # Get model output scores
  with torch.no_grad():
    output = model(**model_input)
    scores = softmax(output.logits.numpy(), axis=1)
    ranking = np.argsort(scores[0])[::-1]

  # Print the results
  for i, rank in enumerate(ranking):
    label = config.id2label[rank]
    score = scores[0, rank]
    print(f"{i + 1}) Label: {label} Score: {score:.4f}")

# Example usage
model_name = "Silly-Machine/TuPy-Bert-Large-Binary-Classifier"
text = "Bom dia, flor do dia!!"
classify_hate_speech(model_name, text)

Funcionalidades

Clasificación de texto
Transformers
Safetensors

Casos de uso

Clasificación binaria del discurso de odio
Filtrado de contenido ofensivo en redes sociales
Análisis de comentarios en línea para detectar discurso de odio