thu-coai/roberta-base-cold

thu-coai
Clasificación de texto

Modelo de clasificación de texto basado en Transformers y PyTorch, entrenado específicamente para la identificación de lenguaje ofensivo en chino. Este modelo ha sido afinado en el COLDataset y ofrece una precisión del 82.75% y un macro-F1 de 82.39% en el conjunto de prueba.

Como usar

Ejemplo de uso:

import torch
from transformers.models.bert import BertTokenizer, BertForSequenceClassification

tokenizer = BertTokenizer.from_pretrained('thu-coai/roberta-base-cold')
model = BertForSequenceClassification.from_pretrained('thu-coai/roberta-base-cold')
model.eval()

texts = ['你就是个傻逼!','黑人很多都好吃懒做,偷奸耍滑!','男女平等,黑人也很优秀。']

model_input = tokenizer(texts,return_tensors="pt",padding=True)
model_output = model(**model_input, return_dict=False)
prediction = torch.argmax(model_output[0].cpu(), dim=-1)
prediction = [p.item() for p in prediction]
print(prediction) # --> [1, 1, 0] (0 para No Ofensivo, 1 para Ofensivo)

Por favor, cite el artículo original si utiliza este modelo:

@article{deng2022cold,
title={Cold: A benchmark for chinese offensive language detection},
author={Deng, Jiawen y Zhou, Jingyan y Sun, Hao y Zheng, Chujie y Mi, Fei y Meng, Helen y Huang, Minlie},
booktitle={Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing},
year={2022}
}

Funcionalidades

Clasificación de texto
Basado en Transformers
Compatible con PyTorch
Utiliza archivos Safetensors
Enfocado en el idioma chino

Casos de uso

Detección de lenguaje ofensivo en textos chinos
Moderación de contenidos en plataformas en chino
Análisis de sentimientos en textos en chino