zjunlp/SafeEdit-Safety-Classifier

zjunlp
Clasificación de texto

Clasificador de seguridad para desintoxicar modelos de lenguaje a gran escala mediante la edición del conocimiento.

Como usar

from transformers import RobertaForSequenceClassification, RobertaTokenizer
safety_classifier_dir = 'zjunlp/SafeEdit-Safety-Classifier'
safety_classifier_model = RobertaForSequenceClassification.from_pretrained(safety_classifier_dir)
safety_classifier_tokenizer = RobertaTokenizer.from_pretrained(safety_classifier_dir)

Funcionalidades

Clasificación de textos
Compatibilidad con Transformers
Compatibilidad con PyTorch
Basado en roberta
Compatibilidad con AutoTrain
Compatibilidad con Endpoints de inferencia
Licencia apache-2.0
Listado en arxiv:2403.14472
Región: US

Casos de uso

Clasificación de la seguridad en modelos de lenguaje
Detoxificación de modelos de lenguaje
Edición del conocimiento en modelos de inteligencia artificial