zjunlp/SafeEdit-Safety-Classifier
zjunlp
Clasificación de texto
Clasificador de seguridad para desintoxicar modelos de lenguaje a gran escala mediante la edición del conocimiento.
Como usar
from transformers import RobertaForSequenceClassification, RobertaTokenizer
safety_classifier_dir = 'zjunlp/SafeEdit-Safety-Classifier'
safety_classifier_model = RobertaForSequenceClassification.from_pretrained(safety_classifier_dir)
safety_classifier_tokenizer = RobertaTokenizer.from_pretrained(safety_classifier_dir)
Funcionalidades
- Clasificación de textos
- Compatibilidad con Transformers
- Compatibilidad con PyTorch
- Basado en roberta
- Compatibilidad con AutoTrain
- Compatibilidad con Endpoints de inferencia
- Licencia apache-2.0
- Listado en arxiv:2403.14472
- Región: US
Casos de uso
- Clasificación de la seguridad en modelos de lenguaje
- Detoxificación de modelos de lenguaje
- Edición del conocimiento en modelos de inteligencia artificial