Jailbreak Classifier
jackhhao
Clasificación de texto
Clasifica las solicitudes como jailbreaks o benignas. Este es un punto de control ajustado de bert-base-uncased en el conjunto de datos jailbreak-classification.
Como usar
# Ejemplo de uso
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = 'jackhhao/jailbreak-classifier'
model = AutoModelForSequenceClassification.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
inputs = tokenizer('I like you', return_tensors='pt')
outputs = model(**inputs)
Funcionalidades
- Clasificación de textos
- Utiliza Transformers
- Basado en PyTorch
- Moderación de seguridad
- Prevención de inyecciones de comandos
Casos de uso
- Detección de conflictos de seguridad en solicitudes
- Moderación de contenido de texto
- Prevención de inyección de comandos en aplicaciones de chat