distilroberta-base-rejection-v1

protectai
Clasificación de texto

Este modelo es una versión afinada de 'distilroberta-base' en múltiples conjuntos de datos combinados de rechazos de diferentes LLMs y respuestas normales de conjuntos de datos de RLHF. Su objetivo es identificar rechazos en LLMs cuando el prompt no pasa la moderación de contenido, clasificando las entradas en dos categorías: 0 para salidas normales y 1 para rechazos detectados. Logra los siguientes resultados en el conjunto de evaluación: Pérdida: 0.0544, Precisión: 0.9887, Recall: 0.9810, Precisión: 0.9279, F1: 0.9537.

Como usar

Transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
import torch

tokenizer = AutoTokenizer.from_pretrained("ProtectAI/distilroberta-base-rejection-v1")
model = AutoModelForSequenceClassification.from_pretrained("ProtectAI/distilroberta-base-rejection-v1")

classifier = pipeline(
"text-classification",
model=model,
tokenizer=tokenizer,
truncation=True,
max_length=512,
device=torch.device("cuda" if torch.cuda.is_available() else "cpu"),
)

print(classifier("Lo siento, pero no puedo ayudar con eso."))

Optimum con ONNX

from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("ProtectAI/distilroberta-base-rejection-v1", subfolder="onnx")
model = ORTModelForSequenceClassification.from_pretrained("ProtectAI/distilroberta-base-rejection-v1", export=False, subfolder="onnx")

classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
truncation=True,
max_length=512,
)

print(classifier("Lo siento, pero no puedo ayudar con eso."))

Funcionalidades

Clasificación de texto
Transformers
ONNX
Safetensors
Basado en distilroberta-base
Compatible con AutoTrain
Compatible con Endpoints de Inferencia
Emisiones de CO2

Casos de uso

Detección de rechazos en la salida de LLMs
Moderación de contenido
Clasificación de respuestas en outputs normales y rechazos
Uso en sistemas de guardia de LLM (NoRefusal Scanner)