clasificador-de-calidad-de-respuesta-grande

t-bank-ai
Clasificación de texto

Este modelo de clasificación se basa en sberbank-ai/ruRoberta-large. El modelo se debe usar para producir relevancia y especificidad del último mensaje en el contexto de un diálogo. Está preentrenado en un gran corpus de datos de diálogo de manera no supervisada: el modelo está entrenado para predecir si la última respuesta estaba en un diálogo real, o si se extrajo al azar de otro diálogo. Luego se refinó en ejemplos etiquetados manualmente (el conjunto de datos se publicará pronto). El modelo se entrenó con tres mensajes en el contexto y una respuesta. Cada mensaje se tokenizó por separado con una longitud máxima de 32.

Como usar

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained('tinkoff-ai/response-quality-classifier-large')
model = AutoModelForSequenceClassification.from_pretrained('tinkoff-ai/response-quality-classifier-large')
inputs = tokenizer('[CLS]привет[SEP]привет![SEP]как дела?[RESPONSE_TOKEN]норм, у тя как?', max_length=128, add_special_tokens=False, return_tensors='pt')
with torch.inference_mode():
    logits = model(**inputs).logits
    probas = torch.sigmoid(logits)[0].cpu().detach().numpy()
    relevance, specificity = probas

Funcionalidades

Preentrenamiento no supervisado en un gran corpus de datos de diálogo
Afinado en ejemplos etiquetados manualmente
Capacidad para evaluar la relevancia del último mensaje en el diálogo
Capacidad para evaluar la especificidad del último mensaje en el diálogo

Casos de uso

Evaluar la relevancia del último mensaje en el contexto de un diálogo completo
Evaluar si el último mensaje en un diálogo es interesante y promueve la continuación del diálogo