distilbert-base-uncased-finetuned-emotion

esuriddick
Clasificación de texto

Este modelo es una versión afinada de distilbert-base-uncased en el conjunto de datos de emociones. DistilBERT es un modelo de transformadores, más pequeño y rápido que BERT, que fue preentrenado en el mismo corpus de manera autosupervisada, utilizando el modelo base BERT como un profesor. Esto significa que fue preentrenado solo en textos sin procesar, sin etiquetas humanas, utilizando un proceso automático para generar entradas y etiquetas de esos textos usando el modelo base BERT. En concreto, se preentrenó con tres objetivos: pérdida de destilación, modelado de lenguaje enmascarado (MLM) y pérdida de incrustación coseno. De esta manera, el modelo aprende la misma representación interna del idioma inglés que su modelo profesor, pero es más rápido para la inferencia o tareas posteriores. El dataset de emociones consiste en mensajes de Twitter en inglés con seis emociones básicas: ira, miedo, alegría, amor, tristeza y sorpresa. Este dataset fue desarrollado a través de etiquetas ruidosas con supervisión distante.

Como usar

El modelo DistilBERT se afinó para este conjunto de datos, lo que permite la clasificación de sentencias en una de las seis emociones básicas (ira, miedo, alegría, amor, tristeza y sorpresa). Los siguientes hiperparámetros se utilizaron durante el entrenamiento:

learning_rate: 5e-05
train_batch_size: 64
eval_batch_size: 64
seed: 42
optimizer: Adam con betas=(0.9,0.999) y epsilon=1e-08
lr_scheduler_type: lineal
num_epochs: 2

El modelo logra los siguientes resultados en el conjunto de evaluación: pérdida: 0.1448, precisión: 0.9375, F1: 0.9379. El notebook utilizado para afinar este modelo se puede encontrar AQUÍ.

Funcionalidades

Clasificación de texto
Transformadores
PyTorch
Safetensors
Generado a partir del Entrenador

Casos de uso

Clasificación de emociones en mensajes de Twitter
Análisis de sentimientos
Detección de emociones en publicaciones en redes sociales