HeBERT: Análisis de Sentimientos y Reconocimiento de Emociones

avichr
Clasificación de texto

HeBERT es un modelo de lenguaje preentrenado en hebreo. Está basado en la arquitectura BERT de Google y tiene la configuración BERT-Base (Devlin et al., 2018). HeBERT fue entrenado en tres conjuntos de datos: una versión hebrea de OSCAR (~9.8 GB de datos, incluyendo 1 billón de palabras y más de 20.8 millones de oraciones), una copia en hebreo de Wikipedia (~650 MB de datos, incluyendo más de 63 millones de palabras y 3.8 millones de oraciones) y datos de UGC de Emoción recopilados específicamente para este estudio. Evaluamos el modelo en tareas de reconocimiento de emociones y análisis de sentimientos.

Como usar

Para el modelo de masked-LM (puede ser ajustado a cualquier tarea secundaria):

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('avichr/heBERT')
model = AutoModel.from_pretrained('avichr/heBERT')

from transformers import pipeline
fill_mask = pipeline(
  'fill-mask',
  model='avichr/heBERT',
  tokenizer='avichr/heBERT'
)
fill_mask('הקורונה לקחה את [MASK] ולנו לא נשאר דבר.')

Para el modelo de clasificación de sentimientos (solo polaridad):

from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained('avichr/heBERT_sentiment_analysis')
model = AutoModel.from_pretrained('avichr/heBERT_sentiment_analysis')

sentiment_analysis = pipeline(
  'sentiment-analysis',
  model='avichr/heBERT_sentiment_analysis',
  tokenizer='avichr/heBERT_sentiment_analysis',
  return_all_scores=True
)

>>> sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')
[[{'label': 'natural', 'score': 0.9978172183036804},
{'label': 'positive', 'score': 0.0014792329166084528},
{'label': 'negative', 'score': 0.0007035882445052266}]]

>>> sentiment_analysis('קפה זה טעים')
[[{'label': 'natural', 'score': 0.00047328314394690096},
{'label': 'positive', 'score': 0.9994067549705505},
{'label': 'negative', 'score': 0.00011996887042187154}]]

>>> sentiment_analysis('אני לא אוהב את העולם')
[[{'label': 'natural', 'score': 9.214012970915064e-05}, 
{'label': 'positive', 'score': 8.876807987689972e-05}, 
{'label': 'negative', 'score': 0.9998190999031067}]]

Funcionalidades

Modelo de lenguaje preentrenado
Reconocimiento de emociones
Análisis de sentimientos
Basado en la arquitectura BERT-Base

Casos de uso

Análisis de sentimientos en hebreo
Reconocimiento de emociones en comentarios de usuarios
Clasificación de textos en hebreo