HeBERT: Análisis de Sentimientos y Reconocimiento de Emociones
HeBERT es un modelo de lenguaje preentrenado en hebreo. Está basado en la arquitectura BERT de Google y tiene la configuración BERT-Base (Devlin et al., 2018). HeBERT fue entrenado en tres conjuntos de datos: una versión hebrea de OSCAR (~9.8 GB de datos, incluyendo 1 billón de palabras y más de 20.8 millones de oraciones), una copia en hebreo de Wikipedia (~650 MB de datos, incluyendo más de 63 millones de palabras y 3.8 millones de oraciones) y datos de UGC de Emoción recopilados específicamente para este estudio. Evaluamos el modelo en tareas de reconocimiento de emociones y análisis de sentimientos.
Como usar
Para el modelo de masked-LM (puede ser ajustado a cualquier tarea secundaria):
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('avichr/heBERT')
model = AutoModel.from_pretrained('avichr/heBERT')
from transformers import pipeline
fill_mask = pipeline(
'fill-mask',
model='avichr/heBERT',
tokenizer='avichr/heBERT'
)
fill_mask('הקורונה לקחה את [MASK] ולנו לא נשאר דבר.')
Para el modelo de clasificación de sentimientos (solo polaridad):
from transformers import AutoTokenizer, AutoModel, pipeline
tokenizer = AutoTokenizer.from_pretrained('avichr/heBERT_sentiment_analysis')
model = AutoModel.from_pretrained('avichr/heBERT_sentiment_analysis')
sentiment_analysis = pipeline(
'sentiment-analysis',
model='avichr/heBERT_sentiment_analysis',
tokenizer='avichr/heBERT_sentiment_analysis',
return_all_scores=True
)
>>> sentiment_analysis('אני מתלבט מה לאכול לארוחת צהריים')
[[{'label': 'natural', 'score': 0.9978172183036804},
{'label': 'positive', 'score': 0.0014792329166084528},
{'label': 'negative', 'score': 0.0007035882445052266}]]
>>> sentiment_analysis('קפה זה טעים')
[[{'label': 'natural', 'score': 0.00047328314394690096},
{'label': 'positive', 'score': 0.9994067549705505},
{'label': 'negative', 'score': 0.00011996887042187154}]]
>>> sentiment_analysis('אני לא אוהב את העולם')
[[{'label': 'natural', 'score': 9.214012970915064e-05},
{'label': 'positive', 'score': 8.876807987689972e-05},
{'label': 'negative', 'score': 0.9998190999031067}]]
Funcionalidades
- Modelo de lenguaje preentrenado
- Reconocimiento de emociones
- Análisis de sentimientos
- Basado en la arquitectura BERT-Base
Casos de uso
- Análisis de sentimientos en hebreo
- Reconocimiento de emociones en comentarios de usuarios
- Clasificación de textos en hebreo