bert-turkish-text-classification

savasy

Clasificación de texto

Este modelo es una versión afinada de https://github.com/stefan-it/turkish-bert utilizando datos de clasificación de texto con 7 categorías: 'dunya', 'ekonomi', 'kultur', 'saglik', 'siyaset', 'spor' y 'teknoloji'.

Como usar

Comience instalando transformers:
pip install transformers

Código:
# importar librerías
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification
tokenizer= AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")

# construir y cargar el modelo, esto toma tiempo dependiendo de su conexión a Internet
model= AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")

# hacer pipeline
nlp=pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# aplicar modelo
nlp("bla bla")
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]

code_to_label={
'LABEL_0': 'dunya',
'LABEL_1': 'ekonomi',
'LABEL_2': 'kultur',
'LABEL_3': 'saglik',
'LABEL_4': 'siyaset',
'LABEL_5': 'spor',
'LABEL_6': 'teknoloji'}
 
code_to_label[nlp("bla bla")[0]['label']]
# > 'kultur'

Funcionalidades

Clasificación de texto en 7 categorías
Basado en BERT
Afinado específicamente para el idioma turco

Casos de uso

Clasificación de noticias
Análisis de sentimientos
Análisis y categorización de texto en turco