bert-turkish-text-classification
savasy
Clasificación de texto
Este modelo es una versión afinada de https://github.com/stefan-it/turkish-bert utilizando datos de clasificación de texto con 7 categorías: 'dunya', 'ekonomi', 'kultur', 'saglik', 'siyaset', 'spor' y 'teknoloji'.
Como usar
Comience instalando transformers:
pip install transformers
Código:
# importar librerías
from transformers import pipeline, AutoModelForTokenClassification, AutoTokenizer, AutoModelForSequenceClassification
tokenizer= AutoTokenizer.from_pretrained("savasy/bert-turkish-text-classification")
# construir y cargar el modelo, esto toma tiempo dependiendo de su conexión a Internet
model= AutoModelForSequenceClassification.from_pretrained("savasy/bert-turkish-text-classification")
# hacer pipeline
nlp=pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)
# aplicar modelo
nlp("bla bla")
# [{'label': 'LABEL_2', 'score': 0.4753005802631378}]
code_to_label={
'LABEL_0': 'dunya',
'LABEL_1': 'ekonomi',
'LABEL_2': 'kultur',
'LABEL_3': 'saglik',
'LABEL_4': 'siyaset',
'LABEL_5': 'spor',
'LABEL_6': 'teknoloji'}
code_to_label[nlp("bla bla")[0]['label']]
# > 'kultur'
Funcionalidades
- Clasificación de texto en 7 categorías
- Basado en BERT
- Afinado específicamente para el idioma turco
Casos de uso
- Clasificación de noticias
- Análisis de sentimientos
- Análisis y categorización de texto en turco