Clasificación de Titulares de Noticias en Español

M47Labs
Clasificación de texto

SNCH: este modelo fue desarrollado por M47Labs con el objetivo de clasificar textos. El modelo base utilizado fue BETO, y se ajustó con un conjunto de datos de 1000 ejemplos.

Como usar

import torch
from transformers import AutoTokenizer, BertForSequenceClassification, TextClassificationPipeline

review_text = 'los vehículos que estén esperando pasajeros deberán estar apagados para reducir emisiones'
path = 'M47Labs/spanish_news_classification_headlines'
tokenizer = AutoTokenizer.from_pretrained(path)
model = BertForSequenceClassification.from_pretrained(path)

nlp = TextClassificationPipeline(task='text-classification', model=model, tokenizer=tokenizer)

print(nlp(review_text))
# [{'label': 'medio_ambiente', 'score': 0.5648820996284485}]

import torch
from transformers import AutoTokenizer, BertForSequenceClassification, TextClassificationPipeline
from numpy import np

model_name = 'M47Labs/spanish_news_classification_headlines'
MAX_LEN = 32

tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForSequenceClassification.from_pretrained(model_name)

texto = 'las emisiones están bajando, debido a las medidas ambientales tomadas por el gobierno'

encoded_review = tokenizer.encode_plus(
texto,
max_length=MAX_LEN,
add_special_tokens=True,
#return_token_type_ids=False,
pad_to_max_length=True,
return_attention_mask=True,
return_tensors='pt',
)

input_ids = encoded_review['input_ids']
attention_mask = encoded_review['attention_mask']
output = model(input_ids, attention_mask)

_, prediction = torch.max(output['logits'], dim=1)
print(f'Review text: {texto}')
print(f'Sentiment  : {model.config.id2label[prediction.detach().cpu().numpy()[0]]}')
# Review text: las emisiones están bajando, debido a las medidas ambientales tomadas por el gobierno
# Sentiment  : medio_ambiente

Funcionalidades

Clasificación de textos
Uso de Transformers y PyTorch
Modelo base BETO
Ajustado con 1000 ejemplos

Casos de uso

Clasificación de titulares de noticias
Detección de la temática de textos
Evaluación del sentimiento en textos de noticias