cardiffnlp/tweet-topic-21-multi

cardiffnlp

Clasificación de texto

Este modelo está basado en un modelo de lenguaje TimeLMs entrenado con aproximadamente 124 millones de tweets desde enero de 2018 hasta diciembre de 2021, ajustado para clasificación de temas multi-etiqueta en un corpus de 11,267 tweets. Este modelo es adecuado para inglés.

Como usar

from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import expit

MODEL = f"cardiffnlp/tweet-topic-21-multi"
tokenizer = AutoTokenizer.from_pretrained(MODEL)

# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
class_mapping = model.config.id2label

text = "It is great to see athletes promoting awareness for climate change."
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)

scores = output[0][0].detach().numpy()
scores = expit(scores)
predictions = (scores >= 0.5) * 1

# TF
#tf_model = TFAutoModelForSequenceClassification.from_pretrained(MODEL)
#class_mapping = tf_model.config.id2label
#text = "It is great to see athletes promoting awareness for climate change."
#tokens = tokenizer(text, return_tensors='tf')
#output = tf_model(**tokens)
#scores = output[0][0]
#scores = expit(scores)
#predictions = (scores >= 0.5) * 1

# Map to classes
for i in range(len(predictions)):
if predictions[i]:
print(class_mapping[i])

Output:
news_&_social_concern
sports

Funcionalidades

Transformers
PyTorch
TensorFlow
roberta
AutoTrain Compatible
Inference Endpoints

Casos de uso

Clasificación de temas en tweets
Aumentar la conciencia sobre el cambio climático
Preprocesamiento de textos para análisis de sentimientos
Investigación académica en el análisis de redes sociales