cardiffnlp/tweet-topic-21-multi
cardiffnlp
Clasificación de texto
Este modelo está basado en un modelo de lenguaje TimeLMs entrenado con aproximadamente 124 millones de tweets desde enero de 2018 hasta diciembre de 2021, ajustado para clasificación de temas multi-etiqueta en un corpus de 11,267 tweets. Este modelo es adecuado para inglés.
Como usar
from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import expit
MODEL = f"cardiffnlp/tweet-topic-21-multi"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
class_mapping = model.config.id2label
text = "It is great to see athletes promoting awareness for climate change."
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)
scores = output[0][0].detach().numpy()
scores = expit(scores)
predictions = (scores >= 0.5) * 1
# TF
#tf_model = TFAutoModelForSequenceClassification.from_pretrained(MODEL)
#class_mapping = tf_model.config.id2label
#text = "It is great to see athletes promoting awareness for climate change."
#tokens = tokenizer(text, return_tensors='tf')
#output = tf_model(**tokens)
#scores = output[0][0]
#scores = expit(scores)
#predictions = (scores >= 0.5) * 1
# Map to classes
for i in range(len(predictions)):
if predictions[i]:
print(class_mapping[i])
Output:
news_&_social_concern
sports
Funcionalidades
- Transformers
- PyTorch
- TensorFlow
- roberta
- AutoTrain Compatible
- Inference Endpoints
Casos de uso
- Clasificación de temas en tweets
- Aumentar la conciencia sobre el cambio climático
- Preprocesamiento de textos para análisis de sentimientos
- Investigación académica en el análisis de redes sociales