tweet-tema-multi-último
cardiffnlp
Clasificación de texto
Este es un modelo basado en RoBERTa entrenado en 168.86 millones de tweets hasta finales de septiembre de 2022 y ajustado para clasificación de temas multi-etiqueta en un corpus de 11,267 tweets. El modelo original de RoBERTa-base se puede encontrar aquí. Este modelo es adecuado para inglés.
Como usar
from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import expit
MODEL = f"cardiffnlp/tweet-topic-latest-multi"
tokenizer = AutoTokenizer.from_pretrained(MODEL)
# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
class_mapping = model.config.id2label
text = "It is great to see athletes promoting awareness for climate change."
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)
scores = output[0][0].detach().numpy()
scores = expit(scores)
predictions = (scores >= 0.5) * 1
# TF
#tf_model = TFAutoModelForSequenceClassification.from_pretrained(MODEL)
#class_mapping = tf_model.config.id2label
#text = "It is great to see athletes promoting awareness for climate change."
#tokens = tokenizer(text, return_tensors='tf')
#output = tf_model(**tokens)
#scores = output[0][0]
#scores = expit(scores)
#predictions = (scores >= 0.5) * 1
# Map to classes
for i in range(len(predictions)):
if predictions[i]:
print(class_mapping[i])
Funcionalidades
- Clasificación de temas multi-etiqueta
- Entrenado con 168.86 millones de tweets
- Ajustado en un corpus de 11,267 tweets
- Basado en el modelo RoBERTa
Casos de uso
- Clasificación automática de temas en tweets
- Análisis de tendencias y temas emergentes en Twitter
- Apoyo en la categorización y filtrado de contenidos en plataformas sociales