tweet-tema-multi-último

cardiffnlp

Clasificación de texto

Este es un modelo basado en RoBERTa entrenado en 168.86 millones de tweets hasta finales de septiembre de 2022 y ajustado para clasificación de temas multi-etiqueta en un corpus de 11,267 tweets. El modelo original de RoBERTa-base se puede encontrar aquí. Este modelo es adecuado para inglés.

Como usar

from transformers import AutoModelForSequenceClassification, TFAutoModelForSequenceClassification
from transformers import AutoTokenizer
import numpy as np
from scipy.special import expit

MODEL = f"cardiffnlp/tweet-topic-latest-multi"
tokenizer = AutoTokenizer.from_pretrained(MODEL)

# PT
model = AutoModelForSequenceClassification.from_pretrained(MODEL)
class_mapping = model.config.id2label

text = "It is great to see athletes promoting awareness for climate change."
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)

scores = output[0][0].detach().numpy()
scores = expit(scores)
predictions = (scores >= 0.5) * 1

# TF
#tf_model = TFAutoModelForSequenceClassification.from_pretrained(MODEL)
#class_mapping = tf_model.config.id2label
#text = "It is great to see athletes promoting awareness for climate change."
#tokens = tokenizer(text, return_tensors='tf')
#output = tf_model(**tokens)
#scores = output[0][0]
#scores = expit(scores)
#predictions = (scores >= 0.5) * 1

# Map to classes
for i in range(len(predictions)):
    if predictions[i]:
        print(class_mapping[i])

Funcionalidades

Clasificación de temas multi-etiqueta
Entrenado con 168.86 millones de tweets
Ajustado en un corpus de 11,267 tweets
Basado en el modelo RoBERTa

Casos de uso

Clasificación automática de temas en tweets
Análisis de tendencias y temas emergentes en Twitter
Apoyo en la categorización y filtrado de contenidos en plataformas sociales