cardiffnlp/twitter-roberta-base-dec2021-tweet-topic-multi-all
cardiffnlp
Clasificación de texto
Este modelo es una versión ajustada de cardiffnlp/twitter-roberta-base-dec2021 en el tweet_topic_multi. Este modelo está ajustado en el conjunto de datos train_all y validado en el conjunto de datos test_2021 de tweet_topic. Logra los siguientes resultados en el conjunto de datos test_2021: - F1 (micro): 0.7647668393782383 - F1 (macro): 0.6187022581213811 - Precisión: 0.5485407980941036
Como usar
import math
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
def sigmoid(x):
return 1 / (1 + math.exp(-x))
tokenizer = AutoTokenizer.from_pretrained("cardiffnlp/twitter-roberta-base-dec2021-tweet-topic-multi-all")
model = AutoModelForSequenceClassification.from_pretrained("cardiffnlp/twitter-roberta-base-dec2021-tweet-topic-multi-all", problem_type="multi_label_classification")
model.eval()
class_mapping = model.config.id2label
with torch.no_grad():
text = "#NewVideo Cray Dollas- Water- Ft. Charlie Rose- (Official Music Video)- {{URL}} via {@YouTube@} #watchandlearn {{USERNAME}}"
tokens = tokenizer(text, return_tensors='pt')
output = model(**tokens)
flags = [sigmoid(s) > 0.5 for s in output[0][0].detach().tolist()]
topic = [class_mapping[n] for n, i in enumerate(flags) if i]
print(topic)
Funcionalidades
- Clasificación de texto
- Compatibilidad con PyTorch
- Compatible con AutoTrain
- Endpoints de inferencia
- Entrenado en dataset cardiffnlp/tweet_topic_multi
Casos de uso
- Clasificación de tópicos en tweets
- Análisis de sentimientos en redes sociales
- Filtrado y clasificación de contenido en plataformas de microblogging