BERTopic_ArXiv

MaartenGr

Clasificación de texto

Este es un modelo BERTopic. BERTopic es un marco flexible y modular de modelado de temas que permite la generación de temas fácilmente interpretables a partir de grandes conjuntos de datos. Este modelo preentrenado demuestra el uso de varios modelos de representación que se pueden usar dentro de BERTopic. Este modelo fue entrenado en ~30000 resúmenes de ArXiv con los siguientes métodos de representación de temas (bertopic.representation): - POS - KeyBERTInspired - MaximalMarginalRelevance - KeyBERT + MaximalMarginalRelevance - Etiquetas de ChatGPT - Resúmenes de ChatGPT. Un ejemplo de las representaciones c-TF-IDF predeterminadas y un ejemplo de etiquetas generadas por ChatGPT (gpt-3.5-turbo):

Como usar

Para usar este modelo, instale BERTopic:
pip install -U bertopic
pip install -U safetensors

Puedes usar el modelo de la siguiente manera:
from bertopic import BERTopic
topic_model = BERTopic.load('MaartenGr/BERTopic_ArXiv')

topic_model.get_topic_info()

Para ver todas las diferentes representaciones de temas (palabras clave, etiquetas, resúmenes, etc.), puedes ejecutar lo siguiente:
topic_model.get_topic(0, full=True)

Un ejemplo de representación de un tema por c-TF-IDF:
{'Main': [['dialogue', 0.02704485163341523],
['dialog', 0.01677038224466311],
['response', 0.011692640237477233],
['responses', 0.01002788412923778], [...] ]}

Funcionalidades

Marco flexible y modular para modelar temas
Facilidad para interpretar los temas generados
Entrenado en ~30000 resúmenes de ArXiv
Múltiples métodos de representación de temas
Etiquetas y resúmenes generados por ChatGPT

Casos de uso

Modelado de temas en grandes conjuntos de datos
Generación de temas interpretables a partir de artículos científicos
Etiquetado automático de temas utilizando ChatGPT
Generación de resúmenes de temas con ChatGPT