BioLinkBERT-base

michiyasunaga
Clasificación de texto

BioLinkBERT-base es un modelo preentrenado en resúmenes de PubMed junto con información de enlaces de citas. Se introduce en el artículo LinkBERT: Pretraining Language Models with Document Links (ACL 2022). El código y los datos están disponibles en este repositorio. Este modelo logra un rendimiento de vanguardia en varios puntos de referencia de NLP biomédico como BLURB y MedQA-USMLE. LinkBERT es un modelo de codificador transformador (similar a BERT) preentrenado en un gran corpus de documentos. Es una mejora de BERT que captura nuevos enlaces de documentos, como hipervínculos y enlaces de citas, para incluir conocimiento que abarca múltiples documentos. Específicamente, se preentrenó alimentando documentos vinculados en el mismo contexto del modelo lingüístico, además de un solo documento. LinkBERT puede usarse como un reemplazo directo de BERT. Logra un mejor rendimiento para tareas generales de comprensión del lenguaje (por ejemplo, clasificación de texto) y también es particularmente efectivo para tareas intensivas en conocimiento (por ejemplo, respuesta a preguntas) y tareas entre documentos (por ejemplo, comprensión de lectura, recuperación de documentos).

Como usar

Para utilizar el modelo para obtener las características de un texto dado en PyTorch:

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('michiyasunaga/BioLinkBERT-base')
model = AutoModel.from_pretrained('michiyasunaga/BioLinkBERT-base')
inputs = tokenizer("Sunitinib es un inhibidor de tirosina quinasa", return_tensors="pt")
outputs = model(**inputs)
last_hidden_states = outputs.last_hidden_state

Para ajuste fino, puedes usar este repositorio o seguir cualquier otro código base de ajuste fino de BERT.

Funcionalidades

Clasificación de texto
Transformadores
PyTorch
PubMed
Inglés
BERT
Extracción de características
ExBERT
BioLinkBERT
Relleno de máscaras
Respuesta a preguntas
Clasificación de tokens

Casos de uso

Clasificación de secuencias
Respuesta a preguntas
Clasificación de tokens
Extracción de características