ncbi/MedCPT-Cross-Encoder

ncbi
Clasificación de texto

MedCPT-Cross-Encoder es un modelo desarrollado por NCBI en colaboración con NIH, específicamente diseñado para la clasificación de texto en el ámbito biomédico. Utiliza transformadores BERT y PyTorch para realizar inferencias sobre el contenido relacionado con artículos biomédicos. Este modelo se basa en los registros de búsqueda a gran escala de PubMed para la recuperación de información biomédica sin necesidad de entrenamiento adicional.

Como usar

Uso: Clasificación de textos para una consulta dada

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("ncbi/MedCPT-Cross-Encoder")
model = AutoModelForSequenceClassification.from_pretrained("ncbi/MedCPT-Cross-Encoder")

query = "tratamiento de diabetes"

# 6 artículos a ser clasificados para la consulta de entrada
articles = [
"Diabetes mellitus tipo 1 y 2: una revisión sobre el enfoque de tratamiento actual y la terapia génica como posible intervención. La diabetes mellitus tipo 1 y tipo 2 es una condición seria y de por vida caracterizada comúnmente por niveles anormalmente elevados de glucosa en sangre debido a una falla en la producción de insulina o una disminución en la sensibilidad y función de la insulina. [...]",
"Diabetes mellitus y sus complicaciones crónicas. La diabetes mellitus es una causa importante de morbilidad y mortalidad, y es un factor de riesgo importante para la aparición temprana de enfermedad coronaria. Las complicaciones de la diabetes incluyen retinopatía, nefropatía y neuropatía periférica. [...]",
"Diagnóstico y manejo de la diabetes insípida central en adultos. La diabetes insípida central (CDI) es un síndrome clínico que resulta de la pérdida o disfunción de las neuronas vasopresinérgicas en el hipotálamo/hipófisis posterior, lo que resulta en una síntesis y/o secreción alterada de arginina vasopresina (AVP). [...]",
"Diabetes insípida adipsica. La diabetes insípida adipsica (ADI) es un trastorno raro pero devastador del equilibrio hídrico con morbilidad y mortalidad significativas asociadas. La mayoría de los pacientes desarrollan la enfermedad como resultado de la destrucción hipotalámica de una variedad de etiologías subyacentes. [...]",
"Diabetes insípida nefrogénica: una visión general comprehensive. La diabetes insípida nefrogénica (NDI) se caracteriza por la incapacidad de concentrar la orina que resulta en poliuria y polidipsia, a pesar de tener concentraciones plasmáticas normales o elevadas de arginina vasopresina (AVP). [...]",
"Impacto de la ingesta de sal en la patogénesis y el tratamiento de la hipertensión. La ingesta excesiva de sal dietética (cloruro de sodio) está asociada con un mayor riesgo de hipertensión, que a su vez es un factor de riesgo importante para el accidente cerebrovascular y otras patologías cardiovasculares, así como enfermedades renales. Además, la alta ingesta de sal o la preferencia por alimentos salados se considera que están asociados positivamente con el cáncer de estómago, y según estudios recientes, probablemente también con el riesgo de obesidad. [...]"
]

# combinar consulta y artículo en pares
pairs = [[query, article] for article in articles]

with torch.no_grad():
    encoded = tokenizer(
        pairs,
        truncation=True,
        padding=True,
        return_tensors="pt",
        max_length=512,
    )

    logits = model(**encoded).logits.squeeze(dim=1)

print(logits)

# La salida será
tensor([  6.9363,  -8.2063,  -8.7692, -12.3450, -10.4416, -15.8475])

Los puntajes más altos indican mayor relevancia.

Funcionalidades

Clasificación de texto
Uso de transformadores BERT
Compatible con PyTorch
Optimizado para la recuperación de información biomédica

Casos de uso

Clasificación y ranking de artículos biomédicos
Mejora en la recuperación de información en bases de datos médicas
Consulta automatizada de literatura científica en el área biomédica