ncbi/MedCPT-Cross-Encoder
ncbi
Clasificación de texto
MedCPT-Cross-Encoder es un modelo desarrollado por NCBI en colaboración con NIH, específicamente diseñado para la clasificación de texto en el ámbito biomédico. Utiliza transformadores BERT y PyTorch para realizar inferencias sobre el contenido relacionado con artículos biomédicos. Este modelo se basa en los registros de búsqueda a gran escala de PubMed para la recuperación de información biomédica sin necesidad de entrenamiento adicional.
Como usar
Uso: Clasificación de textos para una consulta dada
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("ncbi/MedCPT-Cross-Encoder")
model = AutoModelForSequenceClassification.from_pretrained("ncbi/MedCPT-Cross-Encoder")
query = "tratamiento de diabetes"
# 6 artículos a ser clasificados para la consulta de entrada
articles = [
"Diabetes mellitus tipo 1 y 2: una revisión sobre el enfoque de tratamiento actual y la terapia génica como posible intervención. La diabetes mellitus tipo 1 y tipo 2 es una condición seria y de por vida caracterizada comúnmente por niveles anormalmente elevados de glucosa en sangre debido a una falla en la producción de insulina o una disminución en la sensibilidad y función de la insulina. [...]",
"Diabetes mellitus y sus complicaciones crónicas. La diabetes mellitus es una causa importante de morbilidad y mortalidad, y es un factor de riesgo importante para la aparición temprana de enfermedad coronaria. Las complicaciones de la diabetes incluyen retinopatía, nefropatía y neuropatía periférica. [...]",
"Diagnóstico y manejo de la diabetes insípida central en adultos. La diabetes insípida central (CDI) es un síndrome clínico que resulta de la pérdida o disfunción de las neuronas vasopresinérgicas en el hipotálamo/hipófisis posterior, lo que resulta en una síntesis y/o secreción alterada de arginina vasopresina (AVP). [...]",
"Diabetes insípida adipsica. La diabetes insípida adipsica (ADI) es un trastorno raro pero devastador del equilibrio hídrico con morbilidad y mortalidad significativas asociadas. La mayoría de los pacientes desarrollan la enfermedad como resultado de la destrucción hipotalámica de una variedad de etiologías subyacentes. [...]",
"Diabetes insípida nefrogénica: una visión general comprehensive. La diabetes insípida nefrogénica (NDI) se caracteriza por la incapacidad de concentrar la orina que resulta en poliuria y polidipsia, a pesar de tener concentraciones plasmáticas normales o elevadas de arginina vasopresina (AVP). [...]",
"Impacto de la ingesta de sal en la patogénesis y el tratamiento de la hipertensión. La ingesta excesiva de sal dietética (cloruro de sodio) está asociada con un mayor riesgo de hipertensión, que a su vez es un factor de riesgo importante para el accidente cerebrovascular y otras patologías cardiovasculares, así como enfermedades renales. Además, la alta ingesta de sal o la preferencia por alimentos salados se considera que están asociados positivamente con el cáncer de estómago, y según estudios recientes, probablemente también con el riesgo de obesidad. [...]"
]
# combinar consulta y artículo en pares
pairs = [[query, article] for article in articles]
with torch.no_grad():
encoded = tokenizer(
pairs,
truncation=True,
padding=True,
return_tensors="pt",
max_length=512,
)
logits = model(**encoded).logits.squeeze(dim=1)
print(logits)
# La salida será
tensor([ 6.9363, -8.2063, -8.7692, -12.3450, -10.4416, -15.8475])
Los puntajes más altos indican mayor relevancia.
Funcionalidades
- Clasificación de texto
- Uso de transformadores BERT
- Compatible con PyTorch
- Optimizado para la recuperación de información biomédica
Casos de uso
- Clasificación y ranking de artículos biomédicos
- Mejora en la recuperación de información en bases de datos médicas
- Consulta automatizada de literatura científica en el área biomédica