PubMedBERT-base-uncased-sts-combined

bcwarner
Similitud de oraciones

Este repositorio contiene una versión afinada de PubMedBERT para generar pares de similitud semántica textual, principalmente para su uso en el paquete de selección de características sts-select detallado aquí. Los detalles sobre el modelo y el vocabulario se encuentran en el artículo disponible aquí.

Como usar

Si usa este modelo para la selección de características basada en STS, cite el siguiente artículo:

@misc{warner2023utilizing,
title={Utilizing Semantic Textual Similarity for Clinical Survey Data Feature Selection}, 
author={Benjamin C. Warner and Ziqi Xu y Simon Haroutounian y Thomas Kannampallil y Chenyang Lu},
year={2023},
eprint={2308.09892},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

Además, los modelos originales y los artículos de afinado deben ser citados como sigue:

@article{Gu_Tinn_Cheng_Lucas_Usuyama_Liu_Naumann_Gao_Poon_2021, title={Domain-specific language model pretraining for biomedical natural language processing}, volume={3}, number={1}, journal={ACM Transactions on Computing for Healthcare (HEALTH)}, publisher={ACM New York, NY}, author={Gu, Yu y Tinn, Robert y Cheng, Hao y Lucas, Michael y Usuyama, Naoto y Liu, Xiaodong y Naumann, Tristan y Gao, Jianfeng y Poon, Hoifung}, year={2021}, pages={1–23} }
@inproceedings{Cer_Diab_Agirre_Lopez-Gazpio_Specia_2017, address={Vancouver, Canada}, title={SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation}, url={https://aclanthology.org/S17-2001}, DOI={10.18653/v1/S17-2001}, booktitle={Proceedings of the 11th International Workshop on Semantic Evaluation (SemEval-2017)}, publisher={Association for Computational Linguistics}, author={Cer, Daniel y Diab, Mona y Agirre, Eneko y Lopez-Gazpio, Iñigo y Specia, Lucia}, year={2017}, month=aug, pages={1–14} }
@article{Chiu_Pyysalo_Vulić_Korhonen_2018, title={Bio-SimVerb and Bio-SimLex: wide-coverage evaluation sets of word similarity in biomedicine}, volume={19}, number={1}, journal={BMC bioinformatics}, publisher={BioMed Central}, author={Chiu, Billy y Pyysalo, Sampo y Vulić, Ivan y Korhonen, Anna}, year={2018}, pages={1–13} }
@inproceedings{May_2021, title={Machine translated multilingual STS benchmark dataset.}, url={https://github.com/PhilipMay/stsb-multi-mt}, author={May, Philip}, year={2021} }
@article{Pedersen_Pakhomov_Patwardhan_Chute_2007, title={Measures of semantic similarity and relatedness in the biomedical domain}, volume={40}, number={3}, journal={Journal of biomedical informatics}, publisher={Elsevier}, author={Pedersen, Ted y Pakhomov, Serguei VS y Patwardhan, Siddharth y Chute, Christopher G}, year={2007}, pages={288–299} }

Funcionalidades

Similitud de oraciones
Transformadores de oraciones
PyTorch
bert
inferencia de incrustación de texto médico

Casos de uso

Selección de características basada en la similitud textual semántica.
Generación de pares de similitud textual semántica.
Procesamiento de lenguaje natural biomédico.
Incrustaciones de texto médico.