條文本
摘要
客觀的由於大多數生物醫學研究集中於一種特定疾病,因此評估研究成果需要特定疾病的文獻計量指標。目前使用的方法是不夠的。這項研究的目的是開發一種方法,能夠按疾病詳細分析世界範圍內的生物醫學研究成果。
設計我們應用文本挖掘技術和作者關鍵詞分析將出版物與疾病組聯係起來。分數計數用於量化一個機構或國家針對疾病的生物醫學研究產出。我們計算了研究成果的全球市場份額,作為發表量的相對衡量標準。我們將“頂級出版物”定義為全球每種疾病類別被引用最多的前10%的出版物。我們使用來自一個機構或國家的頂級出版物的百分比作為研究質量的指標。
結果我們能夠將數據庫(基於Web of Science)中650萬份生物醫學出版物中的54%歸類到一個疾病組。我們可以把78%的出版物歸到一個特定的機構。我們顯示,在2000年至2012年期間,“其他傳染病”是最大的疾病組,有337485篇出版物。生活方式疾病、癌症和精神障礙的研究成果增長最快。在每一疾病類別中,被引用最多的前10%的出版物中,美國的數量最多,占全球的45%。伊朗(+3500%)和中國(+700%)的研究量增長最快。
結論該方法為以新的方式評估生物醫學研究成果提供了一種工具。它可以用於評估曆史研究業績,支持研究項目組合管理的決策,並分配研究經費。此外,使用這種方法將特定疾病的研究成果與疾病負擔聯係起來,有助於更好地理解生物醫學研究的社會影響。
- 衛生經濟學
這是一篇根據創作共用署名非商業性(CC BY-NC 4.0)許可發布的開放獲取文章,該許可允許其他人以非商業性的方式發布、混編、改編、構建本作品,並以不同的條款許可其衍生作品,前提是原始作品被正確引用且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/
來自Altmetric.com的統計
本研究的優勢和局限性
提出的方法為269個疾病組的研究數量和質量提供了定量洞察。
該方法可用於疾病水平的曆史研究績效評估。它可以支持研究項目組合管理方麵的決策,顯示機構和國家的相對優勢和劣勢,以及確定國家和全球各級的研究差距。它在分配研究經費方麵也很有價值。
作者關鍵詞被使用,而不是標準化的醫學主題標題描述符,這在Web of Science數據庫中是不可用的。
例如,有關分子機製、醫療技術和健康科學的研究往往不能歸類為特定的疾病組,因此不包括在我們的結果中。
簡介
生物醫學研究的目標之一是消除疾病負擔。歐洲資金方麵的重大社會挑戰也建立在(生物醫學)研究應有助於疾病的預防和治療的前提之上。1
然而令人驚訝的是,迄今為止生物醫學研究成果還沒有被係統地按疾病分類。2大多數按主題分析生物醫學研究的公開可用指標都有嚴重的局限性。科睿唯安公司(Clarivate Analytics)生產的Web of Science (WoS)數據庫中的研究領域定義過高,因為它們涵蓋了一個完整的醫學專業。3.愛思唯爾生產的Scopus數據庫也存在同樣的問題。醫學主題標題(MeSH)術語4是更具體的,但隻對選定的期刊可用。
幾位作者努力分析了疾病層麵的研究成果和資金,但僅針對某些疾病。埃文斯等根據《國際疾病分類》第九修訂版(ICD-9)章節,對19種疾病類別的國家間研究成果進行了比較。5Gillum也等6和總等7分析了從國際疾病分類中選出29種疾病的疾病負擔和研究經費。在其他各種研究中,具體疾病的供資、研究成果和疾病負擔均采用個案方法加以說明。例如,黃熱病就是這樣做的8以及被忽視的熱帶病。9在其他研究中,對特定國家的生物醫學研究總產出進行了分析10 11或者在國家之間進行比較。12日13
文本挖掘技術越來越多地應用於生物醫學文本,以發現看不見的關係。14在本研究中,我們使用這些技術來創建疾病組的參考結構,並相應地對出版物進行編目。這在生物醫學研究成果和疾病層麵的其他可用信息之間架起了一座橋梁,有助於更好地理解生物醫學科學的社會影響。
方法
生物醫學出版物的選擇
該分析基於萊頓大學科學與技術研究中心(CWTS)的Clarivate Analytics WoS數據庫。由於本研究的目的是量化疾病的研究產出,我們隻包括生物醫學研究領域。在250個WoS研究領域中,我們選擇了84個最具有醫學導向的領域。我們通過查看八個荷蘭大學醫學中心的研究成果來驗證選擇:超過98%的出版物都在這些領域之一。在線補充附錄1提供本研究中包括的研究領域的完整列表。該數據集編製於2014年6月。它包括在2000年至2014年初期間發表的84個選定研究領域的所有出版物,WoS文檔類型為“文章”或“綜述”。由於CWTS內部版本WoS數據庫的定期更新,並非2014年前6個月的所有出版物都可用。該數據集總共包含650萬份出版物。
出版物按疾病類別分類
根據ICD-10分類,我們定義了269種疾病類別,並涵蓋了該分類的全部範圍。我們采用了兩步方法將出版物按疾病類別分類。
首先,我們對作者在其出版物中列出的作者關鍵詞進行分類。在我們的數據集中,至少有10個出版物使用了158 700個唯一作者關鍵詞。在這些關鍵詞中,我們列出了32,400個最常用的關鍵詞(每個關鍵詞在70多篇出版物中使用),並對其進行了進一步評估。這些關鍵詞中有21%是針對單一疾病組的。例如,關鍵詞“阿爾茨海默氏症”與“癡呆症”聯係在一起。許多關鍵字不適合用於對疾病組進行分類,因為它們要麼太籠統,要麼不針對疾病。與疾病組無關的關鍵詞有“炎症”和“鎖眼手術”。我們注意到,並非所有的出版物都包含作者關鍵字。
第二步,利用文本挖掘算法搜索出版物標題和摘要中的疾病相關術語。在這一步中,首先由醫療專業人員手工生成10 983個明確的疾病特定術語列表,以描述特定的疾病組。疾病組“前列腺惡性腫瘤”的術語示例包括“前列腺癌”、“前列腺癌”、“前列腺惡性腫瘤”和“前列腺肉瘤”。生成的特定疾病術語由另一名醫療專業人員審查,以防止歧義。隨後,在標題或摘要中有這10 983個術語中的1個的出版物被分配到相應的疾病組。如果同一份出版物被分配給多個疾病組,則對所有疾病組都進行充分統計。
該方法在幾個方麵得到了驗證。第一步是對分配到某個疾病組的680份出版物的隨機樣本進行手工檢查。隨後,對315份不屬於某一疾病組的出版物進行了手工檢查。該檢查由研究專業人員執行,其中包括研究協調員和荷蘭大學醫療中心的臨床圖書管理員。比較了世界衛生組織各研究領域可分配給某一疾病組的出版物的百分比。此外,還與這些機構的研究人員和院長討論了對疾病組別的研究成果進行分類所產生的若幹機構概況。
出版物按機構和國家分類
一個機構的名稱在出版物中經常以多種不同的方式報道。例如,一些作者報告縮寫名稱,而另一些作者報告全名,一些作者報告與某所醫院有關的大學的名稱,而另一些作者隻報告醫院本身的名稱。在分析機構的研究成果時,這些不一致是有問題的。我們根據2014年萊頓CWTS排名中使用的附屬機構分類來解決這個問題。15通過這種方式,我們可以比較全球750所最大的大學(基於在WoS上發表的論文數量)、1099家醫院和46家公共研究機構的研究產出。在比較國家之間的研究成果時,包括所有附屬機構的出版物,以及未列入選定機構的出版物。
出版物部分分配給各機構和國家。這是根據某一出版物的地址列表中提到某一機構或國家的地址數量來計算的。例如,如果一份出版物包含五個地址,其中兩個地址提到萊頓大學(例如萊頓大學內的兩個不同院係),則該出版物以2/5 = 0.4的權重分配給萊頓大學。所以這篇論文不算作萊頓大學的完整論文,而是占完整論文的40%。這種方法稱為地址級分數計數。16
研究的數量和質量指標
我們使用了每個疾病組的生物醫學研究的數量和質量的幾個指標,以提供對特定機構和國家研究實力的定量洞察。數量是用一個機構或國家的出版物的部分數量來衡量的。引用常常被視為科學影響的指標,或者不太準確地說,是質量的指標。由於研究領域在引用實踐中存在差異,因此很難對不同領域之間的引用數量進行比較。同樣,比較較老和較新出版物的引用數量也存在問題,因為較老的出版物有更多的時間來積累引用。為了克服這個問題,我們在每一個疾病組和出版年份的組合中確定了全球被引用最多的10%的出版物。在比較國家或機構時,我們使用這些“頂級出版物”的數量作為產出質量的指標。隻使用出現在2000年至2012年之間的出版物來確定“頂級出版物”,因為2012年之後的出版物太近了,無法計算2014年有意義的引用統計數據。自我引用,即作者對自己作品的引用,被排除在外。為了比較國家之間、機構之間和不同時期的研究成果,我們使用一個機構(或國家)在每一疾病類別的全球發表量中所占的份額作為總量(數量)的指標。 Additionally, we used the share of top publications in the total output of an institution (or country) as a size-independent indicator for quality. This relative measure enables a comparison of research output for different disease groups within the research portfolio of an institution (or country).
患者和公眾的參與
沒有患者或公眾參與我們的研究。
結果
本節首先描述我們的方法的驗證結果。其次,介紹了該方法的幾種應用結果。
所提方法的驗證
我們能夠將選定的84個研究領域的54%的出版物與一個疾病組聯係起來,總共有320萬份出版物。在所有的出版物中,29%被分配給一個單一疾病組,14%被分配給兩個疾病組,11%被分配給三個或更多疾病組。有大量疾病特異性出版物的研究領域主要是臨床研究領域。在過敏症學、風濕病學和臨床神經學等研究領域,超過80%的出版物都與某一疾病組有關。倫理學、顯微鏡學和生物物理學等研究領域的疾病特異性出版物比例要低得多(分別為10%、17%和27%)。在這些領域中,我們確實不期望大量的出版物與某個疾病組相關,因此低百分比證實了我們的方法如預期的那樣運行。我們在網上提到補充附錄1查看每個研究領域特定疾病出版物的份額概況。
從2000年到2012年,納入研究領域的年度出版物數量增長了64%。在同一時期,針對疾病的出版物數量增加了92%。這意味著針對疾病的出版物所占的份額有所增長:從2000年的48%上升到2012年的57%。經過人工驗證,我們發現2%的特定疾病出版物樣本(n=680)被錯誤地分配到一個疾病組,1%的未分類出版物樣本(n=315)沒有被錯誤地分配到一個疾病組,這兩者都表明該方法是準確的。錯誤的鏈接主要是由於諸如“糖尿病患者被排除在外”等句子在出版物摘要中。
在這項研究中,對大約1900所機構進行了分析。這些機構加在一起占據了全球特定疾病出版物中69%的地址行。78%的針對疾病的出版物至少有一名作者來自這些機構之一。
正如預期的那樣,我們發現荷蘭不同類型的研究機構在疾病特異性出版物的份額上存在很大差異。我們與荷蘭和國外五所頂級機構的研究人員和院長驗證了機構特定的結果。在所有情況下,針對特定疾病的研究成果都符合他們對自己所在機構相對於世界上其他機構的地位的預期。
應用1:按疾病組劃分的生物醫學研究產出
使用我們的方法,我們可以比較不同疾病組之間的研究成果。2000-2012年期間,不同疾病類別的出版物數量差異很大,見圖1.“其他傳染病(不包括艾滋病毒和結核病)”是發表最多的疾病類別。“糖尿病”、“代謝性疾病”和“情緒障礙”的比例也很高。惡性腫瘤的出版物數量僅略高於心髒疾病的出版物總量。
有趣的是,按疾病分類的全球研究概況隨著時間的推移並不是恒定的。一些疾病類別的研究產出快速增長,而其他疾病類別的研究產出僅略有增長,如圖2.生活方式疾病(肥胖和糖尿病)、癌症(肺癌、前列腺癌、結腸癌和乳腺癌)和精神疾病(抑鬱症和其他精神疾病)在全球研究組合中的份額有所增加。另一方麵,諸如貧血、胸痛和喉嚨痛、白血病和艾滋病毒等疾病在全部研究資料中所占的份額有所下降,盡管研究產出的絕對數量仍有增長。
應用2:按疾病和國家分列的生物醫學研究產出
被引用最多的特定疾病研究出版物來自一小部分國家。圖3顯示各國在每一疾病組被引用最多的10%出版物中的相對份額。在被引用最多的前10%的研究成果中所占份額最大的前10個國家占全世界特定疾病出版物總量的83%。值得注意的是,在被引用最多的前10%的出版物中,美國占了45%。然而,各國之間的研究概況存在差異。例如,加拿大關於“抑鬱症”和“中風”的頂級出版物的份額相等,而中國關於“中風”的頂級出版物的數量是“抑鬱症”的兩倍。
可以評估每個國家在某一特定疾病的出版物數量中所占份額隨時間的發展情況。圖4顯示了2000年至2012年各國乳腺癌出版物數量的增長情況。雖然在此期間每個國家的出版物數量都有所增長,但有些國家的增長速度比其他國家快。大多數西方國家的增長都低於世界平均水平。增速高於平均水平的國家主要是發展中經濟體,中國的增速達到700%。值得注意的是,伊朗的研究產出顯著增長了3500%,但其針對疾病的出版物總量仍然很小。
應用3:機構層麵按疾病分類的研究產出
我們的方法允許識別在特定疾病群體的研究中具有顯著地位的機構。我們以多發性硬化症(MS)為例,但是圖5可以很容易地構建本研究中使用的269個疾病組。該圖顯示了所有機構的MS出版物數量以及它們在全球MS引用最多的前10%的出版物中所占的份額。哈佛在多發性硬化症研究中的獨特地位可以從以下事實中得到證明:哈佛在多發性硬化症研究的總發文量中所占的份額最大,四分之一的論文都是關於多發性硬化症的引用最多的前10%的論文。其他在多發性硬化症研究中數量和質量都非常顯著的中心有倫敦大學學院和阿姆斯特丹自由大學。這樣的顯示圖5認可那些沒有高產出卻有高質量的機構。
使用我們的方法,可以跟蹤個別機構對特定疾病群體的研究成果。作為一個例子,圖6顯示了南非艾滋病研究成果的增長。從2000年到2004年,南非每年的艾滋病研究成果相對穩定,但從2005年開始,幾所南非大學迅速增長,在數量上超過了幾家著名的艾滋病研究機構。這種增長的部分原因似乎是國際合作的增加。例如,2012年南非有關艾滋病的所有出版物中有10%是與哈佛大學合作出版的,而2005年這一比例僅為2%。在此期間,國際知名的哈佛科學家如布魯斯·沃克和蒂爾Bärnighausen已經開始為誇祖魯-納塔爾大學做兼職工作。
除了對特定疾病的研究機構進行比較之外,我們的方法還允許我們根據數量和前10%的出版物,按疾病繪製國家或機構的研究組合。使用這些組合圖,我們現在可以比較各機構之間針對特定疾病的完整研究組合。作為一個例子,我們繪製了四所大學的組合圖圖7.很容易就能看出它們的側麵有很大的不同。哈佛大學的出版物數量比其他三所大學都要多。帝國理工學院有大量的疾病研究小組,他們的出版物中至少有30%是頂級出版物。阿姆斯特丹大學和卡羅林斯卡學院在食道惡性腫瘤的研究中都有顯著的地位,而帝國理工學院則沒有。
討論
我們提出的方法允許對WoS中的出版物進行係統分類。我們能夠將WoS數據庫中650萬份生物醫學出版物中的54%分類到一個疾病組。在2000年至2012年期間,“其他傳染病”是最大的疾病類別,有337485篇出版物。在這一時期,生活方式疾病、癌症和精神障礙的研究成果增長最快。在國家層麵上,美國在每一疾病類別被引用最多的前10%的出版物中占了最多的數量,在全球的份額為45%。伊朗(+3500%)和中國(+700%)的研究量增長最快。在一個機構層麵上,我們能夠將78%的生物醫學出版物與一個特定的機構聯係起來。下麵我們將描述一些潛在用途的例子,然後討論未來研究的可能性。
所提方法的潛在價值
該方法可用於在特定疾病水平上評價曆史研究績效。它可以支持研究項目組合管理的決策,顯示機構和國家的相對優勢和劣勢。將這些見解與創新和研究生產力指標結合起來17可以說明研究業績是否與科學知識成功轉移到臨床實踐相一致。
將特定疾病的研究成果與疾病負擔聯係起來,可以洞察全球和區域研究中的“白點”。18這些洞見可以支持基於事實的研究資金分配,使研究組合更好地適應當地或全球需求,並隨著時間的推移調整組合以適應這些需求的變化成為可能。這可以成為進一步理解除了疾病負擔之外是什麼推動了研究產出的起點,例如,經濟實力、政治結構、研究遺產等。定量地揭示決定特定疾病出版量的不同驅動因素,可以為我們如何調整各國的研究努力,從而對減少疾病負擔產生更大影響提供見解。
額外研究的機會
使用基於ICD-10分類的疾病組具有詳盡無遺的優點:所有疾病都可以包括在內。當尋找一種罕見疾病的研究時,使用的分類係統不夠具體。然而,我們的方法可以通過使用特定的作者關鍵詞和在標題和摘要中尋找的定製文本短語來回答這些特定的問題。在作者關鍵字旁邊添加MeSH描述符可以進一步完善該方法,盡管這需要使用其他書目數據庫,因為WoS不包括MeSH描述符。最終,使用動態的和定製的研究類別將更容易找到在特定疾病研究中處於最強地位的機構,從而以目前尚不可能的方式回答組合問題。
我們的方法根據疾病命名法對每一份出版物進行分類,但沒有對特定疾病研究的性質進行分類。例如,一份按疾病類別分類的出版物可以描述一種與發病機製有關的新基因,分析該疾病的社會影響,或僅僅說明該疾病是一種新的外科技術的潛在應用。理想情況下,該方法應該輔以基於文本挖掘的附加類別,可以識別研究和應用的類型。此外,臨床試驗登記(例如,https://www.clinicaltrialsregister.eu/或https://clinicaltrials.gov/)。例如,使用基於MeSH描述符的簡單算法,就可以識別基於細胞的、基於動物的和基於患者的研究。19
既然出版物已按疾病類別分配,研究數量和質量的文獻計量指標可與有關疾病級別的其他現有信息結合起來。例如,護理質量、患者報告的健康結果、治療成本和專利。這對於大學醫療中心的研究和醫療保健組合的協調是有價值的。
結論
我們已經證明,有係統地將研究成果與疾病類別聯係起來是可能的。我們的方法使比較國家或機構的研究產出成為可能,並監測生物醫學研究產出隨時間或疾病的變化。該方法的新穎性和價值在於,它允許對特定疾病進行分析,例如,使比較研究成果與疾病負擔成為可能。由於生物醫學研究的主要目標是減輕疾病負擔,我們的方法允許評估目前的優勢和不足。
致謝
作者要感謝荷蘭大學醫學中心的研究協調員和院長對驗證這種研究方法的貢獻,感謝醫療實習生小組在起草特定疾病術語方麵的幫助,感謝Marcel Levi教授對該方法的評論。
參考文獻
腳注
貢獻者LvdL和NH對疾病組進行了定義,對作者關鍵詞進行了分類,並製定了針對疾病的關鍵詞。TdK、NH和LvdL進行分析。LvdL與NH和TdK共同撰寫了手稿。NH和LvdL對研究人員和院長的結果進行了驗證。LW實現了文本挖掘算法,將出版物分配到疾病組,並計算文獻計量統計。萊頓大學科學與技術研究中心(CWTS)為參與研究的大學、醫院和公共研究機構提供了清潔後的地址數據。IM, LW和AG對稿件進行了反饋。
資金作者們還沒有從任何公共、商業或非營利部門的資助機構為這項研究宣布具體的資助。
相互競爭的利益沒有宣布。
病人的同意不是必需的。
來源和同行評審不是委托;外部同行評議。
數據共享聲明可提供技術附件。附錄包括世界衛生組織各研究領域對生物醫學研究的定義。