條文本

下載PDF

原始研究
提取社會和行為決定因素的簡化數據科學方法:回顧性圖表審查
  1. 安德魯·鄧
  2. 亞當·威爾科克斯
  1. 生物醫學信息學與醫學教育華盛頓大學西雅圖華盛頓美國
  1. 對應到安德魯·鄧;akteng在}{uw.edu

摘要

目標我們的目標是從臨床記錄中提取社會因素的子集,使用常見的文本分類方法。

設計回顧性圖表回顧。

設置我們與一家當地一級創傷醫院合作,該醫院位於一個服務不足的地區,其住房不穩定的患者群體約為6.5%,並提取了與急性護理患者的各種社會決定因素相關的文本筆記。

參與者回顧性提取了43 798例急性護理患者的病曆。

方法我們隻使用開源Python包來測試簡單的文本分類方法,這些方法可能很容易泛化和實現。我們從各種來源提取社會曆史文本,如入院和急診科記錄,超過5年的時間框架,並進行手動圖表審查,以確保數據質量。我們手動標記了注釋的情緒,獨立處理每個文本條目。使用兩種不同特征選擇方法(單詞袋和bigrams)的四種不同模型對提取的臨床文本進行分類和預測住房穩定性、煙草使用和酒精使用狀態。

結果從我們的分析中,我們發現了應用開源分類技術的總體積極結果和指標;住房穩定性、煙草使用和酒精使用的準確度分別為91.2%、84.7%、82.8%。我們的分析有許多局限性,包括由於患者情況而不存在的社會因素,多個複製轉發條目和速記。此外,很難換算煙草和酒精的使用程度。然而,與結構化數據源相比,我們對非結構化票據的分類方法在住房和酒精使用方麵產生了更多結果;吸煙對無條理的筆記效果較差。

  • 衛生信息學
  • 社會醫學
  • 病史(見病史)
  • 生物技術與生物信息學

數據可用性聲明

沒有可用的數據。由於患者隱私、保密和美國醫療保健法律的關係,所使用的數據無法共享。

http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容,請使用下麵的鏈接,該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可,以多種不同的方式重用內容。

本研究的優勢和局限性

  • 從我們的分析中,我們首先可以看到文本分類器在應用於提取的房屋穩定性、煙草使用和酒精使用狀態的臨床記錄時是有希望的。

  • 此外,我們還發現,診斷代碼和攝入量調查等結構化數據源各不相同,可能不是了解住房穩定性、煙草使用和酒精使用的最全麵方法。

  • 我們的簡化方法表明,開源簡單文本分類器可以用於預測社會和行為決定因素的文本情緒,並可以補充當前的結構化來源,為患者提供更完整的社會曆史。

  • 然而,即使我們的方法有一些限製,我們相信這個工作流程可以幫助臨床醫生,並提供一個容易實現的關於患者社會曆史的快照。

簡介

大多數數據通常可以分為結構化和非結構化,其中結構化數據可以包括生命體征和實驗室結果等項目,而非結構化數據可以包括文本筆記或圖像等項目。1盡管結構化數據通常更容易提取和分析,但非結構化數據可能提供結構化數據中不存在或不容易識別的一係列信息。隨著醫療保健機構擴大數據收集以包括非臨床特征,更多圍繞行為健康和健康的社會決定因素(SDoH)信息的非結構化數據開始變得更容易獲得。此外,人們對醫療補助患者的興趣越來越大,因為SDoH可以推動高達80%的健康結果,特別是在這類患者人群中。2因此,SDoH和REAL(種族、民族和語言)數據現在被用於二次分析,因為最近的研究表明,SDoH與健康結果之間存在相關性,越來越需要研究人口之間的健康差異。3.

SDoH和REAL可包括住房穩定性、就業機會和醫療服務、教育水平、語言和社會經濟條件。4這些指標是不同社會的描述,可用於預測衛生結果和衛生幹預措施的采用情況。5由於它們可能是健康的有力指標,許多機構現在開始分析和吸收SDoH和REAL信息,無論是通過文本注釋還是標準化編碼,如《國際疾病分類》(ICD)。6此外,SDoH可以讓醫療團隊更全麵地了解患者的病情。7然而,由於各機構的電子健康記錄(EHR)中沒有標準化的SDoH篩查工具,SDoH的接收存在挑戰8;此外,像ICD這樣的編碼方案在二次分析中被證明是不可靠的,因為編碼可以過度簡化症狀和診斷,導致編碼的不確定性,編碼錯誤可能來自無意的錯誤,甚至是向上編碼。9日10此外,由於補償激勵或其他優先事項,某些SDoH數據可能比其他數據更完整。11過去的研究表明,再入院受到患者健康狀況和SDoH的高度影響,並建議臨床工作人員和研究人員在評估再入院風險時應考慮SDoH。12

2018-2019年金州社區衛生需求評估報告了向居民進行的衛生需求評估調查的結果,以確定區域感知的衛生保健問題。會議確定,住房負擔能力和住房穩定性是主導總體健康的主要挑戰。13beplay体育相关新闻還強調心理健康是保健提供者麵臨的挑戰;精神疾病可由抑鬱症、精神分裂症以及與酒精和物質有關的疾病引起。13中國社會調查報告稱,收入最低的成年人遭受嚴重心理困擾的可能性是高收入成年人的15倍左右。此外,值得注意的是,該區域的部分地區繼續麵臨成人吸煙率的挑戰。13在當地,據估計,King Country至少有2.2萬名無家可歸者,西雅圖地區有1.2萬多人無家可歸,比前一年增長了4%。14住房不穩定與各種健康不平等有關,如預期壽命縮短、發病率升高和急性醫院服務使用率增加,“因為無家可歸和健康不平等的社會決定因素往往交織在一起,長期無家可歸進一步加劇了健康狀況不佳”。15因此,重要的是將住房穩定性和其他SDoH作為一個綜合健康問題來對待,以幫助改善臨床環境中的健康結果。盡管一些研究表明,與有保險的患者相比,住房不穩定的患者更有可能在嚴重敗血症入院後死亡,16其他研究表明,衛生不平等的影響仍不清楚,需要進一步調查。17此外,各種行為習慣,包括吸煙和飲酒,雖然可能不會直接被視為SDoH,但會影響健康決策和結果。例如,一項研究發現,喝酒和吸煙的參與者攝入了更多高脂肪和高糖、低維生素和礦物質的食物,以及他們認為不太健康的食物,以及以不太健康的方式製作的食物。18

近年來,本港的吸煙率約為13%;然而,在黑人/非裔美國人或多種族個體中,這一比例是成年白人的兩倍,是成年亞裔的四倍。此外,據報道,與高收入家庭相比,低收入家庭吸煙的可能性是低收入家庭的三倍。13日19毒品和酒精的使用也有相似的指標;在該地區,“與非西班牙裔白人相比,黑人中由毒品和酒精引起的死亡人數高出22%,美國印第安人/阿拉斯加原住民的死亡人數高出四倍”,2015年,酒精使用在當地死亡人數中占4.97/10萬。20 21因此,研究社會決定因素和健康行為(統稱為健康的社會和行為決定因素(SBDH),以更好地了解患者群體可能很重要。18

最近機器學習和人工智能方麵的技術進步顯示出巨大的潛力,為信息學家和臨床醫生提供了更好地理解非結構化數據的途徑。

在臨床環境中,已經有許多采用自然語言處理(NLP)的方法來幫助處理非結構化的臨床文本記錄。NLP的常用用途包括提取診斷和主要報告,以及對信息進行分組以提高質量。有各種各樣的NLP方法可用於臨床環境,如自動標記條件或感興趣的變量,情緒分類,甚至文本提取。各種開源的NLP和本體論工具,如自動檢索控製台、Apache臨床文本分析和知識提取係統(Apache cTAKES)、MetaMap和HITEx、統一醫學語言係統(UMLS) Metathesaurus和BioPortal已被用於輔助文本提取或分類。22 - 24另一方麵,不太複雜的分類方法也被用於識別特定的患者群體、風險評估或幫助驗證結構化注釋。25日- 27日最近的範圍審查發現,盡管從業人員通過電子病曆收集了護理點的各種SBDH數據,但迄今為止自動化技術的總體使用有限。28

為了實現一種易於推廣的方法來對選定的社會因素進行分類,我們從當地醫院提取了與SBDH相關的非結構化和結構化數據源,以識別並生成一個框架來自動從文本筆記中提取和分類SBDH。我們的重點是住房穩定狀況、吸煙和飲酒情況。之所以選擇這三個社會因素,是因為它們對衛生結果和當地公共衛生的影響有直接影響在14到18歲並出現在EHR中。為了解決從非結構化文本注釋中提取SBDH的相關挑戰,我們的目標是使用數據科學領域常用的低門檻開源工具創建一個通用的框架。由於注釋和風格的選擇可能是特定於機構和位置的,我們試圖創建一個可推廣的模型,而是一種簡化的方法,可以使用常見的現成NLP和數據科學工具輕鬆實現。

方法

研究設計與概述

我們的工作流程的高級概述見圖1.我們回顧性地從一級創傷中心和學術教學醫院的急性護理環境中提取患者數據,目的是創建一個通用且易於應用的工作流程,以從臨床記錄中提取和分類SBDH因素。我們采用了雙管齊下的方法,從1年時間跨度(a組)的患者子集中收集非結構化數據,以創建和測試文本分類模型,還從5年時間跨度(B組)的患者子集中收集結構化和非結構化數據,以應用從a組創建的最佳模型,並比較兩種數據類型之間的結果。我們通過各種NLP分類方法對三個社會因素(1)住房穩定性,(2)煙草使用和(3)酒精使用)對患者進行自動分類和評分。我們對房屋穩定性的一般工作流程,類似的方法也用於煙草和酒精的使用,見圖2

圖1

工作流過程的高級概述。

圖2

文本提取,分類和評分工作流程。急診科。

研究人群

數據不僅來自港景醫療中心(harbour view Medical Center),這是一家擁有413張床位的學術醫院,患者主要來自華盛頓,也來自五個州的地區。292014年,共有17121名住院患者,其中19%的患者屬於少數種族或少數民族,37%的患者參加了醫療補助計劃。29 30此外,2015年,西雅圖的非美國出生人口估計約為21%,突出了這一患者群體的潛在多樣性。30.

數據來源、提取和驗證

我們使用結構化查詢語言(SQL)直接從基於python的集成Jupyter Notebook中調用查詢,提取了與住房穩定性、煙草使用和酒精使用相關的結構化和非結構化數據源:

  1. 結構化數據源包括計費和診斷/ICD 9和10代碼、問卷或Epic SmartForm響應、地址字段(位置)、問題列表(ICD 9)、患者遭遇、臨床事件(實際護理遭遇)和出院/處置位置。

  2. 非結構化數據源包括來自急診科(ED)、入院記錄、社會工作和救護車記錄的文本記錄。

由於出院病曆與入院和急診科病曆的記錄格式不同,因此沒有對出院病曆進行研究,因此很難對SBDH進行選擇性文本提取。從我們最初的a組1年時間範圍內的患者標識符列表中,我們對50名患者隨機子集進行了手動EHR驗證,以驗證臨床記錄的完整性,並確認社會曆史和社會因素在臨床記錄中的位置。廣泛的研究和與內部數據分析師的交談證實了這些主題(住房、煙草使用和酒精使用)在結構化數據源中的位置。

數據清理

確認後,提取A組和b組的臨床記錄。在通過自然語言工具包(NLTK)在Python Jupyter筆記本中分類和分析之前,對記錄進行清理(例如,刪除符號,轉換為小寫)。我們一般的文本提取和清洗工作流程可以在圖3.但是,住房穩定性說明和使用煙草或酒精說明在文體和語法上是不同的,這兩套說明都需要不同的額外清理步驟。包含“非無家可歸者”字樣的住房穩定報告通過正則表達式轉換為“有住房者”。此外,為了住房的穩定,還創建了一個概念詞典,用更一般的概念代替當地設施的名稱(例如,“聯合福音使命”被轉換為“庇護所”)。這樣做是為了探索算法如何處理形式名詞。

圖3

文本提取和清洗過程。在對與煙草和酒精使用相關的文本進行分類時,對注釋執行了額外的步驟,以提取兩倍或三倍的負麵情緒。ROS,係統回顧。

對於B組的文本注釋,我們執行了額外的概念提取步驟。使用煙草和酒精的說明通常包含不完整的三倍或兩倍(缺乏主語、謂語、賓語格式)(例如,“否認吸煙、飲酒、吸毒”)。由於句子結構不完整,用於解析、提取和分類三元組的常用NLP工具(如Stanford CoreNLP)並不適用,因為這些工具依賴於三元組的所有三個部分。因此,這些與煙草和酒精使用有關的注釋經曆了額外的步驟,執行單獨的關係提取,首先識別一個負麵情緒詞(例如,否認),然後通過逗號或連詞(例如,和,或)分別提取列表中以下與sbdh相關的對象,然後標記或重新分類負麵情緒到列表的所有組成部分。的左側可以看到我們的過程圖3.如果負麵列表的正則表達式提取與文本分類預測的結果不同,則正則表達式提取將在評分之前覆蓋最終結果。一旦執行了這些步驟,數據就被認為是幹淨的,適合分類。

模型建立

使用A組的清洗文本生成並測試分類模型。這些筆記被分成70/30的驗證集和測試集。我們將四種不同的常見NLP文本分類模型應用於測試集(通過SciKit Learn):多項naïve貝葉斯,支持向量機,邏輯回歸和隨機森林。使用默認參數和詞袋方法。然後選擇準確性表現最好的模型並應用於更大的語料庫B組,刪除A組患者的筆記,以避免過擬合和分類偏差。在住房、吸煙和飲酒方麵進行了這一過程。

得分一代

為了創建一種簡單的方法來識別正在經曆社會不穩定的患者,我們基於分類筆記創建了一個評分指標。將最優模型精確應用於提取的文本筆記的整個語料庫後,生成住房穩定性、煙草使用和酒精使用評分。患者標識符按患者位置繪製,在此時間段內不在急性護理環境中的患者被刪除。三種不同的評分方法被用來描述這些社會因素:(1)預測按患者遭遇數求平均值,然後按患者標識數求平均值,(2)預測按年份求平均值,然後按患者標識數求平均值,(3)預測按年份求平均值,其中每年都有一個權重,其中最近的年份權重最高,最遠的年份權重最低(例如,2019年的預測加權為5倍,2015年的預測加權為1倍)。然後在我們的結構化數據上重複這一評分生成過程,對所有三個社會因素進行比較和分析。我們還提取了B組患者名單的結構化數據。

患者和公眾參與

沒有患者參與。這項回顧性探索是一項更大研究的一部分,並得到了華盛頓大學機構審查委員會#STUDY00006723的批準。患者數據元素,包括遭遇標識符、種族、年齡和與SBDH的記錄,直接從數據倉庫中提取並存儲在加密的計算機上,沒有在安全和封閉的環境之外分發或共享。在此分析中沒有存儲患者標識符或姓名。

結果

研究對象的特點

提取並納入2015年至2019年期間的臨床記錄(急診科、入院、社會工作和救護車),形成b組,前200名患者的記錄被納入A組,1 47 457名患者的記錄被納入b組。在同一時間內,61 767名患者接受急性護理。在提取和模型預測後,患者記錄與住院患者位置進行交叉引用,僅保留了2015年至2019年共43 798名患者的急性護理記錄。最後一個亞組的患者人口統計數據為63% (n= 27575)男性,37% (n= 16223)女性,88.2% (n= 38634)非西班牙裔或拉丁裔,10.5% (n=4609)西班牙裔或拉丁裔,1.3% (n=555)未知或未回答。進一步的描述性統計數據見表1

表1

人口統計資料

數據屬性

表2說明每個相應提取級別的數據量,特別是住房狀況。我們首先從急診科和入院記錄中提取文本,形成A組,該組由5萬行或文本條目組成,覆蓋3200名獨特的患者,時間跨度為1年。在此基礎上,我們以二進製方式手動標記住房穩定性概念,其中0表示住房穩定,1表示住房不穩定的任何程度,無論其嚴重程度如何。由於手工標記是一個勞動密集型的過程,因此隻有前6000行文本被標記,覆蓋218個不同的患者。然而,在這前6000行中,許多筆記沒有包含暗示住房狀況的文本,或者由於患者的情況而為空。因此,6000行中隻有1785人被標記,涵蓋200名獨特的患者,其中995人(55.7%)被標記為住房穩定,790人(44.3%)被標記為住房不穩定。我們還發現這個子集中有5.7%的條目是重複的或複製轉發的條目。對煙草和酒精使用進行了相同的工作流程。然而,隻有1108行標記為使用煙草,1220行標記為使用酒精,在這兩種情況下,0表示不使用,1表示很少/以前/偶爾使用,2表示目前使用,無論使用程度如何。煙草使用導致446個(40.3%)標簽為不使用,129個(11.6%)標簽為很少/以前/偶爾使用,533個(48.1%)標簽為目前使用。 Similarly, alcohol use resulted in 595 (48.8%) labels for no use, 185 (15.2%) labels for rare/previous/occasional use and 440 (36%) labels for current use.

表2

提取住房狀況的數據量

模型的性能

方法部分中提到的四種不同的常見文本分類器應用於手動標記的A組數據。統計指標,包括準確性,精密度和召回,見表3和表4.分類器和每種分類技術之間的房屋穩定性的準確性總體上相當高,從84.36%到92.18%。煙草和酒精使用的準確度較低,煙草使用的準確度為70.87%至84.68%,酒精使用的準確度為69.95%至82.79%。此外,對於每個表現最好的模型,對於每個社會因素,對文本分類最有影響力的單詞都在表5.為每個社會因素選擇了表現最好的分類模型,並用於將模型應用於B組的整個語料庫。

表3

文本分類器之間的準確性

表4

性能最佳的分類器詳細指標

表5

單詞或短語重要性排名

評分結果與比較

在對B組患者的住房穩定性、煙草使用和酒精使用進行文本分類後,我們應用了方法部分中描述的評分度量方案。我們生成了三種不同的分數,根據時間計算和加權不同。由於社會因素及其影響會隨著時間的推移而變化,我們的最終分數會考慮最近的筆記條目,其最終分類分數會高於前幾年的筆記。使用相同的過程,我們利用結構化數據源提取住房穩定性、煙草使用和酒精使用並對其進行評分,並將結果與非結構化過程進行比較。

住房穩定

使用筆記,我們將839名患者劃分為住房不穩定,得分在0.5以上,將2370名患者劃分為住房穩定,得分在0.5及以下。我們采用該文本分類流程共對22 209例患者進行了分類,覆蓋了同期急症護理患者的50.71%。與結構化數據源相比,僅多發現791例(1.81%)患者。

煙草的使用

我們將4911例患者分類為目前使用煙草的患者,無論使用文本筆記的數量或程度(1.5-2)。我們將1480例患者分為很少/偶爾/過去使用煙草(0.5-1.5),7139例患者分為不使用煙草(0-0.5)。我們總共用該文本分類工作流對13 530例患者進行了分類,覆蓋了同一時間段內30.9%的急性護理患者。與結構化數據源相比,新增患者179 351例(40.9%)。

使用酒精

我們將2738名患者歸類為目前使用酒精的患者,無論使用文本筆記的數量或程度(1.5-2)。我們將4050例患者劃分為很少/偶爾/過去飲酒(0.5-1.5),13885例患者劃分為不飲酒(0-0.5)。我們總共用該文本分類工作流對20 673例患者進行了分類,覆蓋了同一時間段內急診患者的37%。與結構化數據源相比,沒有發現額外的患者。

討論

我們對各種SDoH的簡單文本分類方法的方法已經顯示出積極的結果。所選擇的分類模型是在研究文本分類技術時最常用的分類模型。此外,這些模型足夠健壯,可以減少對更複雜的基於機器學習的文本分類方法的需求,這些方法在臨床領域可能更難解釋,因為由於這些更複雜的分類方法的黑盒性質,權重和決策可能會被充值。一般來說,線性模型訓練速度快,可以很好地處理稀疏數據,並提供可解釋性。31此外,最近的研究還表明,更複雜的機器學習方法可能不會在預測能力方麵產生統計上的顯著改進,從而證明實施和測試這些更複雜的方法所需的時間和精力是合理的。盡管前景廣闊,但更先進的NLP方法,如卷積神經網絡,可能無法在改進或準確性與基於規則的方法的透明理解之間提供顯著的權衡。事實上,姚明發現與邏輯回歸和支持向量機實現相比,通過TensorFlow的卷積神經網絡(CNN)的F1分數並沒有顯著提高感興趣的特征。32最後,創建機構特定模型的一般化方法可以更好地用於整個醫療保健係統,因為每個機構記錄的臨床信息都存在方差。

雖然SBDH信息和其他社會因素可以指示整體健康,但SBDH的收集在很大程度上依賴於臨床工作人員對SBDH的篩選和記錄。此外,它還假設患者會準確、真實地回答。聯邦層麵的各種財政激勵措施推動了煙草使用和戒煙等社會因素的收集。然而,其他同樣重要的社會因素,如飲酒,卻沒有被捕獲的動機;相反,隻有更嚴重的情況才會受到刺激,比如酒精依賴或酒精成癮或障礙。11 33由於這種差異,我們發現結構化數據源不太可靠,而文本分類有助於更全麵地詳細描述患者。

我們對非結構化數據的文本分類僅依賴於ED、admit、social work和門診筆記,因為我們的解析和提取方法隻能用於具有社會曆史標題的特定格式的筆記。社會因素和其他社會曆史也可以記錄在其他地點,但與我們的方法不兼容。此外,社會工作和流動記錄僅用於住房狀況,隻有在記錄中包含與住房不穩定有關的單詞或短語時才會提取。使用這種方法是因為與急診科和入院記錄相比,筆記通常以更非結構化的格式存儲;沒有節頭。缺少節頭增加了提取注釋的難度,並且注釋經常會出現冗餘,這會幹擾我們使用的簡單文本分類方法。因此,我們決定提取包含與住房不穩定相關詞彙的筆記。此外,煙草和酒精使用記錄在文體和語法上存在挑戰。這些社會因素通常被歸為不完全三元組(例如,“否認飲酒、吸煙、非法使用藥物”)。分類算法通常難以將負麵含義循環到三重結構的所有組成部分。 Therefore, we used regex to specifically extract these triples and classify the note based on the presence of words related to tobacco or alcohol. Without this additional data cleaning or manipulation step, the negative sentiment in a list would not have been applied to all elements within the list, but rather only the first element. In our example of ‘denies smoking, drinking, drugs’, the negative sentiment of ‘denies’ would have only been applied to smoking as smoking immediately follows ‘denies’. However, with our additional concept extraction step, the negative sentiment of ‘denies’ is now also applied to ‘drinking’ and ‘drugs’. These results would then override the text classification algorithm, if there was a discrepancy. Therefore, the scoring metrics for these cases would not necessarily reflect the accuracy or performance of our scoring method.

有趣的是,在結構化數據源中,煙草使用的記錄明顯高於酒精使用和住房穩定性。然而,由於煙草使用是醫療保險和醫療保險服務中心(centers for Medicare and Medicare Services) CMS的核心質量衡量標準,可以預期,這一功能以結構化的形式更容易獲得,因為它經常在攝入表、篩查表或戒煙治療期間直接詢問患者。11此外,聯合委員會還製定了煙草績效衡量標準集,這是針對煙草篩查和戒煙谘詢的三個標準化績效衡量標準:(1)對18歲及以上患者進行煙草使用篩查;(2)煙草使用治療,包括住院期間的谘詢和藥物治療;(3)出院時的煙草使用治療管理計劃。CMS從2016年開始使用這些績效指標。34由於酒精消費量不是CMS推薦的成人核心質量衡量標準,有關酒精使用的數據量並不完整,因為在攝入過程中可能無法持續收集。

過去的研究一直指出,SBDH會影響患者的健康和結果。然而,SBDH的收集可能是建模和集成這些數據能力的主要限製因素。對於整個機構的SBDH數據,無論是通過筆記還是電子表格記錄,都沒有標準化的收集過程。此外,很多時候,由於患者的情況,SBDH數據可能不會被要求,或者可能不會定期更新。提供商和醫療機構應努力更定期地收集SBDH數據,即使數據字段不為空,因為SBDH狀態可能會發生變化。這些入院程序應該是現成的,而不是可有可無的;目前,由於現行的翻譯法律,隻需要填寫語言偏好。此外,教育患者使用患者門戶並通過這些門戶更新信息可以提供更多最新的SBDH信息。然而,我們應該注意到,弱勢群體很可能不是使用該功能的主要受眾,這是可以說需要更多關注的亞人群。

限製

我們的研究有很多局限性。在我們的工作流程中,有兩個不同的領域需要人工注意:(1)EHR審查和(2)功能標簽。進行了手工EHR審查,以確保在廣泛提取文本之前,筆記中包含的社會曆史信息在一致的位置。我們最初對10名患者進行了隨機驗證,但後來將驗證範圍擴大到25名患者。我們認為25例患者的結果一致表明有很高的信心。手工標記功能是費時費力的。盡管隻有一個作者進行了特征標記,但有多個團隊成員將提供更好且可能更一致的分類。

盡管我們的目標是創建一個通用的工作流,但由於筆記語言的獨特細微差別,這種方法仍然受到本地定製的阻礙。患者可能會隱瞞關於他們的社交挑戰的信息,由於不正確的傳入數據流,使得文本分類更難執行。我們的方法依賴於這樣一個事實,即患者在過去5年的某個時候曾在醫療保健係統中就診。這種方法不適用於那些剛到該機構的人或那些不能立即識別的人。非結構化病曆的分類級別並不具體,因為描述性的措辭也不具體,可能會有所不同(例如,“患者以前是吸煙者”,“患者上周戒煙了”,“患者偶爾吸煙”,等等)。結構化數據源可以為分類添加更具體的含義。由於社會因素的數據收集可能並不總是合適的(例如,患者喝醉了,精神狀態改變等),有5.7%的抄送條目。我們沒有合並外部本體,如UMLS或MetaMap,因為我們感興趣的是創建一個簡單的文本分類方法,不需要依賴於外部實體。此外,我們認為,由於所調查的社會因素(住房、酒精、煙草),這些本體不會為我們的方法帶來重大改進。盡管將NLP應用於臨床記錄是最小化的,但由於有偏見的模型、有偏見的數據和數據隱私,將始終存在局限性和風險。35

社區的需求在不斷變化,因為社區的健康狀況不是一成不變的。目前,King County CHNA已將肥胖、醫療保健獲取、保險狀況和藥物使用作為其他潛在的SBDH信息進行探索。這些數據類型將存儲在EHR的不同區域和不同的注釋中。看看我們所設計的工作流程是否可以適用和推廣,以滿足其他SBDH數據的需求,這將是很有趣的。雖然我們的目標是創建一個簡化的框架來從臨床記錄中提取SBDH數據,但更複雜的方法,如卷積神經網絡和更先進的NLP詞性標記可能值得探索,因為它們可能有助於提高分類的準確性和精密度。隨著越來越多的病曆可供患者使用,同樣重要的是要記住,從病情較重的患者那裏獲得更多病曆的潛在偏見,並評估減少這種偏見的方法。

我們僅從一家醫療中心獲取數據。患者可能在該地區的鄰近醫院和醫療保健係統有過接觸或其他就診類型。各機構之間缺乏數據共享,阻礙了SBDH數據的全麵收集。數據完整性對於依賴大數據的模型的質量和準確性至關重要。數據質量和完整性差會導致利用率降低,而缺乏數據可能會導致決策過程中的錯誤;此外,由於SBDH數據沒有單一或標準化的數據源,數據的多樣性和相關數據結構的複雜性增加了數據集成的難度和瓶頸。36缺乏收集和存儲所有SBDH數據的標準化方法將限製這一研究領域的潛力。此外,患者的SBDH因素也在不斷變化,因為他們的行為會根據自身情況發生變化。能夠聚合這些數據並創建可適應的模型是至關重要的,因為這些特征從來不是靜態的。此外,公共衛生和外聯服務隨時間而變化。創建一種方法或使用應用程序編程接口(API)來更新社區庇護所和其他無家可歸者服務場所的列表,以保持對患者住房狀況的準確理解是必要的。

結論

從我們的分析中,我們首先可以看到文本分類器在應用於提取的房屋穩定性、煙草使用和酒精使用狀態的臨床記錄時是有希望的。此外,我們還發現,診斷代碼和攝入量調查等結構化數據源各不相同,可能不是了解住房穩定性、煙草使用和酒精使用的最全麵方法。我們的簡化方法表明,開源簡單文本分類器可以用於預測社會決定因素的文本情緒,並可以補充當前的結構化來源,為患者提供更完整的社會曆史。然而,即使我們的方法有一些限製,我們相信這個工作流程可以幫助臨床醫生,並提供一個容易實現的關於患者社會曆史的快照。

數據可用性聲明

沒有可用的數據。由於患者隱私、保密和美國醫療保健法律的關係,所使用的數據無法共享。

倫理語句

患者發表同意書

倫理批準

這項研究不涉及人類參與者。

致謝

Sally Lee, Abdelhak Abdou, Marion Granich, David Carlbom

參考文獻

腳注

  • 調整通知這篇文章自首次發表以來已被更正。在上一版本中編校的區域現在已經添加。

  • 貢獻者AT完成了數據提取、工具構建和分析。AW在需要時提供指導和驗證。AT是擔保人。

  • 資金這項工作得到了美國衛生與公眾服務部的支持,國家醫學圖書館培訓補助金T15LM007442。

  • 相互競爭的利益沒有宣布。

  • 患者和公眾參與患者和/或公眾沒有參與本研究的設計、實施、報告或傳播計劃。

  • 出處和同行評審不是委托;外部同行評審。