條文本

原始研究
BMJ致編輯信發表中的性別和種族差異:一項使用機器學習的觀察性研究
  1. 穆罕默德Zeina1
  2. 阿爾弗雷德Balston1
  3. 塔瓦巴納吉2
  4. 凱瑟琳·伍爾夫3.
  1. 1巴茨健康國民保健服務信托公司倫敦、英國
  2. 2倫敦大學學院法爾健康信息研究所倫敦、英國
  3. 3.醫學教育研究部“,倫敦大學學院倫敦、英國
  1. 對應到凱瑟琳·伍爾夫博士;k.woolf在{}ucl.ac.uk

摘要

目標分析第一作者的性別和種族(從名字和姓氏估計)之間的關係,以及在快速反應中發表的機會英國醫學雜誌(BMJ)。分析快速反應的其他特征是否可以解釋任何性別或種族差異,包括多位作者的存在、利益衝突的聲明、Twitter句柄的存在、字數、閱讀容易程度、拚寫和語法錯誤以及參考文獻的存在。

設計回顧性觀察研究。

設置英國醫學雜誌網站(BMJ.com)。

參與者1998年至2018年期間向BMJ.com提交的公開快速回複。

主要指標在《英國醫學雜誌》上以致編輯的信的形式發表快速回應。

結果我們分析了113 265份快速回複,其中8415份以致編輯信的形式發表(7.4%)。在發表幾率與第一作者估計性別和種族、多作者、利益衝突聲明、是否有Twitter句柄、字數、閱讀難易程度、拚寫和語法錯誤以及是否有參考文獻之間發現了統計學上顯著的單變量相關性。多變量分析表明,第一作者估計的性別和種族在考慮其他因素後預測出版。與白人作者相比,黑人作者發表的可能性低26% (OR: 0.74, CI: 0.57-0.96),亞洲和太平洋島居民作者發表的可能性低46% (OR: 0.54, CI: 0.49-0.59),西班牙裔作者發表的可能性低49% (OR: 0.51, CI: 0.41-0.64)。女性作者發表的可能性比男性作者低10% (OR: 0.90, CI: 0.85-0.96)。

結論在考慮了廣泛的特征之後,快速反應發表中的種族和性別差異仍然存在,這些特征本身都是發表的預測因素。這表明,造成這些群體差異的原因在於其他方麵。

  • 衛生政策
  • 流行病學
  • 衛生信息學
  • 衛生經濟學
  • 醫學教育與培訓
  • 統計與研究方法
http://creativecommons.org/licenses/by-nc/4.0/

這是一篇開放獲取的文章,根據創作共用署名非商業(CC BY-NC 4.0)許可證發布,該許可證允許其他人以非商業方式分發、混音、改編、在此基礎上進行構建,並以不同的條款許可其衍生作品,前提是正確引用原始作品,給予適當的榮譽,任何更改都已注明,並且使用是非商業性的。看到的:http://creativecommons.org/licenses/by-nc/4.0/

數據來自Altmetric.com

請求的權限

如果您希望重用本文的任何或全部內容,請使用下麵的鏈接,該鏈接將帶您到版權清除中心的RightsLink服務。您將能夠快速獲得價格和即時許可,以多種不同的方式重用內容。

本研究的優勢和局限性

  • 本研究使用公開數據的語料庫,分析第一作者的特征和發表的機會之間的相關性英國醫學雜誌

  • 多元分析使我們能夠解釋所提交信件的一係列其他特征。

  • 據我們所知,這是有史以來最大的科學語料庫分析,著眼於與出版率的關聯。

  • 這些數據的性質意味著隻能推斷出關聯,而不能推斷出因果關係。

  • 我們強調自動化技術,科學期刊可以使用這些技術在自己的發表率中尋找種族和性別之間的關聯。

簡介

關於“成就差距”或“差異成就”已經寫了很多文章,觀察到許多領域表現出基於性別和種族等個人屬性的成就差異。例如,在醫學方麵,來自黑人和少數民族(BME)群體的學生平均而言比白人學生成績更差,更有可能不及格。1隨著職業生涯的發展,BME醫生也更經常無法通過專業培訓考試,1 2平均工資低於同級別的其他人3.也不太可能獲得資助。4盡管長期以來男女醫學生的比例大致相當,但在醫學領導層和教職員工中,女性的比例仍然存在差異。5個6

另一個被徹底研究性別影響的具體領域是學術出版。一項對來自不同背景的1065位作者的調查發現,女性以及某些少數民族在科學文獻中的代表性不足。7發表在一些有影響力的醫學雜誌上,包括英國醫學雜誌(BMJ),女性第一作者的文章數量隨著時間的推移而增加;然而,上一屆作者(通常是高級研究人員或部門負責人)的性別平衡並沒有遵循這一趨勢。8對JSTOR收錄的180萬篇學術文章進行的更大規模分析發現,在大多數學科中,女性作者在著名的第一作者和最後作者職位上的比例都很低。9在對Medline收錄的2100萬篇文章的分析中也觀察到了同樣的結果,該分析還發現,即使考慮到資曆,BME作者也不太可能處於最後一個作者位置。10

這些性別和種族差異的原因仍然是爭論的主題。實驗研究表明,根據申請人名字的性別,隨機分配到男性或女性名字的相同提交文件的排名不同,男性更受歡迎。11日12例如,在申請實驗室經理職位時,使用男性名字的申請,與使用女性名字的申請相比,被教職員工認為明顯更有能力,更容易被聘用。11類似地,一項研究向研究生展示了一個國際會議的摘要樣本,其中的摘要被隨機顯示為男性或女性作者。研究發現,女性作者的摘要被認為“科學質量”較低。12兩篇論文都發現,審查員的性別不會影響申請人的評分,並得出結論,普遍存在的性別刻板印象對女性產生了微妙但嚴重的偏見。11日12事實上,當考慮到審稿人對性別角色的態度時,這種偏見就減少了,對性別平等的支持越高,對女性作者的評分就越高。

一些人認為,性別差異源於男性和女性選擇不同的職業道路。13例如,女性可能會選擇優先考慮靈活性,或者從事業中抽出時間來生孩子。然而,將這些因素納入多元統計模型的研究未能完全解釋薪酬差異。14日15一項這樣的研究發現,在美國,男性和女性醫院醫生的年薪相差14581美元,這在考慮了性別之間工作滿意度優先級的差異後仍然存在。16

這些差異的潛在原因可能是複雜和多因素的,但在新的特定情況下識別和描述差異可能暗示潛在的解決方案。這些可能是廣泛適用的,特別是因為致病問題可能相互交織。例如,女性和BME醫生的平均薪酬較低,部分原因可能是發表科學論文的機會較低,特別是在科學文獻發表對獲得某些高級學術和領導職位很重要的工作環境中。

雖然這裏提到的許多研究發現了基於個人特征的群體差異,但他們很少能從期刊上獲得量化發表率所必需的原始數據。例如,發現婦女在醫學期刊論文作者中的比例低於在醫務工作者中的比例,這並不足以得出關於歧視或偏見的結論,因為這可能是由於優先事項和提交的數量不同造成的。對於一項研究,要就接受率的差異得出有意義的結論,它必須能夠量化提交的科學作品被接受的百分比,而這些提交數據很少被科學期刊公布。

BMJ中的信件來源於快速回複,這些信件可以在網上免費完整地獲得,因此,它們可能為研究這個問題提供了一個有價值的視角。此外,快速回複的發表也很重要,因為給編輯的信件帶有PubMed標識符,因此其發表的差異可能會對學術界的工作產生連鎖反應,而PubMed收錄的出版物在候選人選擇中發揮著重要作用。

我們的目的是將現有的快速回複語料庫與已發表的致編輯信進行比較,以尋找種族、性別和發表幾率之間的相關性。

方法

數據采集和處理

使用自動腳本下載1998年4月25日至2018年3月23日期間BMJ.com的每一封在線快速回複,以及在同一時間段內發表的每一封致編輯的信。

為了盡量減少對BMJ服務器的影響,網頁請求每15秒才發送一次,並且每個請求都明確說明了進行自動數據收集的研究人員的全名和聯係電子郵件地址,這樣如果BMJ希望停止收集,可以很容易地聯係到他們。此外,我們隻收集了無需登錄BMJ賬戶即可訪問的公開數據。

一旦收集完畢,快速響應的所有可用區域都被提取出來。這包括:標題,被回複文章的標題,正文,第一作者的名字,第一作者的標題,其他作者,提交日期和Twitter的存在。使用下麵提到的軟件包進行進一步處理,使我們能夠查看更豐富的特征集,包括字數、參考文獻的存在、參考文獻的數量、Flesch閱讀難度(一種衡量語言複雜性的指標,具有更高值的含義更容易閱讀)、拚寫和語法錯誤的數量、第一作者的性別、第一作者的種族以及多個作者的存在。

作者的職位是通過在提交的快速回複中自我聲明的職業領域中尋找“顧問”、“教授”、“高級”和“學生”這四個詞來提取的,例如,在其職業領域中任何地方都有“顧問”一詞的人被歸類為“顧問”。

我們並不期望發表量與字數或Flesch閱讀難度之間存在線性關係,因為最成功的信件可能足夠長,足以提供對主題的有意義的見解,但又不會太長,不適合作為致編輯的簡短信件的格式。因此,我們從這些數據中創建了兩個額外的特征,“接近理想字數”和“接近理想肉質閱讀方便度”,以反映快速反應是否在字數和肉質閱讀方便度最接近曆史上與較高出版率相關的數字的50%以內。

一些快速回複(528條,或0.46%)由於格式錯誤而無法自動收集。這些快速反應在分析中被省略。對於收集的快速反應,數據的缺失本身就是有用的信息(例如,沒有第二作者被處理為沒有第二作者),因此沒有分析的數據點被認為缺失。

由於在提交快速回複和以信函形式發表回複之間存在滯後,我們排除了在數據收集窗口前66天內提交的所有快速回複(即在2018年1月16日之後提交)。這一數值是基於初步分析得出的,初步分析發現絕大多數(80%)信件是在快速回複提交日起66天內發表的。

匹配的協議

雖然快速回複和公開的信件都可以在BMJ.com上免費獲得,但它們在網站的不同部分都可以看到,而且絕大多數公開的信件都沒有鏈接到最初提交的具體快速回複。找出哪些快速反應被接受的任務更加複雜,因為在提交快速反應和在BMJ上印刷之間發生了許多編輯更改。因此,為一封信尋找相應的快速響應並不像尋找具有相同文本內容的快速響應那麼簡單。

為了實現這種通信,使用了分層匹配協議,我們在這裏總結。對於每一封發表的信件,我們都會在語料庫中搜索同一第一作者的快速回複。為了實現這一點,作者的名字通過去掉中間名或首字母進行了標準化。當第一作者隻與一份快速回複和一封給編輯的信聯係在一起時,這些被指定為同一份提交。當給編輯的信的作者提交了大量的快速回複時,會選擇前50個字符與編輯的信相似度最高的一個。

如果沒有找到與已發表的致編輯信相同的第一作者的快速回複,則忽略作者姓名,並在致編輯信發表前最近提交的快速回複中搜索前50個字符中相似性最高的一個。AB (Alfred Balston)和MZ手動檢查了600個匹配的快速反應和字母的子集,發現準確率為85.3%。

種族和性別分類

快速反應的作者沒有被要求透露他們的種族或性別,而且所涉及的快速反應數量太多,無法單獨聯係作者並詢問這一敏感信息。使用了一種自動化的方法,可以快速地確定一個名字的種族,數以萬計的名字,幾乎不需要手動輸入。這采用了之前發布的機器學習算法nameprism.com的形式,該算法經過訓練,可以對7400萬個名字進行種族分類,並在數據集上進行外部驗證,而不是在訓練的數據集上進行驗證。17據我們所知,在這項任務中,它已經證明了任何公開可用工具的最高分類精度,F1分數為0.795。我們遵循之前的醫學研究,用名字來劃分種族,18 19還有一項驗證研究表明,名稱分析足夠準確,可以用於幫助健康研究。20.

這個種族分類工具是在一個龐大的、多樣化的名字集上訓練的,作者聲稱這些名字涵蓋了世界上90%的名字。17它是在美國發展起來的,所以使用的六個種族類別是美國人:白人、黑人、亞洲和太平洋島民、西班牙裔、美國印第安人和阿拉斯加原住民,以及兩個以上的種族。種族是用作者的姓和名來估計的,目的是“減少因移民或跨國婚姻而導致名字混在一起的錯誤”。這個工具被設計和調整為對世界人口進行推斷,因此非常適合具有全球作者的期刊,如BMJ。

第一作者姓名的性別是通過一個名為Gender Guesser的工具確定的,該工具使用了一個包含大約4萬個常見姓名及其相應性別的數據庫。21快速反應作者的名字將與該數據庫進行對照,並歸入以下類別之一:男性、女性、大部分男性、大部分女性、雌雄同體(男性或女性的概率相等)和未知(不在數據庫中)。在一項獨立驗證中,對一個含有7076個名字的手動標記數據集,將其與其他四種性別推斷工具進行了比較,發現它“在整個數據集不進行參數調整的情況下實現了最低的誤分類率,也引入了最小的性別偏見”。22我們還在從維基百科提取的29872個名字的公共數據集上驗證了性別猜測工具。該工具能夠推斷性別為82.76%。推斷為“男性”的名字正確率為99.2%,推斷為“女性”的名字正確率為95.6%。總體而言,在我們的驗證數據集中檢測“男性”或“女性”名字時,該工具的準確率為98.4%。

種族和性別分類工具提供了一個估計的種族和性別,為了本研究的目的,假設它類似於讀者或審稿人分配給作者的種族和性別。

統計分析

作者與快速反應特征、發表量之間的單變量關聯通過計算χ進行2測試和t檢驗分數。在考慮其他作者和快速反應特征的情況下,使用分層二元邏輯回歸來研究種族和發表之間的相關性。

軟件使用

第一作者姓名的性別采用性別猜測法進行分類。21種族是通過nameprism.com進行分類的。17Flesch閱讀輕鬆評分是使用一個名為textstat的開源庫計算的。23拚寫和語法錯誤使用一種叫做語言檢查的工具進行量化。24

所有代碼都是在“Jupyter notebook”文本編輯器中用“Python 3”編寫的。25數據收集使用了一個自動化腳本,使用了開源Python庫“Requests”和“BeautifulSoup”。26日27日進一步的處理和數據操作使用了Python庫“NumPy”,“Pandas”和“SciKit learn”。28 - 30在IBM SPSS V.25軟件包和Python中進行統計分析。

結果

基線數據

對113 265份快速回複進行了分析,其中8415份(7.4%)以致編輯的信件形式發表。在所有提交的快速回複中,83%的第一作者的名字被歸類為“白人”;62%的第一作者被歸為男性。看到表1用於基線作者和快速響應功能。我們還對提交作品的特征進行了分析,按推斷的性別和種族進行了分析。這些可以在在線補充表1和2

表1

1998年4月25日至2018年3月23日期間提交給BMJ.com的已發表和未發表快速回複的特征

單變量分析

分析單因素相關性並納入表1

多變量分析

以上所有變量都被用於兩個區塊的分層二元邏輯回歸。第一部分包括除了第一作者的性別和種族之外的所有變量。第二部分還包含了第一作者的性別和種族。

第一作者的性別和種族在考慮測量混雜因素後仍然具有統計學意義。在第二塊中,納入這些信息顯著改善了模型(模型係數的綜合檢驗,χ2=4648.412,自由度=43,p<0.0005),偽R2值為0.098,高於第一個塊中的0.088。

表2顯示了第二個結果,完全邏輯回歸和每個變量的or值。

表2

在多變量分析中,or值為95% ci和p值

討論

主要調查結果陳述

即使考慮到快速反應的其他特征和作者,BMJ快速反應的第一作者名字的估計性別和種族也是預測發表的。

本研究的優勢和局限性

據我們所知,這是有史以來最大的科學語料庫分析,尋找與出版率的聯係。這是可能的,因為BMJ快速響應的開放性,並通過各個階段的自動化,包括數據收集和處理,其中包括使用經過驗證的機器學習算法進行自動種族分類。這讓我們能夠分析超過10萬份提交的內容,這是手動無法實現的壯舉。

這項研究最大的局限性之一是它隻對關聯敏感。不可能從這些數據中推斷出因果關係,因為所觀察到的差異的確切機製尚不清楚。可能還有其他未測量的因素導致發表率的差異,如溝通方式的微妙差異,這至少可以部分解釋醫學院臨床考試中的種族成就差距。31然而,值得注意的是,在臨床測試中,男生總是被發現表現不如女生,32 33雖然我們發現女性第一作者的代表性不足。

雖然從名字分類種族的工具已經在全球人口中得到驗證,但它是在美國開發的,並且使用的種族類別與美國官方使用的種族類別非常相似。這對於美國以外的域名來說並不理想,因為在美國,官方定義了不同的類別。性別分類導致相當大比例(17.3%)的作者性別未知,他們不太可能被發表。在該雜誌的一項分析中,另一種通過名字推斷性別的類似工具在分類作者姓名方麵的總體準確率為93.8%科學34這種高精度是由於這些技術能夠量化其不確定性;例如,如果他們認為這個名字是男性或女性的幾率大致相同,那麼這個名字就被歸類為“雌雄同體”。隻有那些很可能是特定性別的名字才會被推斷出來。

雖然有一個選項可以將位置添加到性別工具中,以確定特定國家名稱的可能性別,但由於兩個原因沒有這樣做。首先,從快速響應中提取的位置數據是高度異構的,一些作者提供了國家、城市或機構名稱,或多個地址,沒有一致的拚寫或縮寫。其次,在性別猜測詞典中的45376個名字中,隻有286個(0.6%)名字受到地理位置的充分影響,以至於估計結果從“男性”變成了“女性”,反之亦然。

在這項研究中,性別和種族是根據作者的名字來估計的,這為審稿人在相同的信息下會分配給作者的性別和種族提供了一個代理。雖然根據名字分配種族和性別可能並不總是與作者自我認同的種族和性別相匹配,但在這種情況下,這是實際和必要的。將種族和性別進行謹慎分類的一個困難在於,這些複雜社會身份的細微差別被忽略了,例如,在性別工具中,沒有對非二元性別或變性人進行分類,在種族工具中,對混合種族的個人提供的內容有限。

這項工作的一個局限性是,對於所有分析的信件,必須使用前麵提到的協議來計算相應的快速反應。一小部分信件似乎不是作為快速回複提交的,這可能代表編輯直接發表或論文作者與編輯之間的直接通信。然而,值得注意的是,最近發表的信件直接鏈接到最初提交的快速反應。這將使未來的分析能夠獲得關於哪些快速反應已經發布,哪些沒有發布的真實數據。

與其他研究相關的優勢和局限性

一份最近的報告科學沒有發現統計上顯著的證據表明他們的編輯過程中女性作者的代表性不足。35在這份報告中,性別是手動識別的,這將他們的樣本量限製在一個小的隨機選擇的提交中。我們觀察到的性別差異與我們觀察到的種族差異相比是相對微妙的,這可能意味著需要更大的樣本量來闡明任何差異。

到目前為止,與性別相比,種族代表性不足的研究還不夠徹底。盡管如此,我們的發現與已發表的數據一致,即BME作者在已發表的文章中代表性不足10;然而,我們的研究進一步能夠確定,與白人同行的類似論文相比,來自BME作者的論文不太可能被接受發表。

影響

在我們的分層邏輯回歸中,性別和種族解釋了少量的額外方差(偽R增加0.012)與其他特征相比;然而,與低偽R相比,這是相當大的2基線為0.088。

考慮到選擇過程的複雜性,偽R2之所以低,是因為有很多未測量的因素。事實上,出版是由編輯的專家意見決定的,在這樣的研究中,包括清晰度、風格和潛在讀者的興趣,這些東西是不切實際的或不可能量化的。

盡管如此,無意識的性別或種族偏見可能會起作用。內隱偏見已被記錄在臨床決策中,36醫學院招生37以及初級醫生的選拔。38然而,需要指出的是,目前的研究設計並沒有提供偏倚的因果證據,這需要前瞻性的實驗研究設計來充分考慮其他未測量的因素。

我們的研究結果表明,科學期刊應該在所有形式的投稿中尋找這種差異,包括沒有公開發表的觀點文章和研究論文。這種分析應包括研究作者種族和作者性別在提交和發表率方麵的差異。

這項研究展示了數據科學和機器學習技術相對輕鬆地快速提取和分析大型複雜數據集的能力。如果沒有這些技術,這種分析是不可能的。能夠自動化特征提取過程,包括性別和種族,為進一步對開放獲取數據進行觀察性研究開辟了道路。它還為整個患者旅程提供了無數的可能性,從分類和提高出診率,到自動化疾病診斷、預測、管理,甚至發現或重新利用新的藥物。39-45

懸而未決的問題和未來的研究

這項工作強調了過去數據中的重要關聯;然而,還需要更多的研究來得出這些關聯的具體結論。例如,可以考慮其他混雜因素,包括溝通方式、快速反應作者的研究領域和被回應的文章,以及提交文章的研究所的位置。看看這些差異是如何隨著時間的推移而變化的,如果有的話,可能也很有趣。此外,研究還證明了科學中無意識的性別偏見,12以及其他領域無意識的種族偏見,36-38但學術界對無意識種族偏見的研究卻少得多。

重要的是要確定我們在BMJ致編輯信中發現的差異是否存在於其他期刊中,以及其他科學手稿類型,如原始研究。雖然已經對已發表論文的趨勢進行了研究,但量化接受率是消除投稿數量這一混雜因素的寶貴方法,我們希望這一領域的未來研究可以由期刊自己完成,或者由研究人員與期刊密切合作,以確保投稿數據被包括在任何分析中。

結論

確定了一些與快速反應接受率相關的變量。在考慮了其他因素後,性別和種族之間的出版率差異仍然很大。造成這些差異的原因尚不清楚,在一定程度上可以用隱性偏見來解釋。無論原因是什麼,女性和BME的聲音明顯不足,應該努力找出這些原因並加以糾正。

參考文獻

補充材料

  • 補充數據

    此網頁文件由BMJ出版集團從作者提供的電子文件製作而成,並沒有對內容進行編輯。

腳注

  • 推特@amibanerjee1, @kathwoolf

  • 貢獻者MZ:項目概念化,設計和協調,主導編程和統計分析,並撰寫初稿。ABal:參與編程、統計分析和撰寫初稿。ABan:幫助概念化,提供統計建議和校對。KW:概念化和設計,提供統計建議和校對。The corresponding author attests that all listed authors meet authorship criteria and that no others meeting the criteria have been omitted.

  • 資金作者沒有從任何公共、商業或非營利部門的資助機構宣布對這項研究的具體資助。

  • 患者發表同意書不是必需的。

  • 出處和同行評審不是委托;外部同行評審。

  • 數據可用性聲明如有合理要求,可提供資料。數據可以從第三方獲得,但並不公開。第一作者(mohamad.zeina@nhs.net)如果通過電子郵件請求,將分享任何公開可用的數據。一些數據是通過第三方獲得的,第三方可酌情限製或省略這些數據。

  • 補充材料此內容由作者提供。它沒有經過BMJ出版集團有限公司(BMJ)的審查,也可能沒有經過同行評審。討論的任何意見或建議僅是作者的意見或建議,不被BMJ認可。BMJ不承擔因對內容的任何依賴而產生的所有責任和責任。如果內容包括任何翻譯材料,BMJ不保證翻譯的準確性和可靠性(包括但不限於當地法規、臨床指南、術語、藥品名稱和藥物劑量),並且對因翻譯和改編或其他原因引起的任何錯誤和/或遺漏不負責。