「殭屍」臨床試驗空殼不可信!

文 / 山巨源

醫學期刊上有多少臨床試驗研究是假的或存在致命缺陷?2020 年 10 月,約·卡萊爾 (John Carlisle) 報告了一項令人震驚的估計。卡萊爾是一名在英格蘭國家衛生服務中心工作的麻醉師,他以在醫學試驗中發現可疑數據的能力而聞名。他還是《麻醉》雜誌的編輯,2017 年,他決定仔細搜索他處理過的所有報告隨機對照試驗 (RCT) 的手稿,這是醫學研究的黃金標準。三年多的時間裡,他仔細研究了 500 多項研究。理查德·範諾登(Richard Van Noorden)發表在《自然》的一篇評論<醫學受到不可信的臨床試驗的困擾。有多少研究是偽造的或有缺陷的?>(Medicine is plagued by untrustworthy clinical trials. How many studies are faked or flawed?)指出,「一些研究人員警告說,調查顯示,在某些領域,至少四分之一的臨床試驗可能存在問題,甚至完全是捏造的。他們敦促加強審查。」(Investigations suggest that, in some fields, at least one-quarter of clinical trials might be problematic or even entirely made up, warn some researchers. They urge stronger scrutiny.)

「殭屍」試驗實際上是空殼,偽裝成可靠的信息

對於 150 多項試驗,卡萊爾獲得了匿名的個人參與者數據 (IPD)。通過研究 IPD 電子表格,他判斷 44% 的試驗至少包含一些有缺陷的數據:例如不可能的統計數據、不正確的計算或重複的數字或圖形。他判斷,26% 的論文存在如此普遍的問題,以至於審判無法信任——要麼是因為作者無能,要麼是因為他們偽造了數據。

卡萊爾稱這些試驗為「殭屍」試驗,因為它們看起來像是真正的研究,但仔細觀察發現它們實際上是空殼,偽裝成可靠的信息。就連他也對它們的流行感到驚訝。「我預計可能是十分之一,」他說。

然而,當卡萊爾無法訪問試驗的原始數據時,他只能研究匯總表中的匯總信息。他判斷,這些案例中只有 1% 是殭屍,2% 的數據有缺陷。這一發現也讓他感到震驚:這表明,如果沒有 IPD(期刊編輯通常不會要求,審稿人也看不到),即使是經驗豐富的偵探也無法發現隱藏的缺陷。

卡萊爾在報告中寫道:「我認為期刊應該假設所有提交的論文都可能存在缺陷,編輯應該在發表隨機對照試驗之前審查個體病人的數據。」

有三分之一的臨床試驗都是捏造的

卡萊爾拒絕了每一項殭屍試驗,但到目前為止,幾乎三年後,大多數試驗已在其他期刊上發表——有時數據與他見過的手稿一起提交的數據不同。他正在寫信給期刊編輯提醒他們,但預計收效甚微。

卡萊爾在麻醉學方面的發現是否可以擴展到其他領域?多年來,許多科學家、醫生和數據偵探一直認為,虛假或不可靠的試驗非常普遍。他們搜索了各個醫學領域的隨機對照試驗,例如婦女健康、疼痛研究、麻醉學、骨骼健康和 COVID-19,並發現了數十或數百項試驗,這些試驗的數據在統計上看似不可能。一些人根據他們的個人經歷表示,四分之一的試驗不可信可能是低估的。倫敦衛生與熱帶醫學學院的流行病學家伊恩·羅伯茨 (Ian Roberts) 斷言:「如果你搜索某個主題的所有隨機試驗,大約有三分之一的試驗都是捏造的。」

這個問題在某種程度上是臭名昭著的造紙廠問題的一個子集:在過去的十年裡,許多領域的期刊發表了數以萬計的可疑假論文,其中一些被認為是由第三方公司製作的,稱為造紙廠。

隨機對照試驗中有多達 20-30% 是可疑的

但偽造或不可靠的隨機對照試驗是一個特別危險的威脅。它們不僅與醫療干預有關,還可以通過納入薈萃分析和系統評價來獲得尊重,這些分析和系統評價徹底梳理文獻以評估臨床治療的證據。醫療指南經常引用此類評估,醫生在決定如何治療患者時也會參考這些評估。

澳大利亞墨爾本莫納什大學婦產科專家 Ben Mol 認為,女性健康系統評價中包含的隨機對照試驗中有多達 20-30% 是可疑的。

許多研究誠信專家表示,這個問題確實存在,但其程度和影響尚不清楚。一些人懷疑這個問題是否像最令人震驚的例子所表明的那麼嚴重。「我們必須認識到,在高質量證據領域,我們越來越有很多噪音。有一些好人支持這一點並提供了非常可怕的統計數據。但學術界也有很多人認為這是危言聳聽。」英國利物浦大學胎兒和孕產婦醫學專家扎科·阿爾法雷維奇 (Žarko Alfirević) 說道。

今年,他和其他人正在進行更多研究,以評估問題的嚴重程度。Alfirević 領導的一項研究的初步結果並不令人鼓舞。

醫學研究一直存在欺詐者。例如,羅伯茨第一次遇到這個問題是在 2005 年為 Cochrane 協作組織共同撰寫了一篇系統綜述時,Cochrane 協作組織是一個享有盛譽的組織,其對醫學研究證據的審查經常用於塑造臨床實踐。該評論表明,高劑量的糖溶液可以減少頭部受傷後的死亡人數。但在對論文中引用的三項關鍵試驗提出質疑後,羅伯茨撤回了這篇文章,這三項試驗均由同一位巴西神經外科醫生朱利奧·克魯茲 (Julio Cruz) 撰寫。(羅伯茨從未發現審判是否是假的,因為克魯茲在調查開始前自殺身亡。克魯茲的文章尚未被撤回。)

日本骨骼健康研究人員佐藤義弘的例子

最近的一個例子是日本骨骼健康研究人員佐藤義弘的例子。佐藤於 2016 年去世,他在數十項可能預防骨折的藥物或補充劑試驗中偽造了數據。根據Retraction Watch網站編制的列表,他有 113 篇撤回論文。他的工作產生了廣泛的影響:研究人員發現,88 項系統評價和臨床指南引用了 Sato 撤回的 27 項隨機對照試驗,其中一些指南為日本推薦的骨質疏鬆症治療方法提供了信息。

英國阿伯丁大學醫學研究員艾莉森·阿文內爾 (Alison Avenell) 表示,如果佐藤的試驗被排除在外,大約一半的評論中的一些發現可能會發生變化。她與紐西蘭奧克蘭大學的醫學研究人員安德魯·格雷(Andrew Grey)、馬克·博蘭德(Mark Bolland)和格雷格·甘布爾(Greg Gamble)一起推動大學調查佐藤的工作並監測其影響。「這可能使人們無法接受更有效的骨折預防治療,」阿維內爾說。

然而,對殭屍試驗的擔憂超出了在雷達下飛行的個人造假者的範圍。研究人員擔心,在某些領域,來自不同研究小組的大量隨機對照試驗可能不可靠。

例如,在大流行期間,針對抗寄生蟲藥物伊維菌素是否可以治療 COVID-19 進行了一系列隨機對照試驗。但未參與其中的研究人員後來指出了許多研究中的數據缺陷,其中一些研究已被撤回。2022 年更新的 Cochrane 綜述認為,超過 40% 的隨機對照試驗不值得信賴。

不可信的工作必須從系統評價中刪除

「不可信的工作必須從系統評價中刪除,」該評價的合著者、德國維爾茨堡大學的生物學家斯蒂芬妮·韋貝爾 (Stephanie Weibel) 說。在孕產婦健康方面——另一個似乎充滿問題的領域——羅伯茨和莫爾發起了一項研究,研究一種名為氨甲環酸的藥物是否可以阻止產後危險的大出血。每年約有 1,400 萬人經歷這種情況,約 7 萬人死亡:這是世界上孕產婦死亡的主要原因。2016 年,羅伯茨審查了使用氨甲環酸治療產後嚴重失血的證據。他報告說,調查該藥物的 26 項隨機對照試驗中有許多存在嚴重缺陷。有些具有相同的文本,另一些則存在數據不一致或沒有道德批准的記錄。有些似乎沒有將參與者充分隨機分配到對照組和治療組。

當他向個別作者詢問更多細節和原始數據時,他通常沒有得到回應,或者被告知記錄丟失或因電腦被盜而丟失。幸運的是,2017 年,羅伯茨協助開展的一項大型、高質量多中心試驗證實該藥物有效。羅伯茨說,在這些和其他類似的案例中,一些可疑的試驗很可能是模仿欺詐——研究人員看到一項大型試驗正在進行,並製作了沒有人會質疑的小型、不合格的副本。然而,這種欺詐並非無受害人的犯罪。「這會導致置信區間縮小,結果看起來比實際情況更加確定。它也有可能放大錯誤的結果,表明治療有效,但實際上卻無效,」他說。

共同努力杜絕虛假臨床數據

另一個問題可能會發生這種情況:如果醫生在每個剖腹產的人分娩後立即將這種藥物注射到他們身上,作為預防措施,會怎麼樣?2021 年的一項審查對 36 項 RCT 中的7 項進行了審查,總共涉及 10,000 多名參與者,得出的結論是,這將使大量失血的風險降低 60%。

然而今年 4 月,由美國牽頭的一項涉及 11,000 人的大型隨機對照試驗僅報告了輕微且不具有統計意義的益處。

Mol 認為之前 36 項 RCT 中的一些問題解釋了這種差異。2021 年的薈萃分析包括在法國進行的一項對 4,000 多名參與者進行的多中心研究,該研究發現嚴重失血量適度減少了 16%,以及另外 35 項較小的單中心研究,主要在印度、伊朗、埃及進行和中國,預計下降 93%。摩爾說,許多較小的隨機對照試驗都是不值得信賴的,他對其中一些試驗進行了詳細研究。目前尚不清楚這些不可信的研究是否影響了臨床實踐。世界衛生組織 (WHO) 建議使用氨甲環酸治療產後失血,但沒有預防性用藥指南。

數據偵探如何揭露可疑的醫學試驗

2021 年 12 月,Sotiriadis 團隊更新了其評論。但這一次,它採用了新的篩選方案。在那一年之前,Cochrane 綜述的目標是涵蓋所有相關的 RCT;如果研究人員使用「偏倚風險」清單發現試驗的潛在問題,他們會降低對其研究結果的信心,但不會將其從分析中刪除。但在 2021 年,Cochrane 的研究誠信團隊推出了新的指導意見:作者應嘗試識別「有問題」或「不值得信賴」的試驗,並將其從評論中排除。索蒂里亞迪斯的小組現在排除了除英國研究之外的所有研究。研究人員表示,由於只剩下一項試驗,「數據不足」,無法得出有關類固醇的確切結論。