【嵇叔夜專欄】拆穿假論文,魔高一丈

達爾梅特·辛格·查瓦拉 Dalmeet Singh Chawla發表在最新一期《自然》(Nature)的<透過分析作者趨勢來標記虛假研究論文>( Fake research papers flagged by analysing authorship trends)指出,檢測欺詐性paper-mill研究的新方法側重於合著者的模式而不是手稿文本。(A new approach to detecting fraudulent paper-mill studies focuses on patterns of co-authors rather than manuscript text.)
一家研究技術公司開發了一種新方法,可以幫助識別來自paper-mill的期刊文章,這些文章廠生產虛假或品質低劣的研究並出售作者權利。
上個月1 arXiv 上發布的預印本中描述了該技術,它使用論文作者組合等因素來標記可疑研究。總部位於倫敦的數位科學公司的開發人員表示,它可以幫助識別研究人員可能花錢購買論文的案例。
假文件看起來與真實文件極為相似
這裡所指的paper-mill是指製造假冒文件或文件的工廠。這些工廠通常生產假冒的文件,如證書、文件、合同等,以欺騙他人或從事非法活動。paper-mill可能會使用偽造的印刷設備和技術,使假文件看起來與真實文件極為相似,從而讓人難以分辨真偽。在現代社會中,打擊paper-mill是非常重要的,以防止欺詐和非法活動的發生。許多國家都設立了專門的機構來打擊假冒和盜版活動,並加強執法力度,以保護公眾利益和維護社會秩序。
假論文工廠是指一些操縱學術出版過程、以獲取不正當利益的組織或個人所經營的機構。這些工廠通常製造假的學術論文,然後以不當手段將其發表在學術期刊上,以獲得發表文章的榮譽、提升自身學術聲譽或獲得研究經費等目的。這種行為嚴重損害了學術誠信和學術界的專業形象,也使得學術發表的可信度受到質疑。
科學界的假論文問題:高調努力解決paper-mill問題
先前檢測paper-mill產品的工作往往集中於分析手稿的內容。例如,一種線上工具可以在論文中搜尋受折磨的短語——由旨在避免抄襲檢測的軟體產生的現有術語的奇怪替代短語。國際科學、技術和醫學出版商協會 (STM) 正在試用的另一種工具會在相同的手稿同時提交給多家期刊或出版商時標記。
位於荷蘭烏得勒支的 STM 資訊長 Hylke Koers 表示,隨著paper-mill變得更善於生產令人信服的文本,分析作者之間關係的方法可能會很有價值。「這種信號很難通過巧妙地使用生成人工智能來解決或擊敗。」
paper-mill捏造的數據和無意義的文本
paper-mill對出版商來說是一個日益嚴重的問題——根據一項估計, 2022 年所有發表的論文中約有 2% 類似於paper-mill發表的研究——近年來,出版商加大了解決這些問題的力度。
paper-mill生產的文章不僅品質低劣,通常包含捏造的數據和無意義的文本,而且經常被研究人員購買已接受發表的手稿的作者身份。一些paper-mill聲稱已經代理了數以萬計的作者身份,其中包括在 Web of Science 和 Scopus 等受人尊敬的資料庫中索引的期刊。
數位科學公司負責未來研究的副總裁西蒙·波特(Simon Porter)表示,這可能會產生與合法研究不同的不同尋常的合著模式和研究人員網絡。
數百萬美元的論文作者權交易給出版商敲響了警鐘
波特說,在正常情況下,「你會發現年輕的研究人員與他們的導師一起發表論文,然後開始擴展並與其他人一起發表論文」。「你可以看到一種演變;這不是一個隨機網路。」
paper-mill的工作並非如此。波特與數位科學公司負責研究誠信的副總裁萊斯利·麥金托什 (Leslie McIntosh) 共同開發的技術旨在尋找表明paper-mill活動的趨勢。其中包括由早期職業研究人員組成的合著者網絡,這些研究人員的出版物突然激增,以及由幾位沒有出版歷史的作者或一群不太可能一起工作的合作者組成的論文,例如來自多個地點的作者或不相關的學科。
當波特和麥金托什將新技術的​​結果與有問題的紙張篩選器(一種搜尋受折磨的短語和其他危險信號的工具)的結果進行比較時,他們發現了明顯的重疊。他們的研究發現,大約 10% 的作者直接被這兩種工具標記,而「作者網路」資料集中 72% 的作者可以透過共同作者與「折磨短語」資料集中的作者聯繫起來。
儘管paper-mill已經迅速發展,發表的帶有嚴酷短語的論文越來越少,但波特認為,這些公司將發現很難在保持當前商業模式的同時規避這些工具的標記。
Digital Science 已經在網路上發布了該技術的程式碼,波特表示出版商可以立即開始使用它。
阿姆斯特丹 STM Solutions 專案總監 Joris Van Rossum 表示,他的組織將考慮將新技術添加到STM Integrity Hub,這是一個旨在幫助出版商檢測詐欺論文的資源和工具集合。
人工智慧加強打擊製造虛假研究的「paper-mill」
倫敦施普林格自然研究誠信總監 Chris Graf 表示,障礙仍然存在,特別是在區分同名研究人員和剔除被錯誤標記的作者方面。「我們發現,在這種情況下,數據一致性可能存在一些挑戰,這意味著這並不簡單,」格拉夫說。「非常出色的年輕研究人員,聚類係數較低,可能會出現誤報,這顯然遠非理想。」 但他補充說:「話雖如此,我們正在探索很多不同的選擇,沒有什麼是不可能的。」
柏林自由大學的社會學家安娜·阿巴基納(Anna Abalkina)多年來一直在追蹤paper-mill的研究,她表示仔細研究作者網路是個好主意。「paper-mill確實存在合作異常現象,」她說。
然而,阿巴金納警告說,我們對paper-mill的商業模式和流程的了解有限。她指出,也很難證明已發表的研究絕對是paper-mill的產品,這使得很難以此作為撤回的理由。
最終,「將採用書中的每一個技巧才能為paper-mill提供令人信服的過濾器」,波特說。「這不僅僅是一種技術。」