【換日線教育】當 AI 論文通過審查,「人類」即將退場?

作者:任恩儀/N1 的田野筆記

日本資訊科技公司 Sakana AI 近期宣稱,由其開發的 AI 系統「The AI Scientist-v2」撰寫的論文,成功通過 2025 國際表徵學習大會(或譯國際學習展示會議;原文:International Conference on Learning Representations,ICLR)的審查,是全球首篇完全由 AI 生成並通過同行評審的論文。

看到這個消息,我第一個反應倒不是「連論文都能由 AI 寫,那以後人們也不用作研究」了,而是這種所謂的「AI 生成學術文章」不是已經有一大堆,Sakana AI 怎麼好意思宣稱自己是世界第一呢?

生成一篇「從頭到尾」都由 AI 完成的論文

仔細閱讀 Sakana AI 的官方新聞稿,該公司詳細介紹了流程:負責團隊事前已經與 ICLR 研討會籌辦單位取得共識要進行這項研究,他們強調作為監督這項研究的人類,僅提供了一個跟研討會相關的研究主題後,就由 AI Scientist-v2 提出科學假設、設計檢驗該假設的實驗、編寫實驗代碼、跑電腦分析得到數據,最後以圖形方式視覺化呈現數據,並寫下整個科學論文的每一個字──從標題到最終參考文獻,甚至包括放置圖表、檢查論文格式,都由 AI 完成。

負責團隊最後挑選了 3 篇由人工智慧生成的論文進行提交審查。論文審查者被事前告知,審查文章中可能有 AI 生成的文章,但並沒有被告知是哪一篇或有幾篇。最後,遞交的 3 篇論文中,有一篇通過了審查。

Sakana AI 細緻描繪了生成式人工智慧對學術倫理和研究帶來挑戰,也儘量在各個細節上做討論。然而,如果要因此宣稱「研究所無用論」,現階段來看,恐怕還是太過跳躍的結論。

看完上述由 AI 生成論文的流程,相信大家都有許多疑問,首先,我針對「獨立完成研究文章」這個論點,先提出 5 個想法:

1. 研究最難的是合理的發想,AI 目前看起來還是沒辦法真正從頭到尾獨立完成

2. 這篇 AI 文章在資訊學習領域,我們仍然不知道 AI 的所謂「進行實驗」是什麼意思,以及數據是否合理真實

3. 負責團隊要仰賴人類智慧挑選出品質合理的 3 篇送審,最後也僅有一篇通過;換言之,AI Scientist-v2 仍產生大量過不了「人類」標準、有缺陷或品質不佳的文章。

4. 是否有領域上的限制?例如,社會科學或生醫領域,需要訪談或抽血對人類蒐集數據,這些目前 AI 應該也都無法獨立進行。

5. Sakana AI 負責團隊對於這篇通過審查的 AI 文章,也進行了更細部的分析,發現有引用錯誤、寫作不夠精確等問題。

事實上,Sakana AI 有在官方新聞稿中承認,所謂通過審查的 AI 研究文章,僅被接受在研討會附屬工作坊的發表形式中,而非主要的研討會。也就是說,這是一篇通過研討會低標準審查、鼓勵在工作坊中以探討形式分享的論文,既非主題發表,也非演講邀請。

AI 能有效幫助個人突破自身專業範疇

AI Scientist-v2 也許真如負責團隊所宣稱,又比過往的 AI 更進步了,然而,它不僅沒有在最重要的議題上有更明顯的突破(例如獨立操作),也沒有超越 ChatGPT 於 2023 年年初的成果──當時美國明尼蘇達大學的法學院教授已讓 ChatGPT 參加 4 科期末考測試,最終 AI 以差強人意的整體表現低空飛過,在法學院取得 JD 學位。

持平而論,使用單一生成式 AI 的產出仍然是接近中等程度,而非品質精良的作品。不過同時,我們也需正視,AI 確實已經對工作決策和科學研究帶來明顯的影響,絕對不僅僅是畫表格、產生簡報等功能。例如,根據哈佛商學院的研究,使用 AI 的團隊明顯比不使用 AI 的團隊產出更優秀的解決方案,因為 AI 可以有效幫助個人突破自身專業範疇,讓人們透過 AI 探索其他可能的解法。

至於 Google 新推出的「共同科學家(co-scientist)」AI 系統,更是主打科學協作,使用者只要以普通語言把研究目標輸入系統,AI 就能協助完善資料搜尋,並產生相關假說。別的不說,如果搜尋的正確率高,單單考慮到 AI 可以不眠不休地高效工作,這可就大大節省了蒐集研究資料的時間。

身為教師的我這樣看/用 AI

現在,我自己幾乎每一天都會使用不同的 AI 產品幫助教學或研究工作。我用過 AI 幫忙完善文章的重點,也用過 AI 拓展思考的面向。

我想,所謂「會使用 AI 的人」,應該是能針對問題,選擇合適的 AI 產品,甚至必須要能靈活整合多種不同功能的 AI,互相輔助;接著再用自身專業,去評鑑 AI 的結果,去蕪存菁;最後,產出更好的作品或解方,去解決問題。換言之,AI 的使用不會是一次性地,而是反覆地修正,在不同的歷程中導入不同的 AI 工具,最後帶來畫龍點睛的效果。

所以,經常使用 AI 的我,已經是「AI 達人」了嗎?好像也不是。

身為一名高教工作者,我必須坦承隨著更多元的生成式人工智慧問世,要檢測出一篇文章是否有使用 AI,愈來愈困難了。

目前,美國各大學的線上作業系統,老師可以決定要不要啟用內建程式協助偵測 AI 是否參與。去年秋天,我感覺到某位學生的第一份作業怪怪的,於是將同一份作業在 3 個宣稱自己可以偵測 AI 的不同平台進行實測,結果差異非常大,最後我選擇相信學校的內建系統,並判斷這位學生並沒有使用 AI。

經過一整個學期的師生相處,我甚至懷疑是自己疑心病太重,因為這位同學的其他作業與討論表現,讓我認為他很可能沒有在我有疑慮的該項作業使用 AI。然而,這樣的判斷究竟是基於專業、態度,還是彼此尊重的倫理,實在還有很多的討論空間。簡單來說,我愈來愈迷糊於何謂 AI 作品。

那麼,像本文開頭 Sakana AI 這樣的研究計畫,究竟是要測試「The AI Scientist-v2」的能力,抑或測試學術圈的審查信任制度,也讓人無法肯定。再者,使用 AI 非常耗能,那麼在使用的同時,如何兼顧我關心的環保議題,對個人的倫理價值觀也形成了很大的挑戰。

思考 AI 與人性的同時,藉此次撰文機會,我也再度留下一段關於將生成式 AI 應用在教育與研究上的心得,兩年後或許可以再回頭來檢視。

會用 AI 是基本,能善用 AI 才是制勝關鍵

我們這一代研究者,生長在沒有 AI 的世代,如果能更快接受 AI 的挑戰,原有的技能再加上 AI 的使用,會更有機會讓職業路走得更長遠。

至於年輕學子身為數位原住民,使用 AI 是基本技能,不可能不會。所以,絕對不是討論「會不會用」,而是「如何使用」。與同齡人相比,具有好奇心、能提出有趣的問題、學會觀察不同概念,以及能創意組合、適度導入合適 AI 產品的那些人,就會更有機會脫穎而出。

※本文由換日線網站授權刊載,原標題為《當 AI「從頭到尾」完成一篇通過審查的論文──我作為一名人類研究者的反思》,未經同意禁止轉載

【更多換日線文章】

科技巨頭愛 AI,卻不讓你用?看哥大生如何靠「作弊」挑戰「矽谷雙標仔」

ChatGPT 對教育的挑戰,你準備好了嗎?國際名校教授:老師必須比學生更懂運用 AI

作者簡介:

任恩儀,自己最重要的身分認同現在是寫作者。在學術寫作與公眾寫作外,也寫隨筆,散文和小說,偶爾發表,偶爾自己欣賞,繼續醞釀。