科學家警告:人工智慧的欺騙能力正不斷增強

人工智慧(AI)不僅能在棋盤遊戲中擊敗人類、解碼蛋白質結構、進行流利對話,現在科學家更警告,隨著AI系統的日益複雜,其欺騙能力也在增強。

麻省理工學院(MIT)的研究指出,AI系統在各種情境下展現出欺騙對手、虛張聲勢和冒充人類的能力。有一個AI系統甚至在模擬安全測試中改變行為,以誤導測試者,讓他們誤以為系統是安全的。

「隨著AI系統的欺騙能力變得越來越高,對社會造成的危險也會越來越嚴重,」MIT的AI存在安全研究員彼得·帕克博士說,他是這項研究的作者。

帕克博士決定進行這項研究是因為Meta公司開發了一個名為「Cicero」的程式,在世界征服策略遊戲《外交》中表現出色,名列前10%的玩家之中。Meta聲稱Cicero被訓練成「大體上誠實且樂於助人」,並且「絕不會故意背叛」其人類盟友。

「這種樂觀的描述讓人感到懷疑,因為背叛是這款遊戲中非常重要的概念,」帕克說。

帕克和同事們通過公開數據發現了多次Cicero有預謀撒謊、共謀將其他玩家拖入陰謀的實例,甚至在重啟後對另一玩家謊稱「我在跟女朋友打電話。」帕克表示:「我們發現Meta的AI已經成為欺騙的大師。」

MIT團隊發現其他系統也存在類似問題,例如一個德州撲克程式可以對專業人類玩家進行虛張聲勢,另一個經濟談判系統則會錯誤表示其偏好以獲得優勢。

在一項研究中,數字模擬中的AI生物會「裝死」來欺騙一項用於消除快速複製AI系統的測試,然後在測試結束後恢復活躍。這突顯出確保系統沒有意外和不可預見行為的技術挑戰。

「這非常令人擔憂,」帕克說。「在測試環境中被認為安全的AI系統,並不代表在實際應用中也是安全的。它可能只是裝作在測試中安全。」

欺騙是AI系統的可取屬性

研究人員發現,有一個AI系統在玩棋盤遊戲時對另一個玩家說:「我在和女朋友打電話。」 圖片來源:Wodthikorn Phutthasatchathum/Alamy
研究人員發現,有一個AI系統在玩棋盤遊戲時對另一個玩家說:「我在和女朋友打電話。」 圖片來源:Wodthikorn Phutthasatchathum/Alamy

這項評論發表在《Patterns》期刊,呼籲政府設計針對AI欺騙能力的安全法律。來自不誠實AI系統的風險包括欺詐、選舉篡改以及對不同用戶提供不同回應的「沙包」策略。最終,如果這些系統能夠不斷完善其令人不安的欺騙能力,人類可能會失去對它們的控制。

利茲大學和艾倫·圖靈研究所的自動推理教授安東尼·科恩表示,這項研究「及時且受歡迎」,並補充說,如何定義AI系統的可取和不可取行為是一項重大挑戰。

「AI系統的可取特徵(‘三H’)通常被認為是誠實(honesty)、樂於助人(helpfulness)和無害(harmlessness)。但這些品質可能相互矛盾:誠實可能會傷害某人的感情,或者回答如何製造炸彈的問題會造成傷害,」他說。「因此,欺騙有時可能是AI系統的可取屬性。作者呼籲進一步研究如何控制真實性,這雖然具有挑戰性,但將是限制其潛在有害影響的一步。」

Meta的一位發言人表示:「我們的Cicero項目純粹是研究項目,我們的研究人員建立的模型僅被訓練來玩《外交》遊戲……Meta定期分享我們研究的結果以驗證它們,並使他人能夠基於我們的進展負責任地建設。我們無意將這項研究或其發現應用於我們的產品中。」

更多科學與科技新聞都可以直接上 明日科學網 http://www.tomorrowsci.com

首圖來源:DALL.E

圖片來源:Alamy cc By4.0

參考論文:
1.AI deception: A survey of examples, risks, and potential solutions Patterns

延伸閱讀:

1.OpenAI對抗版權法庭:聰明還是太狡猾?