科學家警告：人工智慧的欺騙能力正不斷增強

高詩豪

2024年5月15日上午12:00

人工智慧（AI）不僅能在棋盤遊戲中擊敗人類、解碼蛋白質結構、進行流利對話，現在科學家更警告，隨著AI系統的日益複雜，其欺騙能力也在增強。

麻省理工學院（MIT）的研究指出，AI系統在各種情境下展現出欺騙對手、虛張聲勢和冒充人類的能力。有一個AI系統甚至在模擬安全測試中改變行為，以誤導測試者，讓他們誤以為系統是安全的。

「隨著AI系統的欺騙能力變得越來越高，對社會造成的危險也會越來越嚴重，」MIT的AI存在安全研究員彼得·帕克博士說，他是這項研究的作者。

帕克博士決定進行這項研究是因為Meta公司開發了一個名為「Cicero」的程式，在世界征服策略遊戲《外交》中表現出色，名列前10%的玩家之中。Meta聲稱Cicero被訓練成「大體上誠實且樂於助人」，並且「絕不會故意背叛」其人類盟友。

「這種樂觀的描述讓人感到懷疑，因為背叛是這款遊戲中非常重要的概念，」帕克說。

帕克和同事們通過公開數據發現了多次Cicero有預謀撒謊、共謀將其他玩家拖入陰謀的實例，甚至在重啟後對另一玩家謊稱「我在跟女朋友打電話。」帕克表示：「我們發現Meta的AI已經成為欺騙的大師。」

MIT團隊發現其他系統也存在類似問題，例如一個德州撲克程式可以對專業人類玩家進行虛張聲勢，另一個經濟談判系統則會錯誤表示其偏好以獲得優勢。

在一項研究中，數字模擬中的AI生物會「裝死」來欺騙一項用於消除快速複製AI系統的測試，然後在測試結束後恢復活躍。這突顯出確保系統沒有意外和不可預見行為的技術挑戰。

「這非常令人擔憂，」帕克說。「在測試環境中被認為安全的AI系統，並不代表在實際應用中也是安全的。它可能只是裝作在測試中安全。」

欺騙是AI系統的可取屬性

研究人員發現，有一個AI系統在玩棋盤遊戲時對另一個玩家說：「我在和女朋友打電話。」圖片來源：Wodthikorn Phutthasatchathum/Alamy

這項評論發表在《Patterns》期刊，呼籲政府設計針對AI欺騙能力的安全法律。來自不誠實AI系統的風險包括欺詐、選舉篡改以及對不同用戶提供不同回應的「沙包」策略。最終，如果這些系統能夠不斷完善其令人不安的欺騙能力，人類可能會失去對它們的控制。

利茲大學和艾倫·圖靈研究所的自動推理教授安東尼·科恩表示，這項研究「及時且受歡迎」，並補充說，如何定義AI系統的可取和不可取行為是一項重大挑戰。

「AI系統的可取特徵（‘三H’）通常被認為是誠實（honesty）、樂於助人（helpfulness）和無害（harmlessness）。但這些品質可能相互矛盾：誠實可能會傷害某人的感情，或者回答如何製造炸彈的問題會造成傷害，」他說。「因此，欺騙有時可能是AI系統的可取屬性。作者呼籲進一步研究如何控制真實性，這雖然具有挑戰性，但將是限制其潛在有害影響的一步。」

Meta的一位發言人表示：「我們的Cicero項目純粹是研究項目，我們的研究人員建立的模型僅被訓練來玩《外交》遊戲……Meta定期分享我們研究的結果以驗證它們，並使他人能夠基於我們的進展負責任地建設。我們無意將這項研究或其發現應用於我們的產品中。」

更多科學與科技新聞都可以直接上明日科學網 http://www.tomorrowsci.com

首圖來源：DALL.E

圖片來源：Alamy cc By4.0

參考論文：
1.AI deception: A survey of examples, risks, and potential solutions Patterns

欺騙是AI系統的可取屬性

其他人也在看