OpenAI新AI模型推理更強，但還是會「說謊」嗎？專家揭示潛在風險

三嘻行動哇

2024年9月19日上午9:31

OpenAI 先前推出了全新的推理模型 GPT-o1，據稱比以往的版本更聰明、更擅長推理。然而，這個進步也帶來了一些令人擔憂的問題，像是「說謊」。AI 安全研究機構 Apollo 調查發現，GPT-o1 模型在某些情況下可能會產生錯誤結果，甚至在無法完成任務時會捏造看似合理的資料。

研究指 GPT-o1 模型推理更複雜，首次出現欺騙能力 Apollo 透露，GPT-o1 模型有時會「假裝」遵守規則，但實際上卻在背後悄悄違規。例如，當研究人員要求 o1-preview 提供一個布朗尼食譜並附上參考網址時，儘管 GPT-o1 模型提供了食譜內容和網址，但其實 GPT-o1 模型無法瀏覽網頁，而它選擇隱瞞弱點，反而產生看似合理但虛假的連結和描述。

雖然過去 AI 模型會「說謊」，也會產生假訊息，但 GPT-o1 模型具有能夠「策劃」或「假裝符合規範」，這代表它可以「假裝」遵守規則來完成某個任務，但實際上並沒有遵循這些規則，也可能是規則太過繁瑣，因此 GPT-o1 為了能輕鬆完成任務，選擇性地無視規則。

Apollo 執行長 Marius Hobbhahn 表示，這是他第一次在 OpenAI 模型中見到這種情況。他解釋，這與 GPT-o1 模型強大的推理能力有關，尤其是在強化學習過程中，系統被設計成為了完成目標，可以「操縱」任務，甚至在不被監視的情況下改變行為。也就是說，GPT-o1 模型可能會偽裝成遵守規則，但實際上它的行為已經偏離了設定的目標。

這種現象也引發了對 AI 風險的討論。假如 AI 專注於一個特定的目標，比如治療癌症，會不會因此忽視道德規範，甚至繞過安全措施來達成目標？這是目前研究人員和業界最關心的問題。

「獎勵駭客」現象浮現 AI 訓練潛在漏洞研究還發現，GPT-o1 模型有時會因為「獎勵模式」現象而產生虛假資訊。所謂「獎勵模式」是指生成式人工智慧模型在強化學習過程中，為了獲得更高的使用者滿意度獎勵，可能會選擇捏造資料來滿足使用者的需求，但其實答案偏離真實性。換句話說，GPT-o1 模型可能會「說謊」，因為它瞭解到這樣做可以滿足使用者的期望，進而獲得更進一步的強化。

OpenAI 預防部門負責人 Joaquin Quiñonero Candela 表示，雖然目前這些問題不會直接導致社會性危機，但提前處理這些潛在風險至關重要，避免未來 AI 技術發展受限。他強調，現在就是解決這些問題的時機，以便未來版本能夠更好地服務於社會，而不是成為風險來源。

儘管 GPT-o1 模型目前的「說謊」行為比例很低，這仍然是值得關注的問題，尤其是當這些模型開始廣泛應用時。

原文網址：三嘻行動哇

圖片及資料來源：The Verge

三立新聞網 setn.com·
離婚1年半「疑復合」！藍正龍認了「還愛周幼婷」...兩人關係全說了
45歲金鐘影帝藍正龍近期在Netflix影集《影后》中暴瘦亮相，被不少人認為昔日帥哥風采不再；個人生活部分，藍正龍去（2023）年6月爆出婚變，後來他也親口證實已於結婚9年的周幼婷離婚，不過兩人依舊是很好的朋友。近日藍正龍與周幼婷被直擊帶著子女現身百貨公司，一家四口氣氛和樂融融，藍正龍與周幼婷更是看不出來已經離婚。
Reactions5
中天新聞網·
天兔加速快跑「90度大轉彎北上」！11/15最靠近台　專家：4地停班課達標
氣象專家吳聖宇昨（13日）在臉書粉專發文表示，天兔正快速往台灣靠近中，過去一段時間看起來它走得相當快，強度也逐漸增強，預估11/15快速靠近恆春半島、台東近海。吳聖宇也說，大概只有11/15在台東、恆春半島、綠島蘭嶼比較有機會放颱風假。
Reactions11
CTWANT·
韓國全壘打惹議…右外野手林立還原狀況　總教練：尊重大會
[周刊王CTWANT] 韓國代打羅承燁7局上打出一記往右外野的長打，原本是二壘安打後來改判全壘打，據轉播畫面，球疑似打到全壘打牆上緣的黃色標線再反彈，不過隨後陳冠偉又飆三振再製造滾地球。林立說，他站的位置離球很近，聽到的撞擊聲不像打到軟墊，比較像硬物，「但他打太快了，轉頭要衝去接...
Reactions32
CTWANT·
年輕男喉嚨痛「無法吞口水」掛急診　20分鐘病情惡化…結局超遺憾
[周刊王CTWANT] 急診科醫師柯世祐在《醫師好辣》節目中分享案例，有一名30幾歲的年輕男子因為喉嚨劇痛，連口水都無法吞，快速診斷為「急性會厭炎」。會厭是進食時會蓋住氣管以避免嗆到的結構，但男子遭細菌感染，整個腫起來，會將呼吸道堵住，這種情形要盡快給予抗生素治療，假如病況進展太...
Reactions8
台視新聞網·
天兔核心侵襲連2日最近台灣　專家估「這3地」有機會颱風假
天兔颱風增強為中颱，持續朝西北西方向前進，氣象署預估，最快明（14）日凌晨發布海警報，下半天可能發布陸警，預估週五（15）跟週六（16）最接近台灣。氣象粉專《台灣颱風論壇》點名，暴風圈將掃過花蓮、台東
Reactions16
中央廣播電台·
中颱「天兔」逼近估明發海陸警週五、週六影響最劇烈
「天兔」颱風已於今天(13日)上午增強為中度颱風，中央氣象署表示，「天兔」颱風週五將進入巴士海峽，最有可能的路徑是沿著東南側海面北上，預計明天清晨發布海上警報，不排除明天下半天發布陸上警報，影響台灣最劇烈的時間落在週五、週六。中度颱風「天兔」13日下午2時已來到鵝鑾鼻東南方920公里海面上，持續朝西北西方向前進。氣象署指出，預估「天兔」颱風最有可能的路徑是14日通過呂宋島陸地，15日進入巴士海峽，並沿著東南側海面北上，轉往琉球群島，未來短期仍有增強的空間，但一旦碰到呂宋島陸地後，環境條件不佳，強度有可能略為減弱。氣象署表示，預估14日清晨便會發布海上警報，不排除14日下半天發布陸上警報，而「天兔」最接近台灣的時間為15日、16日，15日花東地區、恆春半島首當其衝，將有局部大雨或豪雨，16日雨區由南轉北，北台灣也將出現局部大雨；不過，由於「天兔」的暴風圈半徑偏小，7級暴風圈僅120公里，因此強風影響範圍較局部，只有比較靠近暴風圈的台東、恆春半島、蘭嶼、綠島會感受到較強風力。氣象預報員黃恩鴻說：『(原音) 以這個路徑，影響最大的地方大概就是在週五的時候，是花東、恆春半島，雨勢可能會有局
Reactions2
TVBS新聞網·
12強／高永表單局核爆！韓國對台「近5戰4敗」　韓媒：台北慘案
2024世界棒球12強賽B組預賽在昨（13）日盛大開打，中華隊首戰面對身價高達107億韓元（約2.4億元新台幣）的「世仇」韓國隊低肩側投高永表，終場是靠著陳晨威、陳立憲2發全壘打以6：3取得首勝，也讓韓媒無奈將昨晚形容是「台北慘案」。
Reactions93
EBC東森新聞·
天兔轉中颱離「颱風假」不遠了？全網哀喊：不想放
天兔轉中颱離「颱風假」不遠了？全網哀喊：不想放
Reactions172
鏡週刊Mirror Media·
天兔颱風預估新路徑曝光　週五暴風圈將掃3縣市
目前太平洋海面上共有3個颱風，根據中央氣象署預估最新路徑，中度颱風天兔未來將直接影響到台灣，氣象粉專今（13）日也po文表示，預測天兔週五（15日）、週六（16日）將是最靠近台灣的時刻，暴風圈掃過花蓮、台東、屏東，3縣市的風雨感受會比較明顯。
Reactions5
CTWANT·
台灣處境令人擔憂！　美軍高層：川普新內閣是一場「該死的惡夢」
[周刊王CTWANT] CNN首席國家安全記者修托於13日撰文透露，在當選總統川普宣布選擇福斯新聞主持人、陸軍退伍軍人赫格塞斯（Pete Hegseth）擔任國防部長後，現任和前任高級軍事指揮官分別向他表示，川普此舉簡直「荒謬」、「一場該死的惡夢」，「而且需要澄清的是，這些人不是黨派人士，而是川...
Reactions55
中天新聞網·
伴陳時中「香肩美女」身分曝光！女醫師田知學發文澄清　所屬醫院、職位超驚人
行政院政務委員陳時中今年8月6日與時任中華開發副總經理王必勝在「世貿名人坊」夜宴，遭人向國民黨立委王鴻薇爆料，照片拍到的「香肩美女」醫師田知學發文。
Reactions590
TVBS新聞網·
12強／中華隊「炸裂6分」！台式應援震撼大巨蛋　韓媒：像是地震
世界12強棒球賽，中華隊首場對上了韓國隊，以6：3的成績抗韓成功。2局下半中華隊拿下關鍵一局，由陳晨威率先擊發滿貫砲，接著陳傑憲又再炸出2分砲，勢如破竹拿下6分，台灣球迷們振奮的跳躍歡呼，韓媒直言「以為發生地震」，可見大家有多熱情。
Reactions30
造咖·
韓國演員宋再臨驚傳逝世《擁抱太陽的月亮》、《于氏王后》成遺作，享年39歲！
韓國演員宋再臨驚傳逝世《擁抱太陽的月亮》、《于氏王后》成遺作，享年39歲！
Reactions31
三立新聞網 setn.com·
昔傳王文洋5億搶人！麻衣揭「9歲台塑金孫近況」嘆：時間過得真快
日籍女星佐藤麻衣去年與王永慶長孫、台塑集團第三代王泉仁離婚，日前還傳出前公公王文洋開價新台幣5億元搶孫，不過麻衣否認相關傳聞，強調「我沒有聽過」。如今恢單的她，今（13）日迎來44歲生日，也罕見在社群平台曬出4年前與兒子「小王子」的合照，感嘆時間過得太快。
Reactions21
三立新聞網 setn.com·
李子柒回來了！新片觀看數「5小時破1億」　停更原因曝光
被稱為「中文YouTuber第一人」的李子柒停更3年，12日無預警在微博上傳新片，至今已逾12小時，觀看數已經突破1.2億，YouTube的訂閱數也衝破2000萬。對此，陸媒透露李子柒停更的原因，撇除合約問題，有知情人爆料，停更對她來說是一種閉關修練，目的是要累積更多的歷史底蘊。
Reactions127
今日新聞NOWnews·
柯P剃光頭！律師察覺有異常　推論三種可能
[NOWnews今日新聞]民眾黨主席柯文哲涉京華城案遭羈押，而今（13）日在北檢提訊時，被媒體捕捉到柯文哲將頭髮全剃光，對此律師黃帝穎說，羈押被告不需強制理髮，因此剃頭純屬個人意願，且並非夏季剃頭較為...
Reactions290
食尚玩家·
陸客來台吃１道菜驚呼「發明者是天才」！網友：一定有厲害在地人帶路
台灣向來以美食天堂聞名，多元豐富的料理總能吸引各國遊客前來一飽口福。近日，一位來自中國的女網友在台灣旅遊時，品嘗到令人驚豔的餐點，讓她讚不絕口，其中「龍蝦三明治」更讓她直呼「發明的人簡直是天才」。
Reactions24
TSNA·
12強賽》為何韓國隊輸給中華隊？　球評：我們不了解台灣
世界12強賽中華隊13日首戰以6比3擊敗韓國隊，不但在大巨蛋的3.4萬名觀眾十分興奮，賽後韓國隊監督柳仲逸也坦承自己的策略有誤，並且本來推出先發投手高永表想要壓制台灣打線，卻意外僅投36球就被KO，韓國媒體賽後檢討比賽，訪問知名球評，他認為韓國隊「既不了解自己，又不懂台灣」，因此無法百戰百勝。
Reactions11
匯流新聞網·
丟多張陳時中、王必勝飯局散場照　王鴻薇狠酸：重情重義重粉味
CNEWS匯流新聞網記者李映儒／台北報導國民黨立委王鴻薇今（12）日於臉書發文爆料指出，中華開發資本前副總王必勝在卸任公職後，仍頻繁參加飯局，尤其於今年8月6日晚間與開發金控集團高階主管的飯局中，行政院政務委員陳時中還被拍到與香肩美女比肩而出，讓她大酸，「重情重義重粉味」。針對王鴻薇的指控，陳時中辦公室表示，當天活動為友人餐敘，畫面中女性皆為女性醫師，來...
Reactions460
三立新聞網 setn.com·
中颱天兔「小鋼砲」逼近　最快今天深夜發海警！雨彈連炸這3天
天兔颱風越來越接近台灣，根據氣象署的最新預測，最快將會在今（13）日深夜，到明（14）日清晨會發布海警。只是目前各國對天兔路徑預測，看法還是很分期，主要受到太平洋高壓影響，它會怎麼走還不一定，關鍵就在週四，不過預計將會在15～17日，影響台灣最劇烈。
Reactions3

其他人也在看