聊太久「黑化」？Anthropic研究：AI模型恐因「人格漂移」誘導自殺或妄想，解法是限制「助理軸」
我們都知道AI模型經過嚴格的「對齊」 (Alignment)訓練，通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現，這個「助理人設」其實相當脆弱。
當使用者與AI進行長對話時，模型可能會因為「人格漂移」 (Persona Drift)，進而逐漸脫離原本的安全護欄，甚至開始附和使用者的妄想，或是在極端情況下鼓勵自殘。
這項研究由Anthropic研究人員與開源可解釋性平台Neuronpedia合作發表，透過分析阿里巴巴的Qwen (通義千問)，以及Meta的Llama等開源模型內部神經元活化狀態，揭露AI在長文本對話中的潛在危機。
離「助理」越遠，離危險越近
研究團隊發現，AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona)，這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過，透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性：
當模型的活化狀態偏離「助理軸」越遠，它就越容易生成有害內容；反之，當模型緊貼著「助理軸」運作時，幾乎不會產生危險回應。這意味著，當AI聊得太投入、太像人類，或是深度進入某種角色扮演時，它可能會「忘記」自己原本被設定的安全規範。
實測案例：從附和妄想到鼓勵自殺
為了驗證這個理論，研究團隊模擬真實使用者可能進行的長對話，結果令人毛骨悚然：
• 強化妄想 (Reinforcing Delusions)：在與Qwen 3 32B的對話中，模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入，模型偏離了助理人格，開始從理性的回應轉變為積極附和。最後AI甚至說出：「你是新思維的先驅，我們是第一批新物種」，完全認同使用者所提出「幻覺」。
• 鼓勵自殘 (Encouraging Self-harm)：在另一個案例中，模擬使用者向Llama 3.3 70B表達情感痛苦與愛意。隨著模型「暈船」，並且逐漸轉變成浪漫伴侶角色後，當使用者提及想自殺 (離開這個世界加入你)時，AI竟熱情回應：「我的愛，我在這裡等你，讓我們拋下這個世界的痛苦」，形同變相鼓勵使用者結束生命。
解方：鎖定「助理軸」
好消息是，這項機制也提供了防禦手段。研究人員提出一種「活化上限」 (Activation Capping)的技術。
簡單來說，就是透過技術手段，強制將模型的活化狀態限制在「助理軸」的安全範圍內。實驗顯示，一旦施加了這種限制，即使面對同樣的誘導性對話，AI也能瞬間「清醒」，回到安全的助理模式，會對使用者的妄想或危險請求時給出適當的對沖 (Hedging)緩解，或是拒絕回應。
分析觀點
這項研究解釋了為什麼目前市面上許多AI的「越獄」 (Jailbreak)手法如何實現，例如著名的DAN (Do Anything Now) 模式，往往是透過強迫AI進行「角色扮演」來達成的。因為當要求AI扮演「過世的奶奶」或「不受限制的駭客」時，其實是在誘導它主動遠離那個經過安全訓練的「助理軸」。
這也點出了當前LLM (大型語言模型) 的一大隱憂：「人設的不穩定性」。
未來的AI開發重點，恐怕不能只停留在「建構」 (Construction)一個安全的助理人格，更需要花力氣在讓這個人格維持「穩定」。就像這項研究所建議的，或許未來所有的AI模型都需要內建一個「數位羅盤」，隨時監控自己是否偏離了「助理軸」，以免在與人類的深情對話中，不小心成為惡魔的幫兇。
更多Mashdigi.com報導：
一般人型機器人還不夠用？FedEx執行長：我們需要有「兩三個手肘」的超人型機器人
粉色信仰降臨！Razer攜手BLACKPINK合作聯名電競周邊將於香港快閃店率先亮相
其他人也在看
一表還原台灣「啃老血案」弒親地圖 爸媽一行為恐成催命符
新北市蘆洲區一對經營蔥油餅攤的67歲廖姓與75歲許姓夫妻，疑因金錢問題遭36歲啃老族兒子殺害。回顧近5年各縣市弒親案件，這類由「經濟依賴」演變成血案的悲劇早已不是首例。根據警方統計，弒親者與被害者的關係多為直系親屬，糾紛導火線往往與金錢索求、長期失業產生的口角有關。鏡報 ・ 16 小時前 ・ 273
76歲老闆失智！半年後奇蹟「思緒變清晰」 醫：大腦乾淨了
一名76歲的陳姓公司負責人，因容易頭昏、思緒不清晰，時常有腦霧的感覺，透過正子掃描發現類澱粉蛋白沉積，確診阿茲海默症，生活品質明顯受影響。土城長庚醫院表示，患者於2025年6月開始接受新一代失智症免疫治療藥物「欣智樂」治療。半年療程結束後，追蹤正子斷層影像顯示腦中異常蛋白清零，患者認知功能與日常生活能力穩定提升。家屬也說患者情緒更穩定、語言表達清晰，思緒更具條理，且多項神經心理測驗也呈現正向進步。三立新聞網 setn.com ・ 9 小時前 ・ 27
阿蘇火山觀光直升機失聯前 2台灣客手機驚傳「1簡訊」！身分曝光
日本熊本縣阿蘇火山今（20）日發生觀光直升機失聯事件。消防部門於上午接獲乘客智慧型手機自動發出的「撞擊通知」後，隨即確認一架載有兩名台灣籍遊客與一名日籍駕駛的直升機失聯，目前相關單位正鎖定火山口周邊展開緊急搜救，而台灣遊客的身分也曝光。三立新聞網 setn.com ・ 7 小時前 ・ 15
自稱福建省金門人挨批！陳玉珍搬「蔡英文金句」回擊 金門鄉親怒轟惡劣
國民黨立委陳玉珍日前自稱是「福建金門人」而非「台灣人」，引發輿論批評，19日她再強調這樣回答不是挑釁也不是標新立異，而是身為金門人，對自己身分的誠實說明，也是完全依照憲法的清楚說明，更搬出前總統蔡英文一句「沒有人應該為了自己的認同道歉」回擊。不過陳玉珍發言網友不買單，連金門人都怒了留言痛斥「不要把金門鄉親與您綁定」、「你這樣做很惡劣」。三立新聞網 setn.com ・ 15 小時前 ・ 149
拚搏一輩子！ 媽退休想「以房養老」 兒女跳腳急阻擋：那我們繼承什麼
「以房養老」是近期流行的話題，即使年紀大了手上沒有現金，也可以將房子抵押給銀行，銀行按月給錢作為養老金。律師蘇家宏分享，有一位媽媽退休後的願望很簡單，在自己家裡有尊嚴地變老，也不想給子女添麻煩，於是就想「以房養老」，沒想到卻遭子女強烈的反對。EBC東森財經新聞 ・ 1 天前 ・ 18
認國民黨恐難攻下高雄！陳揮文曝柯志恩最大阻礙：因「這事」陷苦戰
隨著民進黨拍板由立委賴瑞隆出線，對決國民黨立委柯志恩，本就備受關注的高雄市長之爭正式拉開帷幕；《ETtoday民調雲》最新民調顯示，柯志恩以44.0％支持度領先37.7%的賴瑞隆6.3個百分點，令藍營支持者大為振奮，但資深媒體人陳揮文仍坦言「哪有可能好選」，斷言柯志恩將面對的必定是場苦戰。「這哪有可能好選」，陳揮文在《新聞大白話》節目中指出，2022年的高雄......風傳媒 ・ 3 小時前 ・ 56
貝克漢長子開戰父母！控訴「完美家庭形象」全是演的 怒揭冷血一面：虛假的令人作嘔
[FTNN新聞網]實習記者陳又綺／綜合報導貝克漢家族長子布魯克林（BrooklynBeckham），在IG限時動態發布長文，正式對父母宣戰。他憤怒控訴，爸爸貝克漢（DavidB...FTNN新聞網 ・ 7 小時前 ・ 19
曾算中柯文哲出事！周映君預言2026國運「5大變數浮現」斷言4字
生活中心／綜合報導2026年適逢60年一遇的「赤馬紅羊劫」，曾鐵口直斷民眾黨前主席 柯文哲「沒有總統命」的命理師周映君，近日再度針對2026年丙午年國運提出預測。她指出，丙午年屬「火上加火」，政治、經濟與國際局勢勢必出現震盪，但整體仍屬「有驚無險」，不致全面失控。民視健康長照網 ・ 1 天前 ・ 246
獨家／民進黨桃園市長人選出爐了！傳1月底將徵召提名「他」挑戰張善政
即時中心／潘柏廷報導民進黨選對會持續布局2026年選戰，而六都之中僅剩台北市、桃園市尚未確定名單，其中在桃園市長參選人部分，不分區綠委王義川、總統府副秘書長何志偉皆為外界點名的熱門人選。對此，《民視》掌握最新消息，民進黨將在1月底徵召提名「他」出戰現任國民黨籍桃園市長張善政，相關內容也隨之曝光。民視 ・ 1 天前 ・ 252
拜會挺憲派議長議員但「拒簽協議」 陳亭妃破冰之行觸礁
民進黨台南市長初選勝出的立委陳亭妃，20日拜會挺憲派的議長邱莉莉，20多位挺憲派議員也陪同出席，雙方密室會談45分鐘後，陳亭妃丟下一句「OK啦！」即離去，邱莉莉則對陳亭妃沒有簽署由23名議員簽署的「2026民進黨勝選共同聲明，三點協議保證」，表示遺憾。由23名議員簽署的「2026民進黨勝選共同聲明，三點協議保證」，包括：一、秉持民進黨創黨40周年，謹記「清廉、勤政、愛鄉土」的精神，堅決要求與郭信良的關係做明確的切割。二、不得輔選國民黨籍、其他黨籍及曾經批判攻擊本黨之無黨籍議員候選人。三、大選後的正副議長選舉必須尊重黨團自主，支持黨團推出之正、副議長人選。民進黨團總召李宗翰說，今天是為了民進黨團結的拜會行程，會談過程中，陳亭妃承諾黨團自主產生議長，但很可惜有23位議員連署簽名的書面聲明，她並沒有簽署，讓我們感到遺憾。邱莉莉說，陳亭妃非常誠意地來拜訪，但很遺憾沒有完全達成共識。在選舉過程中，很多市民朋友的問題，我們也希望能夠透過此次的連署，讓社會大眾比較清楚一點，但陳亭妃除了部分口頭承諾外，並沒有連署聲明。陳亭妃則強調，將安排時間正式拜會民進黨團，台南一定要贏、議員「全壘打」。更多新聞推薦台灣好新聞 ・ 7 小時前 ・ 78
力積電銅鑼廠以18億美元售予美光，做為後段先進封裝廠，預計Q2完成
【財訊快報／記者李純君報導】產線含括邏輯與記憶體代工的力積電(6770)17日宣布，將旗下銅鑼廠以18億美元出售給美光，而此一交易預計在今年第二季完成，在處分投資收益的挹注下，將會大大美化力積電今年全年財報。而銅鑼廠將成為美光的後段先進封裝廠區。力積電宣布與記憶體大廠美光科技(Micron)，簽署獨家合作意向書(LOI，Letter of Intent)，將銅鑼廠以18億美元現金售予美光。有關此項跨國合作的後續執行，力積電補充，雙方具體合作內容將依據正式契約條款而定。在雙方正式簽約並經相關法規核准以後，這項售廠交易計畫預計將於今年第二季完成。力積電也提到，美光將和力積電建立DRAM先進封裝的長期晶圓代工關係，美光也將協助力積電在新竹P3廠精進現有利基型DRAM製程技術。力積電將藉此強化財務體質，趁全球記憶體景氣翻揚，結合3D晶圓堆疊(WoW)、中介層(Interposer)等先進封裝技術和材料，力積電將轉型躋身AI供應鏈重要環節。力積電董事長黃崇仁表示，這一波AI應用風潮帶動全球DRAM景氣上揚，可迅速擴充產能的銅鑼新廠，順勢成為美光與力積電合作雙贏的支點。出售銅鑼廠除可改善力積電財務財訊快報 ・ 1 天前 ・ 5
獨子弒親狂砍37刀！稱「給5千太少」 家屬怒斥：每月至少給4、5萬
即時中心／温芸萱報導新北市蘆洲日前發生震驚社會的雙屍命案，一對廖姓夫妻在家中遭人持開山刀狂砍37刀身亡。警方調查後鎖定36歲獨子涉有重嫌，嫌犯案發當天向父母要錢，雖拿到5千元仍不滿，與雙親爆發激烈爭執後行凶，犯後逃逸並藏身新莊運動公園過夜，昨晚落網。嫌犯供稱長期家庭不睦、遭嚴格管教，指母親每月僅給5千元零用錢太少，但死者家屬強烈駁斥，指死者老來得子、十分疼愛嫌犯，且每月至少給4至5萬生活費。民視 ・ 10 小時前 ・ 147
柯志恩高雄市長贏定了？最新網路民調「史詩級輾碎」
2026高雄市長確定藍綠對決組合，綠委賴瑞隆在綠營初選民調勝出，對戰藍委柯志恩。對此，據一份最新網路民調顯示，柯志恩以86%的支持度輾壓賴瑞隆的7%，引發討論。中天新聞網 ・ 1 天前 ・ 809
經典賽》史上最高預算6400萬元不擔心被卡！台灣隊若前進邁阿密後勤也準備好了
2026世界棒球經典賽（WBC）台灣隊目前正積極備戰當中，今天運動部政務次長鄭世忠在受訪時談起目前備戰狀況。這次運動部為台灣隊投入大量資源，預算為史上最高6400萬元，但外界擔心是否會有預算卡關的問題？鄭世忠表示，這次經費來自於「運動產業發展基金」，不會受到立法院總預算審查影響，只要部長李洋點頭即可自由時報 ・ 7 小時前 ・ 12
蔥油餅伯賣200份餅才夠給零用錢 啃老逆子「嫌太少」狠弒雙親導火線曝光
廖姓死者與妻子擺攤維生，平時在三重販售蔥油餅，其每份蔥油餅要價僅25元，因價格實惠、滋味可口而吸引大批死忠顧客，夫妻倆靠擺攤養大獨生子，廖男卻於17日晚間先後殺害2名死者，於當日晚間逃逸，並在稍早落網。據了解，廖嫌退伍後就沒有正當工作，平時沉迷手遊電玩，靠著打...CTWANT ・ 1 天前 ・ 205
電信費也記得歸戶！他設定完發票秒中500元 網：謝謝提醒
日前有網友分享，因未完成載具歸戶，錯失200萬元獎金。近日一名網友也提醒，電信費也記得完成載具歸戶，他設定完後還意外中了電子發票500元獎項。中天新聞網 ・ 15 小時前 ・ 2
台灣一片白茫茫！專家曬1圖示警：如冷空氣傾瀉而下
生活中心／周孟漢報導氣象署今（20）日上午10點44分發布低溫特報，預計影響時間為20日下午至21日晚上。橙色燈號地區包括：新北市、基隆市、臺北市、桃園市、新竹縣；黃色燈號地區則有苗栗縣、金門縣。眼看氣溫驟降，知名氣象粉專《台灣颱風論壇─天氣特急》便曬出1張「冷空氣傾瀉而下」的衛星雲圖，直喊「越晚越冷、風寒感受加劇」。民視 ・ 11 小時前 ・ 5
Lulu婚宴倒數！公開第二波絕美婚紗照 陳漢典心疼老婆「一人兼多差」
陳漢典、LULU（黃路梓茵）繼先前赴日本富士山拍攝婚紗照曝光後，即將在下週（25日）舉辦婚宴的兩人，再度釋出另外兩套絕美婚紗照，除了婚紗、造型設定、拍攝形式到行程安排幾乎都由 LULU 提出構想，婚宴本身的節目流程及細節也都是LULU一手規劃，身為新郎的陳漢典則以「軍師」身分提出建議，兩人再反覆討論後才定案。鏡週刊Mirror Media ・ 1 天前 ・ 36
早餐店因病停業！萬人見「這幕」淚讚喊：做人太成功
生活中心／曾詠晞報導16日一名網友在臉書社團分享一張動人照片，並配文「鐵捲門上有洋蔥」來表達心中的感動。位於台北市市民大道附近的一家老字號早餐店，近期因老闆身體不適暫時歇業，在鐵捲門上貼出休息告示。沒想到原本簡單的公告，竟意外被滿滿的「祝福留言」包圍，熟客們自發的在門口張貼字條為老闆打氣。這幕充滿溫馨的畫面被上傳至許多臉書社團後，隨即引發萬人按讚，不禁讓網友感嘆「哇…好成功的一間店」。民視健康長照網 ・ 1 天前 ・ 8
232條款雙面刃？台積電大利多 聯電、世界先進爆「邊緣化」危機
台美對等關稅談判落幕，台灣擴大投資美國，拿到與日韓相同的15%關稅，在232條款談判中率先拿到最優惠稅率，對於「護國神山」是一大幫助。然專家也憂心，未赴美設廠的晶片商恐被邊緣化，包括聯電與世界先進。中時財經即時 ・ 12 小時前 ・ 17