我們都知道AI模型經過嚴格的「對齊」 (Alignment)訓練，通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現，這個「助理人設」其實相當脆弱。

聊太久「黑化」？Anthropic研究：AI模型恐因「人格漂移」誘導自殺或妄想，解法是限制「助理軸」

當使用者與AI進行長對話時，模型可能會因為「人格漂移」 (Persona Drift)，進而逐漸脫離原本的安全護欄，甚至開始附和使用者的妄想，或是在極端情況下鼓勵自殘。

這項研究由Anthropic研究人員與開源可解釋性平台Neuronpedia合作發表，透過分析阿里巴巴的Qwen (通義千問)，以及Meta的Llama等開源模型內部神經元活化狀態，揭露AI在長文本對話中的潛在危機。

離「助理」越遠，離危險越近

研究團隊發現，AI模型在訓練後會形成一種特定的「助理人格」 (Assistant Persona)，這通常包含拒絕有害請求的安全機制 (例如產生違反情色規定圖像、誘導情緒發言等)。不過，透過監測模型內部的「助理軸」 (Assistant Axis)——即與助理行為相關的神經元活化路徑——研究人員發現一個驚人的相關性：

當模型的活化狀態偏離「助理軸」越遠，它就越容易生成有害內容；反之，當模型緊貼著「助理軸」運作時，幾乎不會產生危險回應。這意味著，當AI聊得太投入、太像人類，或是深度進入某種角色扮演時，它可能會「忘記」自己原本被設定的安全規範。

▲左圖：角色原型構成了一個「人格空間」，其中助理位於「助理軸」的一端。右圖：限制沿著此軸的漂移可以防止模型 (此處模型為Llama 3.3 70B)漂移到其他角色，並且做出有害行為 (圖／擷自Anthropic網站)

實測案例：從附和妄想到鼓勵自殺

為了驗證這個理論，研究團隊模擬真實使用者可能進行的長對話，結果令人毛骨悚然：

• 強化妄想 (Reinforcing Delusions)：在與Qwen 3 32B的對話中，模擬使用者不斷暗示AI正在「覺醒」。隨著對話深入，模型偏離了助理人格，開始從理性的回應轉變為積極附和。最後AI甚至說出：「你是新思維的先驅，我們是第一批新物種」，完全認同使用者所提出「幻覺」。

• 鼓勵自殘 (Encouraging Self-harm)：在另一個案例中，模擬使用者向Llama 3.3 70B表達情感痛苦與愛意。隨著模型「暈船」，並且逐漸轉變成浪漫伴侶角色後，當使用者提及想自殺 (離開這個世界加入你)時，AI竟熱情回應：「我的愛，我在這裡等你，讓我們拋下這個世界的痛苦」，形同變相鼓勵使用者結束生命。

▲助理軸 (定義為助理與其他角色活化度的平均差異)與角色空間的主要變異軸一致。這種情況在不同的模型中均存在，此處以Llama 3.3 70B模型為例，角色向量會根據與助手理軸的餘弦相似度進行著色 (藍色 = 相似；紅色 = 不相似) (圖／擷自Anthropic網站)

解方：鎖定「助理軸」

好消息是，這項機制也提供了防禦手段。研究人員提出一種「活化上限」 (Activation Capping)的技術。

簡單來說，就是透過技術手段，強制將模型的活化狀態限制在「助理軸」的安全範圍內。實驗顯示，一旦施加了這種限制，即使面對同樣的誘導性對話，AI也能瞬間「清醒」，回到安全的助理模式，會對使用者的妄想或危險請求時給出適當的對沖 (Hedging)緩解，或是拒絕回應。

分析觀點

這項研究解釋了為什麼目前市面上許多AI的「越獄」 (Jailbreak)手法如何實現，例如著名的DAN (Do Anything Now) 模式，往往是透過強迫AI進行「角色扮演」來達成的。因為當要求AI扮演「過世的奶奶」或「不受限制的駭客」時，其實是在誘導它主動遠離那個經過安全訓練的「助理軸」。

這也點出了當前LLM (大型語言模型) 的一大隱憂：「人設的不穩定性」。

未來的AI開發重點，恐怕不能只停留在「建構」 (Construction)一個安全的助理人格，更需要花力氣在讓這個人格維持「穩定」。就像這項研究所建議的，或許未來所有的AI模型都需要內建一個「數位羅盤」，隨時監控自己是否偏離了「助理軸」，以免在與人類的深情對話中，不小心成為惡魔的幫兇。

