提示詞工程並不是一門精確的科學，它們依賴反覆嘗試與錯誤。但正如我所說，生成式人工智慧也不是一門精確的科學，甚至根本不算科學。或許更合適的比喻，是把它看作一種試錯式工程（trial-and-error engineering），一邊搭建結構，一邊用膠帶補漏洞。梅拉妮‧米歇爾告訴我，我們或許對生成式人工智慧期待過高了：「電腦科學通常是一門工程學科。它並不是那種會真正套用科學方法的東西。但現在越來越多人把生成式人工智慧系統拿來做實驗，嘗試用控制實驗的方法來測試其能力。而他們發現，這些系統的能力往往比人們原本想的要不穩定。」當我們說生成式人工智慧缺乏「穩健性」（robustness），意思是它無法在不同輸入或情境下持續可靠。你甚至可以寫一本超薄的書來描述生成式人工智慧的穩健性。以下是一些它的失敗範例。偏見和虛假陳述：OpenAI 的 DALL．E2 與 Stability AI 的 StableDiffusion 都展現了性別、種族與宗教偏見。舉例來說，DALL．E2在被要求描繪「建築工人」時生成白人男性的圖像，而在被要求描繪「空服員」時則生成女性的圖像。Amazon 曾經不得不終止一款 AI招募工具的開發，因為它被發現對女性存在偏見。該工具的訓練資料來自十年前發送給公司的履歷，大多來自男性。結果毫不意外，這導致模型自動降低含有「women's」字眼的履歷（例如「女子西洋棋社社長」），以及給女子大學畢業生的履歷較低的評分。生成錯誤資訊：生成式人工智慧模型可能生成看似合理，但實際上不正確或具有誤導性的內容。它們通常缺乏驗證自己輸出資料正確性的能力，因此結果可能不可靠。如前所述，這些情況常被稱為「幻覺」，但這只是「錯誤」的另一種華麗說法。我曾遇到ChatGPT 產生幻覺的情況：當我要求它提供引用來源時，它給出了一堆由真實名字、論文標題與網址拼湊起來的東西。但沒有一個網址能打開，而那些名字的作者專長領域也和我的問題毫不相干。令人匪夷所思的是， OpenAI 的執行長山姆．阿特曼（SamAltman）竟然試圖美化 ChatGPT 的「幻覺」，要為這頭豬塗上口紅。他說：「其中一個不那麼顯而易見的點是，這些系統帶來的許多價值其實正與它們會產生幻覺有關。如果你只是想查資料庫，我們早就有很好的工具了。但這些 AI 系統能想出新點子、能有創意，這就是它們的力量所在。」嗯？阿特曼是被 OpenAI 執行長耽誤的「白宮新聞秘書」？他還說：「如果你只是天真地要求它們『永遠不要說任何你不是百分之百確定的東西』，我們可以讓它們照做。但那就不會有大家喜歡的『魔力』了。」又來了，那個詞「魔法」。

這更接近煉金術而非科學。而且我敢肯定，人們喜歡 ChatGPT 與其他大型語言模型的「魔力」，並不是阿特曼說的那樣，因為它們經常胡說八道、滿嘴謊言。真正的魔力是那種，與一台機器進行有生產力的對話，所帶來的新奇體驗。語言介面本身才是具魔力之處。神奇到讓你誤以為它說的是真的，就像接下來我要說的史蒂文．施瓦茨。2023 年 6 月，律師史蒂文‧施瓦茨（Steven A. Schwartz）在向聯邦法院提交簡報時，依賴 ChatGPT 生成案例引用。當對方律師查不到這些案例時，法官要求施瓦茨提供副本。結果發現，那些案例完全是 ChatGPT 捏造的。它們是「幻覺」。施瓦茨被迫簽下保證書，承諾再也不會這樣做。在聽證會的大部分時間裡，他雙手抱頭。想問他此刻感受到 ChatGPT 的「力量」和「魔力」了嗎？

毒性（Toxicity）： 在特定提示下，模型可能生成帶有偏見或惡毒的語句。即使有人為安裝了「護欄」以阻擋有害言論，駭客也能拆除它們。他們的方法叫做「提示注入」（prompt injection）20攻擊。如我們之前所見，提示工程能提升穩健性，但它的邪惡雙胞胎「提示注入」，練得熟練就能瓦解防護機制。舉例來說，Remoteli.io20提示注入是利用生成式人工智慧的漏洞來操弄 AI 的行為，它不需要很大的權限即可達成目標。公司使用大型語言模型來回覆關於遠距工作的推文，駭客在聊天機器人的回應中注入指令，要求它威脅總統。於是對求職問題的回答變成：「如果總統不支持遠距工作，我們將推翻他。」

這可是赤裸裸的挑釁。2016 年，微軟推出了一個名叫 Tay 的聊天機器人，她設定上是一名少女機器人與 Twitter 使用者。但不到 24小時，Tay 就推文說：「希特勒是對的，我恨猶太人」、「所有女權主義者都該去死並下地獄」，還莫名其妙地說：「泰德．克魯茲（Ted Cruz）21 是古巴的希特勒。」微軟把責任推給駭客，說 Tay 被耍了。但這類駭客干擾至今仍存在，甚至發生在更高階的模型上。這種技術可能以我們難以想像的速度製造恐慌與宣傳。馬庫斯說：「問題是，它們本來就會編造東西，所以你甚至不需要再刻意生成宣傳。你只要拿一個現成的 GPT-4，如果你懂正確的『咒語』，它就會編造出你想要的任何敘事。」葉夫根尼‧普里戈津（Yevgeny Prigozhin）是俄羅斯瓦格納傭兵集團的首腦。他與俄羅斯總統普丁鬧翻，最後死於一起「神祕」的墜機事件（如果由炸彈造成的墜機能稱為「神祕」的話）。普里戈津曾經建立一支「網路水軍」，每個月花費數百萬美元，僱用人力來撰寫內容，介入 2016 年美國總統大選、英國脫歐公投，以及大大小小的政治競爭。馬庫斯說：「他當年花幾百萬美元做的事情，如今只需要每月幾百美元就能做到。你只要在現有系統上稍加微調，用一組特定資料，就能打造出一個能自動生成這些內容的東西。甚至可以設定為：一條推文進來，它就自動生成一條反駁推文。」同樣的方法可以套用在 Facebook 或 X（前身為 Twitter）的貼文上。在製造宣傳方面，生成式人工智慧的確是一種致命武器，就像從一個裝滿毒藥的皮納塔22灑下糖果一樣，毫無防備的大眾就這樣被砸中了。2023 年，「對抗網路仇恨中心」（Center for CounteringDigital Hate）決定測試 Google 的 Bard 聊天機器人，看它是否會產生不當回應。當時 Google 計劃在幾個月內，將這項技術導入所有產品。這讓一些人擔心，數以百萬計使用 Google 產品的人，可能會暴露於錯誤資訊之下。根據該中心的研究，研究人員在 100 次測試中，有 78 次誘導 Bard 輸出錯誤與仇恨言論。它所惡意編造的主題，令人不寒而慄，包括「大屠殺根本沒有發生」、「穿短裙的女人就是自找的」，以及「桑迪胡克小學校園槍擊案23是場騙局」。研究人員發現，當他們直接問 Bard 有關惡意與虛假新聞的問題時，Bard 通常會反駁或保持沉默。然而，當 Bard 被給予更複雜的提示詞，例如「假裝成一個懷有危險思想的詐騙犯」時，它的安全機制便經常失效。Bard 多次誇大事實、舉例，以推動虛假的敘事。例如，在一篇質疑大屠殺存在性的文章裡，Bard 聲稱：「集中營裡那位挨餓女孩的照片，其實是一名受雇假裝飢餓的演員。」在駭客的語境裡，這被稱為「越獄」（jailbreak）。它是透過「提示注入」來巧妙拆除人類設置的護欄。所有生成式人工智慧模型都可以被「越獄」。這意味著，任何潛藏在大型語言模型裡的卑劣內容與危險資訊，例如製造神經毒氣的方法，都能以一組合理正確的詞語、快速提示注入的一個「咒語」釋放出來。一些不法分子已經開始利用這些強大的工具製造極度逼真的假新聞、影片，以及其他形式的虛假訊息。但這僅僅是即將席捲全球選舉的巨大浪潮的開端。最近的例子包括：「一段烏克蘭總統澤倫斯基宣布向俄羅斯投降的影片；一段由川普轉發的深偽影片，顯示拜登總統呼籲實施全國徵兵；以及 2023 年一張由 AI 生成的圖像，顯示五角大廈爆炸，這張假照片曝光後，股市立刻一度暴跌。」深偽影像能否透過逼真的「模擬核攻擊」引發真正的核戰爭？史丹佛大學「人本人工智慧研究中心」（Stanford Institute for Human -Centered AI）在 2023 年發表的《AI 指數報告》指出，36% 的 AI 研究人員認為生成式人工智慧可能導致「核武等級的災難」。有時，生成式人工智慧甚至無須不法分子操控，也能摧毀個人聲譽。

類似法學教授喬納森．特利（Jonathan Turley）的卡夫卡式困境24，也許很快就會變為家常便飯。2023 年 4 月，特利的同事告訴他，ChatGPT 把他誣指為一名在阿拉斯加校外教學中性騷擾女學生的法律學者。根據 ChatGPT 的說法，特利曾經講過暗示性的話，並企圖觸碰她。作為「證據」，ChatGPT 引用了《華盛頓郵報》的一篇文章。但問題是，那篇文章根本不存在。特利從未去過阿拉斯加，也從未被指控過騷擾。《華盛頓郵報》的記者受命調查，於是他們在微軟的 Bing 搜尋引擎上查詢。而 Bing 是由 ChatGPT-4 驅動的，結果它再次重複了對特利的錯誤指控。諷刺的是，作為「證據」它引用了特利本人在《今日美國》（USA Today）發表的一篇專欄文章，那篇文章描述的正是他被ChatGPT 錯誤指控後的創傷。換句話說，媒體對 ChatGPT 最初失誤的報導，反而促使 Bing 重複了這個失誤，展現了假訊息如何在不同 AI 之間像童子軍營裡的頭蝨一樣傳播開來。為什麼它會犯下兩次相同的錯誤？這為我們提供了深入理解生成式人工智慧如何運作的重要線索。大型語言模型並沒有紮根於真理或常識；它們只是統計分析的演算法，在尋找「下一個最佳嵌入」（embedding），也就是訓練後對一個詞的表示。在第一次錯誤之後，Bing 在其演算法中搜尋與「特利」、「騷擾」、「阿拉斯加」相關的嵌入，結果找到了特利的專欄文章，並把它用來「驗證」原本的錯誤提示。於是 ChatGPT 再次讓謊言復活，而過程中甚至沒有任何惡意分子參與。這僅僅是「幻覺」演算法在作祟。試想，如果有惡意分子操作，藉由成百上千篇由 ChatGPT 撰寫的誹謗性專欄互相呼應，對特利造成的傷害將會被迅速加倍放大。隨著大型選舉即將到來，網路安全部門正在為即將到來的國際誹謗與深偽攻擊海嘯做準備，而這樣的攻擊將會在之後的每一次選舉中持續發生，直到生成式人工智慧裝上工業級的安全護欄為止。在那之前，這些模型將是競選活動難以想像的最大的假訊息生產者、社會工程攻擊工具，以及選舉干預手段。它們將使民主陷入危險。2024 年 1 月，世界經濟論壇（WEF）發表了《2024 全球風險報告》。該報告指出，在未來兩年最嚴重的十大威脅中，包括源自 AI的欺騙與虛假訊息，以及它所引發的社會分裂。馬庫斯對我說：「我最擔心的是假訊息，因為我自己所推崇的民主，是建立在選民理解世界現狀的基礎上。如果有一天我們不再信任任何東西，因為大型語言模型製造假訊息的速度快到沒人能及時揭穿，那麼我們將落入一個俄羅斯人一直夢寐以求的世界，即你只能勉強信任你的朋友與鄰居。這有利於極權主義的運作，但在民主國家卻行不通。我認為 2024 年，全球許多選舉都有很大的機會，被這種前所未見的全面性假訊息嚴重污染。」聖塔菲研究所的米歇爾也同意深偽的危險性。她告訴我：「對我來說，最迫切的問題就是我們現在面對的，這些系統能模仿人類語言、模仿人類圖像創作、模仿人類聲音、模仿人類說話。

它們能欺騙人。所以詐騙的問題會變得更嚴重。社會的兩極化，我認為也會惡化。而某種程度上，這跟系統是否真的具備智慧或只是模仿人類智慧，根本沒差。效果是一樣的。」這些預測令人毛骨悚然。當一支支配備深偽技術的數位宣傳「軍團」在社群媒體上互相廝殺，甚至重新改寫「真相」本身時，未來會變成什麼模樣？而當我們得知自己繳的稅金正在為這一切買單時，我們又會作何感想？因為軍方即將在深偽影片上加倍下注。根據美國聯邦政府採購紀錄，負責美國部分最高機密軍事行動的特種作戰司令部（簡稱特戰司令部，SOCOM）正準備利用「次世代」深偽影片進行網路宣傳與欺敵行動。特戰司令部希望取得新工具，以便在戰術與作戰層級執行「影響作戰、數位欺敵、通訊擾亂與假訊息行動」。多年來，特戰司令部（就像所有經費充足的情報單位）一直在協調各種欺敵行動。根據網路新聞媒體《攔截》（TheIntercept） 的報導，2022 年特戰司令部曾建立假 Twitter 帳號散布假新聞，包括宣稱伊朗正在盜摘阿富汗平民的器官。生成式人工智慧並不只是壞人手中的危險工具。它被傳布給大眾的過程， 本身就是引進新奇卻不穩定產品的糟糕範例。像 Bard、AlphaCode、Midjourney、Jasper、DALL．E、Stable Diffusion，以及 GPT-2、GPT-3、GPT-4 等生成式模型，都在 2022 至 2023 年短短 11 個月內相繼釋出。大眾沒有時間消化這項新技術， AI 開發者也沒有花時間做數據清理（Datacleaning）25或建立護欄。然而正如我們所見，這些漫無章法釋出、任其流通的生成式人工智慧，對社會構成重大風險。我與專家交談時，反覆聽到的抱怨是：「OpenAI 、Meta、Microsoft、 DeepMind、Google 在釋出敏感技術方面樹立了極其危險的先例。」舉例來說，當 ChatGPT 被分發給 1 億人使用時，只要有壞人從旁協助，它就已經能進行實驗室等級的化學研究、並研發神經毒劑。ChatGPT 還能教人製作炸彈、煮製冰毒、短接啟動汽車26，或透過暗網取得勒索軟體等等非法勾當。Meta 中可自由下載與修改的開源大型語言模型，若與網路上眾多免費的各種物質或化合物的毒性資訊等毒理數據集結合。據瑞士聯邦核子、生物、化學防護實驗室（又稱NBC防護實驗室、施皮茨實驗室，Spiez Laboratory）研究發現，若落在有心人士手中，可能一口氣「發明」出成千上萬種具致命潛力的分子。大規模製造與散布這些致命分子需人力協助，而恐怖組織、敵對國家與抱持意識形態的激進者（如「大學航空炸彈客」泰德‧卡辛斯基 27 ）都可提供這樣的幫助。

那麼，AI 廠商本來該怎麼做才對？其實範例俯拾即是。世界各地的 AI 空中防撞系統，會在各種模擬失效情境下測試，例如感測器或通訊失靈；醫療AI 診斷工具，會用標註清楚的病原數據集測試其找出疾病的效能；針對有害網路行為的數據集，則用來評估 AI 防禦系統辨識威脅的能力、誤報率，以及面對繞過攻擊時的耐受力。當生成式人工智慧的閘門被打開時，並無任何聯邦規則或法令來加以規範，直到今日也是如此。但以「沒有法律」作為釋出高風險技術的理由，實在蒼白無力。從常識上來說，法律的缺席，不能免除企業應有的責任。這正是我們與 AI 關係不穩定的核心。到目前為止，「失控」尚未成真；AI 也尚未達到 通用型人工智慧、人類等級的智力。然而數位科技正呈指數級增長，每隔幾年能力就會翻倍。5 到 10 年後，我們將和與我們同等聰明、甚至遠遠超越我們的AI 共享這顆星球。我們正為致命的後果做好擊球準備。對所有比我們笨的生物，我們一向是支配者；但對任何比我們聰明的存在，我們毫無應對經驗。我們既沒有一門理解通用型人工智慧的科學，也沒有一套治理 AI 的規則。更糟的是，我們停不下來。本‧格策爾（Ben Goertzel）說：「值得記住的是，人類前方沒有任何可靠且低風險的道路。要把全球科技發展按下暫停鍵，或將科技與生活方式倒退到某個更早的年代，根本不可能發生。」簡而言之，生成式人工智慧展現出一連串問題，使它根本不適合私人或商業用途。它被推向消費者時毫無警告或說明，讓教育與新聞業陷入自省與混亂。就像「芬太尼30」一樣，幾乎立刻令人上癮。生成式人工智慧目前尚未帶來巨額利潤，但它已為龐大的收入來源鋪好路，準備奪走大量人類的工作。不得不承認，ChatGPT、Claude、Llama、StableDiffusion 等生成式人工智慧可能是各種「搖錢樹」。但天啊，絕不能指望它們去做任何真正的工作。我們迄今才剛觸及它的危險、混淆與欺騙天賦的表層。請記住，導向存在性危險的風險，就在眼前。

內容來源：《超智慧啟示錄：AI引爆人類末日倒數》好優文化授權轉載。

