人工智能如何知道無人告訴它的事情

文 / 攝影 阮嗣宗
人們還不知道ChatGPT及其人工智能同類產品將如何改變世界,原因之一是沒有人真正知道它們內部發生了什麼。其中一些系統的能力遠遠超出了它們被訓練的範圍,甚至連它們的發明者也對其中的原因感到困惑。越來越多的測試表明,這些人工智能系統開發了現實世界的內部模型,就像我們自己的大腦一樣,儘管機器的技術有所不同。喬治·穆瑟(George Musser)發表在最新一期《科學美國人》(Scientific American)的<人工智能如何知道無人告訴它的事情> (How AI Knows Things No One Told It)指出,「研究人員仍在努力了解經過訓練、模仿互聯網文本的人工智能模型如何執行高級任務,例如運行代碼、玩遊戲和試圖拆散婚姻等等。」(Researchers are still struggling to understand how AI models trained to parrot Internet text can perform advanced tasks such as running code, playing games and trying to break up a marriage)
大型語言模型模仿了人腦連接的神經元
布朗大學的埃莉·帕夫利克(Ellie Pavlick) 表示:「如果我們不了解它們的工作原理,那麼我們想要對它們做的所有事情都是為了讓它們變得更好或更安全,或者類似的事情,在我看來,我們要求自己做的一切都是荒謬的。」一位研究人員致力於填補這一解釋空白。
在某種程度上,她和她的同事非常了解 GPT(「生成式預訓練變壓器」的縮寫)和其他大型語言模型(LLM)。這些模型依賴於稱為神經網絡的機器學習系統。這種網絡的結構鬆散地模仿了人腦連接的神經元。這些程序的代碼相對簡單,只佔幾個屏幕。它建立了一種自動更正算法,根據對數百GB互聯網文本的艱苦統計分析,選擇最有可能的單詞來完成一篇文章。額外的培訓可確保系統以對話的形式呈現其結果。從這個意義上說,它所做的只是重複所學到的東西——它是一隻「隨機鸚鵡」,用華盛頓大學語言學家 Emily Bender 的話說。(並不是要羞辱已故的亞歷克斯,一隻非洲灰鸚鵡,它理解顏色、形狀和「麵包」等概念,並有意使用相應的單詞。)但法學碩士也成功通過了律師資格考試,寫了一首關於希格斯玻色子的十四行詩,試圖破壞用戶的婚姻。很少有人預料到一個相當簡單的自動校正算法能夠獲得如此廣泛的能力。
它通過執行自己的計算來得出正確的答案
GPT 和其他人工智能系統執行未經訓練的任務,賦予它們「新興能力」,這甚至讓那些普遍對法學碩士的炒作持懷疑態度的研究人員感到驚訝。「我不知道他們是如何做到的,也不知道他們是否可以像人類那樣更普遍地做到這一點,但他們挑戰了我的觀點,」聖達菲研究所的人工智能研究員梅蘭妮·米切爾說。
該大學的人工智能研究員 Yoshua Bengio 表示:「它肯定不僅僅是一隻隨機鸚鵡,而且它確實構建了對世界的某種表徵,儘管我認為它與人類構建內部世界模型的方式不太相似。」蒙特利爾。
三月份在紐約大學舉行的一次會議上,哥倫比亞大學的哲學家拉斐爾·米利埃 (Raphaël Millière) 提供了另一個令人瞠目結舌的例子,展示了法學碩士的能力。這些模型已經展示了編寫計算機代碼的能力,這令人印象深刻,但並不太令人驚訝,因為互聯網上有太多可以模仿的代碼。然而,Millière 更進一步表明 GPT 也可以執行代碼。這位哲學家輸入了一個程序來計算斐波那契數列中的第 83 個數字。「這是高度多步推理,」他說。機器人成功了。然而,當 Millière 直接詢問第 83 個斐波那契數時,GPT 出錯了,這表明該系統不僅僅是在模仿互聯網。相反,它通過執行自己的計算來得出正確的答案。
他們的模型成為了一名近乎完美的球員
雖然法學碩士在計算機上運行,​​但它本身並不是計算機。它缺乏必要的計算元素,例如工作記憶。GPT 的發明者、科技公司 OpenAI 已經默認 GPT 本身無法運行代碼,因此推出了一個專門的插件(ChatGPT 可以在回答查詢時使用的工具),使其能夠執行此操作。但 Millière 的演示中並未使用該插件。相反,他假設機器通過利用其根據上下文解釋單詞的機制來即興記憶——這種情況類似於大自然如何將現有能力重新用於新功能。
這種即興的能力表明法學碩士發展出一種遠遠超出膚淺統計分析的內部複雜性。研究人員發現這些系統似乎真正理解了他們所學到的知識。哈佛大學的博士生 Kenneth Li 和他的人工智能研究員同事——麻省理工學院的 Aspen K. Hopkins 在 5 月份的國際學習表徵會議上發表了一項研究。東北大學的 David Bau;哈佛大學的 Fernanda Viégas、Hanspeter Pfister 和 Martin Wattenberg 構建了他們自己的 GPT 神經網絡的較小副本,以便研究其內部工作原理。他們對它進行了數百萬場棋盤遊戲《黑白棋》的比賽訓練通過以文本形式輸入長序列的動作。他們的模型成為了一名近乎完美的球員。
微型「探針」網絡來逐層分析主網絡
為了研究神經網絡如何編碼信息,他們採用了同樣在蒙特利爾大學的 Bengio 和 Guillaume Alain 在 2016 年發明的技術。他們創建了一個微型「探針」網絡來逐層分析主網絡。Kenneth Li將這種方法與神經科學方法進行了比較。「這類似於我們將電探針放入人腦中,」他說。就人工智能而言,調查顯示其「神經活動」與黑白棋棋盤的表現相匹配,儘管形式很複雜。為了證實這一點,研究人員反向運行探針,將信息植入網絡中,例如,將游戲的黑色標記塊翻轉為白色標記塊。「基本上,我們侵入了這些語言模型的大腦,」李說。網絡相應調整了動作。研究人員得出的結論是,它大致像人類一樣玩黑白棋:通過將游戲板放在其「心靈之眼」中,並使用該模型來評估動作。Kenneth Li說,他認為系統學習這項技能是因為這是對其訓練數據最簡潔的描述。「如果你有大量的遊戲腳本,嘗試找出其背後的規則是最好的壓縮方法,」他補充道。
一個人的紅色是另一個人的綠色
這種推斷外部世界結構的能力不僅限於簡單的遊戲動作;它也出現在對話中。Belinda Li(與 Kenneth Li 無關係)、Maxwell Nye 和 Jacob Andreas 均來自麻省理工學院,研究玩基於文本的冒險遊戲的網絡。他們輸入諸如「鑰匙在寶箱裡」之類的句子,然後是「你拿著鑰匙」。通過探針,他們發現網絡在自身內部編碼了與「胸部」和「你」相對應的變量,每個變量都具有是否擁有密鑰的屬性,並逐句更新這些變量。該系統沒有獨立的方式來了解盒子或鑰匙是什麼,但它獲取了該任務所需的概念。「模型內部隱藏著一些狀態表示,」Belinda Li 說。
研究人員對法學碩士能夠從文本中學到多少東西感到驚訝。例如,帕夫利克和她當時的博士學位。學生 Roma Patel 發現這些網絡吸收互聯網文本中的顏色描述並構建顏色的內部表示。當他們看到「紅色」這個詞時,他們不僅將其視為一個抽象符號,而且將其視為與栗色、深紅色、紫紅色、鐵鏽色等有一定關係的概念。證明這一點有點棘手。研究人員沒有將探針插入網絡,而是研究了它對一系列文本提示的響應。為了檢查它是否只是呼應在線參考中的顏色關係,他們試圖通過告訴系統紅色實際上是綠色來誤導系統——就像古老的哲學思想實驗,一個人的紅色是另一個人的綠色。
這是一種不同的學習方式
微軟研究院的機器學習研究員 Sébastien Bubeck 認為,為了執行自動更正功能,系統會尋求其訓練數據的底層邏輯,因此數據范圍越廣,系統發現的規則就越通用。 。「也許我們看到如此巨大的飛躍是因為我們已經獲得了數據的多樣性,這些數據足夠大,以至於所有這些數據的唯一基本原則就是智能生物產生了它們,」他說。「因此解釋所有數據的唯一方法是[模型]變得智能。」
除了提取語言的潛在含義之外,法學碩士還可以即時學習。在人工智能領域,「學習」一詞通常用於計算密集型過程,在該過程中,開發人員將神經網絡暴露於千兆字節的數據並調整其內部連接。當您在 ChatGPT 中輸入查詢時,網絡應該已修復;與人類不同,它不應該繼續學習。因此,令人驚訝的是法學碩士實際上可以從用戶的提示中學習——這種能力被稱為情境學習。人工智能公司 SingularityNET 的創始人 Ben Goertzel 表示:「這是一種不同的學習方式,以前人們並不真正理解這種學習方式的存在。」
另一種類型的情境學習是通過「思維鏈」提示進行
LLM 如何學習的一個例子來自人類與 ChatGPT 等聊天機器人的交互方式。你可以給系統舉例說明你希望它如何響應,它就會服從。它的輸出取決於它所看到的最後幾千個單詞。考慮到這些單詞,它的作用是由其固定的內部連接規定的——但單詞序列仍然提供了一定的適應性。整個網站都致力於「越獄」提示,以克服系統的「護欄」(例如,阻止系統告訴用戶如何製造管道炸彈的限制),通常是通過指示模型假裝是一個沒有護欄的系統。有些人將越獄用於粗略的目的,而另一些人則將其用於得出更有創意的答案。「我想說,它會更好地回答科學問題」,而不是直接問它,佛羅里達大西洋大學機器感知和認知機器人實驗室聯席主任威廉·哈恩說,沒有特殊的越獄提示。「在獎學金方面表現更好。」
另一種類型的情境學習是通過「思維鏈」提示進行的,這意味著要求網絡闡明其推理的每一步——這種策略使其能夠更好地解決需要多個步驟的邏輯或算術問題。(但讓米里埃的例子如此令人驚訝的是,該網絡在沒有任何此類指導的情況下找到了斐波那契數。)
實現類人功能專業化的一條途徑
2022 年,谷歌研究院和蘇黎世瑞士聯邦理工學院的一個團隊(Johannes von Oswald、Eyvind Niklasson、Ettore Randazzo、João Sacramento、Alexander Mordvintsev、Andrey Zhmoginov 和 Max Vladymyrov)表明,情境學習遵循相同的基本計算原理標準學習過程,稱為梯度下降。這個過程沒有被編程;系統在沒有幫助的情況下發現了它。谷歌研究院副總裁布萊斯·阿奎拉·阿卡斯 (Blaise Agüera y Arcas) 表示:「這需要成為一項後天習得的技能。」 事實上,他認為法學碩士可能還有其他尚未被發現的潛在能力。「每次我們測試一種可以量化的新能力時,我們都會找到它,」他說。
儘管法學碩士有足夠多的盲點,不符合通用人工智能(AGI)的資格(AGI 是指獲得動物大腦足智多謀的機器的術語),但這些新興能力向一些研究人員表明,科技公司比樂觀主義者想像的更接近AGI。「它們是間接證據,表明我們距離 AGI 可能並不遙遠,」Goertzel 三月份在佛羅里達大西洋大學的深度學習會議上說道。OpenAI 的插件賦予了 ChatGPT 有點像人腦的模塊化架構。「將 GPT-4(為 ChatGPT 提供支持的 LLM 的最新版本)與各種插件相結合可能是實現類人功能專業化的一條途徑,」麻省理工學院研究員 Anna Ivanova 說。
圍繞產品構建的事情將會更加孤立和組織化
但與此同時,研究人員擔心他們研究這些系統的能力可能正在關閉。OpenAI 尚未透露其如何設計和訓練 GPT-4的細節,部分原因是它正在與穀歌和其他公司競爭,更不用說其他國家了。麻省理工學院的理論物理學家丹·羅伯茨(Dan Roberts)運用自己的專業技術來理解人工智能,他說:「行業研究的開放性可能會減少,而圍繞產品構建的事情將會更加孤立和組織化。」
聖達菲研究所的米切爾說,這種缺乏透明度不僅損害了研究人員的利益。它還阻礙了理解急於採用人工智能技術的社會影響的努力。「這些模型的透明度是確保安全的最重要的事情。」