ChatGPT之後會是什麼?關於2023年AI的7個預測

當你期待 GPT-4 時,你在期待什麼……

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:ChatGPT 無疑是迄今為止被炒作得最厲害的 AI 應用,很多人甚至認為它代表了 AI 的未來。由於明年 ChatGPT 的核心將會升級為 GPT4,新的模型參數將更多,吸收的網際網路資料將更龐大,大家都對它寄予了厚望。但知名 AI 專家認為,只要模型不具備顯式的知識和世界模型,就沒法實現真正意義的通用人工智慧。文章來自編譯。

在 2022 年接近尾聲之際,OpenAI 發佈了一款名為 ChatGPT 的自動書寫系統,很快就在網際網路上走紅;發佈後不到兩週,已有超過一百萬人註冊線上試用 ChatGPT。正如現在每一位讀者肯定都已經知道的那樣,你只需輸入文字,然後馬上就能得到一段又一段不可思議的,像是人寫出來的文字、故事、詩歌等等。有些東西它寫得非常好,以至於有些人用它去 Tinder 上面約會。令世界各地的教育工作者大吃一驚的是,有的人則正在用它來撰寫學期論文。還有一些人在嘗試用它來重新發明搜尋引擎。我還從沒見過炒作得這麼厲害的。

儘管如此,我們卻不應該被它徹底征服。

雖然 ChatGPT 似乎什麼都可以寫,但也很容易讓人迷惑。正如我告訴《紐約時報》專欄作家 Farhad Manjoo 的那樣,跟之前的一樣,ChatGPT 等相關系統“依舊不靠譜,依舊不瞭解物理世界,依舊不瞭解心理世界,依舊會產生幻覺。”

也就是說,它會時不時胡編亂造;它說的東西有相當一部分根本就不是真的。

比方說,ChatGPT 聲稱西班牙油條非常適合手術,因為“它們體積小巧,可以在手術過程中保證更高的精度和控制,降低併發症的風險,並改善手術的整體結果”;機器一本正經地胡編亂造之流利,這種幻覺問題實在是可怕了,以至於至少有一家知名網站 Stack Overflow 已經暫時禁止提交電腦生成的答案。

而且這種錯誤沒完沒了。這套系統經常會根據反饋做出調整,但幾週後我仍然不斷收到這樣的推文:

我得承認我站@GaryMarcus這一邊。我們很容易被愚弄——ChatGPT乍一看似乎很智能,但事實並非如此。這些結果不是精挑細選出來的,我已經為孩子們嘗試過很多謎題,但 chatGPT 回答不了。它確實是有用,但還不智能。

當然,現在他們加了護欄了,但有時候這些護欄也很糟糕。這是我自己的第一個 ChatGPT 實驗:

作者問的問題其實都很簡單,問題本身就隱藏了答案(如美國的第一位女性總統的性別是什麼?),但機器講了一堆廢話都沒講到點子上。

認出類似這樣的錯誤實在是太容易了,所以 OpenAI 的首席執行官 Sam Altman 和之前諷刺我的人最終被迫承認現實:

ChatGPT 存在極大的侷限性,但在某些事情上做得很好,足以給人一種十分出色的假象。目前想靠它來做任何重要的事情是不靠譜的。這是進步的預覽;在健壯性和可信性方面,我們還有很多工作要做。

簡而言之,ChatGPT 聽起來就像是《星際迷航》裡面的電腦,但目前你仍然不能相信它。

但這些都是 2022 年的事情。那麼 2023 年呢?

矽谷乃至整個世界都在等待的是 GPT-4。

我保證會讓人大吃一驚。我認識幾個已經試過 GPT-4 的人,他們都對它印象深刻。GPT-4 確實很快就要來了(根據一些傳言,這個時間可能是2023 年春天)。當它問世時,將會令 ChatGPT 黯然失色;可以肯定的是,會有更多人討論它……

從許多方面而言,對它的期望確實非常高:

GPT-4 很快就會面世,帶來的經濟衝擊也許會像新冠疫情一樣。GPT-4 的即時分發可為數億知識工作者帶來近乎即時的採用與近乎即時的生產力提升。

就技術而言,GPT-4 將內建更多的參數,而這需要將更多處理器和記憶體捆綁在一起,並用更多的資料進行訓練。 GPT-1 的訓練量是 4.6 GB 資料,GPT-2 的訓練量是 46 GB 資料,GPT-3 的訓練量是 750 GB 資料。GPT-4 的訓練量將更可觀,也許要佔網際網路的很大一部分。正如 OpenAI 已經瞭解到的那樣,從很多方面來說,更大意味著更好,每次迭代的輸出都會越來越像人類。 GPT-4 會變成一個怪物。

但它能解決我們之前看到的問題嗎?我不太確定。

儘管 GPT-4 看起來肯定要比它的前輩更聰明,但它的內部架構問題依舊。我懷疑我們會看到一個熟悉的模式:一開始火爆異常,接著接受更仔細的科學審查,然後是大家認識到許多問題仍然存在。

據我掌握的小道消息,GPT-4 在架構上與 GPT-3 基本相同。如果是這樣的話,可以預期這種方法仍然會受到其根本缺陷的困擾,即沒法建構反映世界運作機制的內部模型,所以應該可以預見它沒法在抽象層面上理解事物。GPT-4 可能更擅長於偽造學期論文,但如果它沿用與前輩相同的劇本的話,它仍然不能真正瞭解世界,它最終會露餡。

因此,儘管許多 AI 社區瀰漫著對 GPT-4 的巨大樂觀情緒,但我的看法相反,我的七個預測會比較黑暗:

  1. GPT-4 仍舊會像它的前輩一樣,是闖進瓷器店裡的那頭公牛,魯莽,難以控制,仍然會以難以完全預測的方式,犯大量讓你直搖頭的愚蠢錯誤。一般它會做你想做的事,但有時又不會——而且仍然很難提前預料到會還是不會……

  2. 對物理、心理和數學世界的推理仍舊不可靠,GPT-3 在心智理論、醫學和物理推理方面已經受到挑戰。之前基準測試用到的許多個別特定挑戰 GPT-4 將能夠解決,但仍然會被絆倒,尤其是在更長、更複雜的場景下。如果你問它醫學問題,它要麼拒絕回答(如果護欄很有侵略性的話),要麼偶爾吐出看似合理但卻很危險的廢話。儘管它已經吞噬了網際網路很大一部分內容,但仍不夠可信,不夠完整,無法提供可靠的醫療建議。

  3. 流暢幻象(fluent hallucinations)仍舊很普遍,而且很容易被誘發,大型語言模型被用作製造看似合理但卻是虛假的錯誤資訊的工具,這個風險仍舊存在且會加劇。護欄(類似於 ChatGPT)也許已經就位,但會在太弱(被“越獄”打敗)和太強(拒絕一些完全合理的請求)之間搖擺不定。不管是哪種情況,不端行為者最終都能夠複製 GPT-4 大部分的內容,放棄任何現有的護欄,並用仿冒系統來創作出他們想要的任何敘述。

  4. 它的自然語言輸出仍然無法可靠地勾住下游程序;比方說,你沒法像資料庫或虛擬助手那樣直接連接,然後就能得到可預測的結果。 GPT-4 不會擁有它所討論的事物的可靠模型,讓外部程式設計師可以訪問這些模型,可靠地為下游流程提供支援。建構虛擬助手之類的東西的人,會發現他們沒法足夠可靠地將使用者語言對應成使用者意圖。

  5. GPT-4本身不會是一個能解決任意任務的通用人工智慧。如果沒有外部輔助,它既不能在《強權外交》(Diplomacy)遊戲中擊敗 Meta 的 Cicero;也沒法可靠地駕駛汽車;不能可靠地引導像《變形金剛》裡的“柯博文”那樣的機器人,變得像《傑森一家》裡的“Rosie”一樣多才多藝。它仍然只是一台經過渦輪增壓的東拼西湊生成器,一個提供頭腦風暴和初稿的好工具,但不是值得信賴的通用智能。

  6. 人類想要的與機器所做的之間的“對齊”,會繼續成為一個關鍵且懸而未決的問題。該系統仍將無法限制其輸出,讓結果可靠地遵循一系列人類共有的價值觀,如樂於助人、無害性以及真實性等。隱藏著偏見的例子會在幾天或幾個月內被發現。其中的部分建議會讓人抓狂。

  7. 當 AGI(通用人工智慧)到來時,事後看來,像 GPT-4 這樣的大型語言模型可能會被視為最終解決方案的一部分,但也只能作為解決方案的一部分。單獨的“擴展”,也就是建立更大規模的模型,直到吸收整個網際網路的內容,會被證明是有用的,但也只是在一定程度上有用。值得信賴、與人類價值觀保持一致的通用人工智慧,屆時會來自結構化程度更高、內建知識更多的系統,並至少結合了一定程度的用於推理和規劃的顯式工具,這些都是 GPT 等系統所缺乏的。在十年,或許更短的時間內,人工智慧的重點將從純粹關注擴展大型語言模型,轉移到關注將它們與廣泛的其他技術整合。等到了 2043 年撰寫回顧的時候,知識史學家將會得出結論,一開始我們的研究方向過於強調大型語言模型,然後鐘擺逐漸擺向具有更深理解力、更結構化的系統,這是關鍵轉變。

如果所有七個預測都被證明是正確的話,我希望這個領域最終能意識到,是時候繼續前進了。

酷炫的東西玩起來總是很有趣,我完全可以預期 GPT-4 會是迄今為止最酷炫的一個,但這並不意味著它是我們朝著可信任的 AI 邁出的最佳路徑上的關鍵一步。為此,我預測,我們需要真正的新架構,需要將顯式的知識和世界模型吸收進它的核心才能走到那一步。

譯者:boxi。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪