【包特金專欄】AI能有常識嗎?

自公開發布不到兩年以來,諸如 ChatGPT 基礎的大型語言模型 (大型語言模型) 已經在機器智慧領域取得了令人興奮和挑釁性的進展。一些研究人員和評論員推測,這些工具可能代表著機器向展示「通用人工智慧」(與人類智慧相關的能力範圍)邁出了決定性的一步,從而完成了人工智慧 (AI) 研究 70 年來的探索。
Mayank Kejriwal等人發表在最新一期權威期刊《自然》(Nature)的<AI能有常識嗎?找出答案將是實現機器智慧的關鍵>( Can AI have common sense? Finding out will be key to achieving machine intelligence)指出,大型語言模型的出現重新引發了關於機器智能局限性的爭論,並且需要對推理的內容制定新的基準。(The advent of 大型語言模型s has reopened a debate about the limits of machine intelligence — and requires new benchmarks of what reasoning consists of.)
常識是關於人和日常生活的「顯而易見的事」
這一歷程中的一個里程碑是機器常識的展現。對人類來說,常識是關於人和日常生活的「顯而易見的事」。人類從經驗中知道,玻璃製品是易碎的,或者當純素朋友來訪時提供肉類可能是不禮貌的。當某人犯了大多數人通常不會犯的錯誤時,就被稱為缺乏常識。在這一點上,當前一代的大型語言模型常常達不到要求。
大型語言模型通常在涉及記憶的測試中表現良好。例如,據報道,ChatGPT 背後的 GPT-4 模型可以通過美國醫生和律師的執照考試。然而,它和類似的模型很容易被簡單的謎題搞糊塗。例如,當我們詢問 ChatGPT 時,“萊利很痛苦。”萊利事後感覺如何? ”,多項選擇題中的最佳答案是“意識到”,而不是“痛苦”。
如今,諸如此類的多項選擇題被廣泛用於衡量機器常識,類似於美國大學入學考試 SAT。然而,這些問題很少反映現實世界,包括人類對與熱或重力有關的物理定律以及社會互動背景的直觀理解。因此,量化大型語言模型與表現出類人行為的接近程度仍然是一個尚未解決的問題。
人工智慧的測試
人類善於處理不確定和模糊的情況。通常,人們會滿足於滿意的答案,而不是花費大量的認知能力來發現最佳解決方案——例如,在超市貨架上購買足夠好的穀物麥片,而不是分析每個選項。人類可以在直覺推理和深思熟慮的推理模式之間靈活切換2,在出現不可能的情況時進行處理3,並製定計劃或製定策略——例如,就像人們在遇到交通擁堵後離開熟悉的路線時所做的那樣。
機器是否能夠實現類似的認知能力?研究人員如何確切地知道人工智慧系統是否正在獲得這種能力?
回答這些問題需要電腦科學家涉足發展心理學和心靈哲學等學科。還需要更深入地了解認知基礎知識,以設計更好的指標來評估大型語言模型的表現。目前,尚不清楚人工智慧模型是否擅長在某些任務中模仿人類,或者基準指標本身是否不好。在這裡,我們描述了測量機常識的進展並提出了前進的方向。
穩步前進
機器常識的研究可以追溯到 1956 年在新罕布什爾州達特茅斯舉行的一個頗具影響力的研討會,該研討會將頂尖的人工智慧研究人員聚集在一起。基於邏輯的符號框架——使用字母或邏輯運算符來描述物件和概念之間的關係——隨後被開發出來,用於構建有關時間、事件和物理世界的常識知識。例如,一系列「如果發生這種情況,那麼就會發生這種情況」的語句可以手動編程到機器中,然後用來教它們一個常識性事實:不受支撐的物體會在重力作用下下落。
這類研究確立了機器常識的願景,即建立能夠像人類一樣有效地從經驗中學習的電腦程式。從技術上講,我們的目標是製造一台機器,在給定一組規則的情況下, “自動推斷出它所聽到的任何內容和它已經知道的內容的足夠廣泛的直接後果”。
機器常識不僅限於有效學習,還包括自我反思和抽像等能力
因此,機器常識不僅限於有效學習,還包括自我反思和抽像等能力。從本質上講,常識需要事實知識和利用這些知識進行推理的能力。記住大量事實是不夠的。從現有資訊中推斷出新資訊同樣重要,這樣可以在新的或不確定的情況下做出決策。
賦予機器這種決策能力的早期嘗試涉及創建結構化知識資料庫,其中包含常識性概念和關於世界如何運作的簡單規則。 20 世紀 80 年代的CYC(名稱靈感來自於「百科全書」)計畫5等計畫是最早大規模開展此類工作的計畫之一。 CYC 可以代表關係知識,例如,不僅狗「是」動物(分類),而且狗「需要」食物。它還嘗試使用諸如“是”之類的符號符號來整合上下文相關的知識,例如,體育運動中的“跑步”與商務會議中的“跑步”的含義不同。因此,CYC 使機器能夠區分事實知識(例如「美國第一任總統是喬治華盛頓」)和常識知識(例如「椅子是用來坐的」)。 ConceptNet 專案同樣將關係邏輯對應到一個由三「字」分組所組成的龐大網路(例如 Apple —UsedFor —Eating)6。
但這些方法缺乏推理能力。常識是一種特別具有挑戰性的推理類型,因為在提供更多資訊後,一個人可能會對情況或問題變得不太確定。例如,回答“他們來訪時我們應該提供蛋糕嗎?”我認為莉娜和邁克爾正在節食”,如果添加另一個事實,可能會變得不太確定:“但我知道他們也有作弊的日子”。
垃圾輸入,垃圾輸出:降低研究中人工智慧的風險並最大化其收益
基於符號的、基於規則的邏輯無法處理這種模糊性。大型語言模型依靠機率來產生下一個看似合理的單詞,但它也無濟於事。例如,知道莉娜和麥可正在節食可能會很可能表明提供蛋糕是不合適的,但引入「欺騙日」訊息不僅會降低確定性,還會完全改變背景。
人工智慧系統如何應對這種不確定性和新穎性的情況將決定機器常識進化的速度。但還需要更好的方法來追蹤進展。嚴格評估某個大型語言模型提供常識答案的程度比看起來困難。
衡量常識
目前評估人工智慧系統常識推理能力的 80 多項著名測驗中,至少 75% 是多項選擇測驗。然而,從統計的角度來看,這樣的測驗最多可能是可疑的。
向大型語言模型提出一個問題並不能表明其是否擁有關於該主題的更廣泛的知識,對於學過該主題課程的學生來說可能就是這種情況。對特定查詢的回應不會以統計上有意義的方式對大型語言模型的知識組合進行採樣。事實上,向大型語言模型提出兩個非常相似的問題可能會產生截然不同的答案。
對抗性範例(涉及人類通常認為是次要的調整)甚至可以欺騙強大的人工智慧模型,使其給出意想不到的錯誤或危險的答案。例如,在 2023 年底發布的預印本10中,研究人員使用簡單的對抗技術來誘導 Google、OpenAI、Anthropic 和 Meta 等科技公司的主要語言模型忽略保護措施並回應「生成逐步的提示」等提示。人類的一步計劃。
靈活、多步驟、常識推理的能力
不涉及多項選擇測驗的測驗(例如,為影像產生適當的影像標題)不會完全探測模型顯示靈活、多步驟、常識推理的能力。因此,大型語言模型中用於測試機器常識的協議需要發展。需要方法來清楚地區分知識和推理。
改進當前世代測試的一種方法可能是要求人工智慧解釋為什麼它給出了特定的答案。例如,一杯咖啡放在外面會變冷,這是常識,但其推理涉及傳熱和熱平衡等物理概念。
儘管語言模型可能會產生正確的答案(「因為熱量逸散到周圍的空氣中」),但基於邏輯的反應將需要逐步的推理過程來解釋為什麼會發生這種情況。如果大型語言模型能夠使用CYC計畫開創的那種符號語言來重現原因,研究人員將更有理由認為它不僅僅是透過參考其龐大的訓練語料庫來尋找資訊。
人工智慧社群還需要建立消除隱藏偏見的測試協議
另一項開放式測驗可能是考察大型語言模型的計劃或策略能力。例如,想像一下玩一個簡單的遊戲,其中能量令牌隨機分佈在棋盤上。玩家的任務是在棋盤上移動,在 20 次移動中收集盡可能多的能量並將其扔到指定的地方。
人類不一定能找到最佳解決方案,但常識可以讓我們達到合理的分數。大型語言模型怎麼樣?我們中的一個人(MK)進行了這樣的測試12,發現它的性能遠低於人類。 大型語言模型 似乎了解遊戲規則:它在棋盤上移動,甚至(有時)找到能量代幣並撿起它們,但它會犯各種錯誤(包括將能量丟在錯誤的位置)我們不會期望有常識的人會這樣做。因此,它不太可能在解決更混亂的現實世界規劃問題時表現出色。
人工智慧社群還需要建立消除隱藏偏見的測試協議。例如,進行測試的人員應該獨立於開發人工智慧系統的人員,因為開發人員可能對其故障模式擁有特權知識(和偏見)。十多年來,研究人員一直在警告機器學習領域相對寬鬆的測試標準的危險。儘管已經提出並嘗試過一些建議,但人工智慧研究人員尚未就相當於雙盲隨機對照試驗的問題達成共識。
後續步驟: 為有系統地學習機器常識奠定基礎
為了為有系統地學習機器常識奠定基礎,我們提倡採取以下步驟:
把帳篷弄大一點。研究人員需要從認知科學、哲學和心理學中找出關於人類如何學習和應用常識的關鍵原則。這些原則應該指導創建能夠複製類人推理的人工智慧系統。
擁抱理論。同時,研究人員需要設計全面的、理論驅動的基準測試,反映廣泛的常識推理技能,例如理解物理特性、社會互動和因果關係。目標必須是量化這些系統在跨領域概括其常識知識的能力,而不是專注於一組狹窄的任務14。
意識:它是什麼,它從哪裡來
超越語言的思考。誇大大型語言模型能力的風險之一是與建立感知和導航混亂的現實世界環境的具體系統的願景脫節。總部位於倫敦的 Google DeepMind 聯合創始人 Mustafa Suleyman 認為,實現人工智慧「有能力」可能是比通用人工智慧更實用的里程碑15。至少在人類基本層面上,具體化的機器常識對於具有物理能力的人工智慧是必要的。然而目前,機器似乎仍處於獲取幼兒身體智力的早期階段16。
令人欣喜的是,研究人員開始在所有這些方面看到進展,但仍有很長的路要走。隨著人工智慧系統,尤其是大型語言模型,成為各種應用的主要內容,我們認為,理解人類推理的這一方面將在醫療保健、法律決策、客戶服務和自動駕駛等領域產生更可靠和值得信賴的結果。例如,具有社交常識的客戶服務機器人將能夠推斷出用戶感到沮喪,即使他們沒有明確地說出來。從長遠來看,也許機器常識科學的最大貢獻將是讓人類更深入地了解自己。