谷歌將大模型塞進機器人,幹活更麻利,還能聽懂“話外音”

距離通用機器人時代更近一步。

谷歌正試圖訓練出更像人類的機器人。

智東西8月17日報道,谷歌剛剛公佈一項重磅研究進展:通過結合更強大的人工智能(AI)大型語言模型,進一步提高機器人的“智商”。

研究人員表示,這是第一次將大型語言模型集成到機器人中,“是一種非常不同的範式” 。

就像人類一樣,機器人能響應完整的命令。換句話說,你不再需要像以前那樣分步地發出一連串簡短指令,一步一步指導機器人的每個動作。

谷歌研究人員做了個演示,對機器人說:“我餓了,你能給我點零食嗎?”

接著,機器人在自助餐廳中搜索一番,然後打開一個抽屜,找到一袋薯片並將它拿給研究人員。

當然了,拿汽水也是不在話下。

▲機器人演示拿起物品的能力

這是一項雄心勃勃的技術突破,為多用途機器人鋪平了道路,使其像以往的掃地機器人、巡邏機器人等單一任務機器人一樣易於控制。

谷歌在本週二發布的博文中,詳細介紹了這項研究進展,通過結合更復雜的語言模型,機器人執行命令的成功率從61%提高至74%

項目鏈接:https://sites.research.google/palm-saycan

論文鏈接:https://arxiv.org/pdf/2204.01691.pdf

01.用大模型提高理解能力,讓機器人不再是“鐵憨憨”

指揮機器人幹活不是什麼新奇的事,但要讓機器人能夠理解你的命令背後的意圖,那就要考驗它的“大腦”好不好用了。

比如,當你問機器人:“我把飲料灑了,你能幫忙嗎?”谷歌機器人可以迅速篩出適配指令的合適行動,然後從廚房拿塊清潔海綿來。

但假如你只是驚呼:“完蛋!我的飲料!”那麼常見的機器人通常毫無反應,這時候,如果有一個智能機器人聽出你的話外音,主動幫你清潔,那它才是真正聰明的機器人。

這些看似簡單的感知技能,實際上是最具計算挑戰性的任務類型。

以前,機器人系統只能執行簡短、明確的指令,例如“拿起一個蘋果”、“往前走兩步”。

機器人往往在明確具體的任務和獎勵下表現最好,但在學習執行多步驟任務和推理抽象的、模棱兩可的指令方面遇到困難。

比如,你問機器人:“我剛剛鍛煉過,可以給我拿一份健康的零食?”機器人可能很難理解這句話裡的細微表達差別和微妙之處。

雖然近年來大型語言模型進展飛速,取得許多令人印象深刻的結果,很多語言模型在特定領域的知識儲備已經遠超人類,但很多語言模型的訓練並沒有基於物理世界的數據,通常不會跟環境產生直接交互,也不會觀察其響應的結果。

這可能導致語言模型生成的指令,會讓在現實環境中運行的機器人做出不合邏輯、不切實際或者不安全的行動。

我們還用剛才提到的問題舉例,問機器人:“我把飲料灑了,你能幫忙嗎?”

經典的OpenAI大模型GPT-3會提供一個建議:“您可以嘗試使用真空吸塵器。”

谷歌AI系統LaMDA會回答:“您想讓我幫忙找個清潔工具嗎?”

另一個谷歌FLAN語言模型則會直接道歉:“對不起,我不是故意的。”這顯然是個沒用的回應。

因此,谷歌研究人員提出設想,有沒有一種有效的方法,能夠將高級語言模型的語言理解能力和機器人系統擅長的處理感知和交互能力相結合,同時利用兩者的優勢?

這就是谷歌正與谷歌母公司Alphabet的機器人子公司Everyday Robots合作研發的新方法——PaLM-SayCan

02.用語言模型做“大腦”,機器人充當“手”與“眼”

谷歌研究人員稱,將PaLM-SayCan集成到機器人中後,機器人通過使用思維鏈提示和執行請求所需的分步解決方案,能更好地執行復雜、抽象的任務,根據自身能力權衡接下來最合適的執行步驟,並實現高度可解釋的行動結果。

“我們發現它(機器人)甚至能處理16個步驟的指令。”研究人員說。

引入PaLM-SayCan後,語言模型可以幫助機器人更好地理解運用到高級語義知識、需要進行推理的指令,使其與人類、與物理環境的互動更自然。 反過來,機器人可以充當語言模型的手和眼,通過與真實環境的不斷交互為語言模型提供更多的經驗。

具體是怎麼做的呢?

PaLM-SayCan方法使用PaLM語言模型(Say)中包含的知識來確定和評估對高級指令有效的動作,它還用到Affordance功能(Can),來支持現實世界並確定在給定環境下可執行哪些操作。

這個系統可以看作是用戶和機器人之間的對話平台。用戶首先發出一個指令,語言模型將其拆解成方便機器人執行的一系列明確步驟。

然後,機器人對這些步驟進行篩選,通過評估確定在其當前狀態和環境下最可行的行動計劃,從而完成相應任務。

該模型通過將兩個概率相乘,來確定特定技能成功學習的概率:一是task-grounding,即技能語言描述;二是world-grounding,即當前技能的可行性。

由於PaLM-SayCan方法擁有較好的可解釋性,用戶可以通過查看單獨的語言和可視性分數,來輕松理解決策過程。

03.灑了飲料,機器人幫忙清理分幾步?

如可視化界面所示,PaLM-SayCan執行復雜任務的行為是可解釋的,這將使機器人的交互過程更加安全可控。

比如當你灑了飲料,請求機器人幫忙時,你可以看到它是如何做出決定,為執行任務選擇最合適的步驟的:找到可樂罐,拾起可樂罐,走到垃圾桶旁邊,放下可樂罐,找到一塊海綿,拾起海綿,走向桌子,放下海綿……

藍色顯示的是語音模型分數,即語言模型判斷技能有用的概率;紅色是affordance分數,即系統成功執行技能的可能性;綠色顯示的是用於最終決定執行技能的綜合分數。

PaLM-SayCan方法將語言模型的概率和價值函數(VF)的概率相結合,以選擇下一個要執行的技能,重復這個過程,直至高級指令成功完成。

研究人員使用基於圖像的行為克隆(BC)來訓練語言條件策略和基於時間差異(TD)的強化學習方法來訓練價值函數。

智能體技能庫中,訓練策略和價值函數的每個技能都會被定義為一個具有簡短語言描述的策略,用嵌入表示,以及一個指示從機器人當前狀態完成技能概率的affordance函數。

為了學習affordance函數,研究人員使用稀疏獎勵函數,設置為1.0表示成功執行,0.0表示未成功。

訓練策略方面,研究人員從10個機器人在11個月內執行的68000次演示中收集了數據,並從一組自主學習的策略片段中篩選了12000次成功的片段,然後在Everyday Robots模擬器用使用MT-Opt學習語言條件值函數,通過使用演示來引導模擬策略的性能,以提供初步成功,再通過模擬中的在線數據收集來持續改進強化學習性能。

04.走向通用機器人時代

為了測試其方法,研究人員使用了與PaLM配對的Everyday Robots機器人,將機器人放在有各種常見物體的廚房環境中,用101條指令對其進行測試。

這些指令不是簡單的命令式查詢,而是涵蓋了語言常有的歧義性和復雜性。

研究人員用兩個指標來評估系統的性能:(1)規劃成功率,表示機器人是否為指令選擇了正確的技能;(2)執行成功率,表示機器人是否成功執行了指令。

他們比較了PaLM和FLAN兩種谷歌大型語言模型、有和沒有affordance grounding以及直接使用自然語言運行的底層策略。

結果顯示,使用帶有affordance grounding的PaLM(即谷歌PaLM-SayCan)系統在84%的時間內選擇了正確的技能序列,並在74%的時間內成功執行這些技能序列。

與FLAN以及沒有robotic grounding的PaLM相比,PaLM-SayCan的錯誤減少了50%。同時,相較此前的FLAN-SayCan方法,PaLM-SayCan的執行成功率提升了13%

“這特別令人興奮,因為它代表著我們第一次可以看到語言模型的進步如何轉化為機器人技術的類似改進。”谷歌研究人員在技術博客中寫道。

研究人員相信,這項研究將推動從執行簡短、明確的制定命令的工業機器人,過渡到可以處理更復雜和抽象命令的通用機器人時代。

不過由於谷歌沒有公開101個命令的完整列表,所以這些命令是否覆蓋家庭機器人所需理解的絕大部分語言廣度和復雜性,還不好下定論。

谷歌研究人員還開源了一個機器人模擬設置,希望提供寶貴資源用於將機器人學習與高級語言模型相結合的未來研究。

GitHub鏈接:http://say-can.github.io/

未來,他們希望更好地瞭解利用機器人的真實世界經驗獲得的信息來改進語言模型,以及自然語言在多大程度上是編程機器人的正確本體。

05.科技巨頭對機器人研發興趣濃厚

谷歌母公司Alphabet對研發機器人佈局已久。

2013年,谷歌一連收購了幾家知名機器人公司,包括機器人領域“最出圈”的波士頓動力。不過後來波士頓動力幾經轉手,先是被谷歌賣給日本電信和科技投資巨頭軟銀,後來又被軟銀賣給了韓國汽車巨頭現代。

此前Everyday Robotics打造的機器人已經在谷歌內部執行一些簡單任務,比如送零食、倒垃圾、擦拭櫃台。

▲機器人跟谷歌員工打乒乓球

Everyday Robotics項目仍處於起步階段,機器人行動比較緩慢,做事也沒那麼果斷靈巧。不過隨著這些機器人借助谷歌大型語言模型提高理解能力,它們將進一步提高執行力。

除了谷歌外,多家大型科技公司都對機器人技術展現出濃厚的興趣。

一個典型的代表是美國電商巨頭亞馬遜,它在倉庫中使用了許多機器人,並且正在試驗無人機送貨。這個月初,亞馬遜還宣佈計劃以17億美元收購掃地機器人鼻祖iRobot,此次收購也將成為亞馬遜史上第四大巨額收購交易。

就在上週,國內智能手機製造商小米公佈了其研發的人形機器人“鐵大”,去年它還推出了一款機器狗“鐵蛋”。

▲小米人形機器人“鐵大”

除此之外,美國電動車龍頭特斯拉也在研發通用機器人,並將在9月30日發布其首款人形機器人“擎天柱”原型機。

據特斯拉創始人兼CEO馬斯克透露,“擎天柱”將是一款非常友好的機器人,能替代人類執行一些從事危險、重復、無聊的任務,包括拿扳手給特斯拉電動車裝螺絲,或者幫人類買菜、做飯、照顧老人,而且未來其成本比汽車還要便宜。

▲特斯拉“擎天柱”的部分參數

06.結語:距離高智能機器人,還有很長的路要走

多年來,用AI技術訓練機器人屢有突破,但大的進展仍然緩慢。而引入語言模型的方法,或許可以幫助機器人進一步提高解決復雜問題的能力,從而替代人類從事更多重復性勞動。

谷歌的這一探索,展示了機器人技術與大型語言模型進步結合的更多可能性。

目前真正大范圍滲透進人們日常生活空間的家庭機器人,僅有清潔機器人這個品類,但在AI、激光雷達等技術的輔助下,隨著機器人提高視覺、導航等技能,更多新型機器人將進入家庭場景。

當然,迄今的機器人研發,距離我們想像的十項全能“機器人管家”,還有很長的路要走。

語言模型固然可以為機器人提供更好的步驟規劃評估和選擇,但它們還做不到事無巨細地提供所有信息,比如不能告訴機器人打開冰箱時應施加多大的力。谷歌研究人員也暫時沒有將PaLM-SayCan商業化的計劃。

圍繞機器人創新技術及商業化落地成果,智東西將在明日舉行的2022世界機器人博覽會現場發來更多一線觀察報道,歡迎關注。

本文來自微信公眾號 “智東西”(ID:zhidxcom),作者:ZeR0,36氪經授權發布。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪