谷歌將大模型塞進機器人，幹活更麻利，還能聽懂“話外音”

36氪

2022年8月19日上午1:56

距離通用機器人時代更近一步。

谷歌正試圖訓練出更像人類的機器人。

智東西8月17日報道，谷歌剛剛公佈一項重磅研究進展：通過結合更強大的人工智能（AI）大型語言模型，進一步提高機器人的“智商”。

研究人員表示，這是第一次將大型語言模型集成到機器人中，“是一種非常不同的範式” 。

就像人類一樣，機器人能響應完整的命令。換句話說，你不再需要像以前那樣分步地發出一連串簡短指令，一步一步指導機器人的每個動作。

谷歌研究人員做了個演示，對機器人說：“我餓了，你能給我點零食嗎？”

接著，機器人在自助餐廳中搜索一番，然後打開一個抽屜，找到一袋薯片並將它拿給研究人員。

當然了，拿汽水也是不在話下。

▲機器人演示拿起物品的能力

這是一項雄心勃勃的技術突破，為多用途機器人鋪平了道路，使其像以往的掃地機器人、巡邏機器人等單一任務機器人一樣易於控制。

谷歌在本週二發布的博文中，詳細介紹了這項研究進展，通過結合更復雜的語言模型，機器人執行命令的成功率從61%提高至74%。

項目鏈接：https://sites.research.google/palm-saycan

論文鏈接：https://arxiv.org/pdf/2204.01691.pdf

01.用大模型提高理解能力，讓機器人不再是“鐵憨憨”

指揮機器人幹活不是什麼新奇的事，但要讓機器人能夠理解你的命令背後的意圖，那就要考驗它的“大腦”好不好用了。

比如，當你問機器人：“我把飲料灑了，你能幫忙嗎？”谷歌機器人可以迅速篩出適配指令的合適行動，然後從廚房拿塊清潔海綿來。

但假如你只是驚呼：“完蛋！我的飲料！”那麼常見的機器人通常毫無反應，這時候，如果有一個智能機器人聽出你的話外音，主動幫你清潔，那它才是真正聰明的機器人。

這些看似簡單的感知技能，實際上是最具計算挑戰性的任務類型。

以前，機器人系統只能執行簡短、明確的指令，例如“拿起一個蘋果”、“往前走兩步”。

機器人往往在明確具體的任務和獎勵下表現最好，但在學習執行多步驟任務和推理抽象的、模棱兩可的指令方面遇到困難。

比如，你問機器人：“我剛剛鍛煉過，可以給我拿一份健康的零食？”機器人可能很難理解這句話裡的細微表達差別和微妙之處。

雖然近年來大型語言模型進展飛速，取得許多令人印象深刻的結果，很多語言模型在特定領域的知識儲備已經遠超人類，但很多語言模型的訓練並沒有基於物理世界的數據，通常不會跟環境產生直接交互，也不會觀察其響應的結果。

這可能導致語言模型生成的指令，會讓在現實環境中運行的機器人做出不合邏輯、不切實際或者不安全的行動。

我們還用剛才提到的問題舉例，問機器人：“我把飲料灑了，你能幫忙嗎？”

經典的OpenAI大模型GPT-3會提供一個建議：“您可以嘗試使用真空吸塵器。”

谷歌AI系統LaMDA會回答：“您想讓我幫忙找個清潔工具嗎？”

另一個谷歌FLAN語言模型則會直接道歉：“對不起，我不是故意的。”這顯然是個沒用的回應。

因此，谷歌研究人員提出設想，有沒有一種有效的方法，能夠將高級語言模型的語言理解能力和機器人系統擅長的處理感知和交互能力相結合，同時利用兩者的優勢？

這就是谷歌正與谷歌母公司Alphabet的機器人子公司Everyday Robots合作研發的新方法——PaLM-SayCan。

02.用語言模型做“大腦”，機器人充當“手”與“眼”

谷歌研究人員稱，將PaLM-SayCan集成到機器人中後，機器人通過使用思維鏈提示和執行請求所需的分步解決方案，能更好地執行復雜、抽象的任務，根據自身能力權衡接下來最合適的執行步驟，並實現高度可解釋的行動結果。

“我們發現它（機器人）甚至能處理16個步驟的指令。”研究人員說。

引入PaLM-SayCan後，語言模型可以幫助機器人更好地理解運用到高級語義知識、需要進行推理的指令，使其與人類、與物理環境的互動更自然。反過來，機器人可以充當語言模型的手和眼，通過與真實環境的不斷交互為語言模型提供更多的經驗。

具體是怎麼做的呢？

PaLM-SayCan方法使用PaLM語言模型（Say）中包含的知識來確定和評估對高級指令有效的動作，它還用到Affordance功能（Can），來支持現實世界並確定在給定環境下可執行哪些操作。

這個系統可以看作是用戶和機器人之間的對話平台。用戶首先發出一個指令，語言模型將其拆解成方便機器人執行的一系列明確步驟。

然後，機器人對這些步驟進行篩選，通過評估確定在其當前狀態和環境下最可行的行動計劃，從而完成相應任務。

該模型通過將兩個概率相乘，來確定特定技能成功學習的概率：一是task-grounding，即技能語言描述；二是world-grounding，即當前技能的可行性。

由於PaLM-SayCan方法擁有較好的可解釋性，用戶可以通過查看單獨的語言和可視性分數，來輕松理解決策過程。

03.灑了飲料，機器人幫忙清理分幾步？

如可視化界面所示，PaLM-SayCan執行復雜任務的行為是可解釋的，這將使機器人的交互過程更加安全可控。

比如當你灑了飲料，請求機器人幫忙時，你可以看到它是如何做出決定，為執行任務選擇最合適的步驟的：找到可樂罐，拾起可樂罐，走到垃圾桶旁邊，放下可樂罐，找到一塊海綿，拾起海綿，走向桌子，放下海綿……

藍色顯示的是語音模型分數，即語言模型判斷技能有用的概率；紅色是affordance分數，即系統成功執行技能的可能性；綠色顯示的是用於最終決定執行技能的綜合分數。

PaLM-SayCan方法將語言模型的概率和價值函數（VF）的概率相結合，以選擇下一個要執行的技能，重復這個過程，直至高級指令成功完成。

研究人員使用基於圖像的行為克隆（BC）來訓練語言條件策略和基於時間差異（TD）的強化學習方法來訓練價值函數。

智能體技能庫中，訓練策略和價值函數的每個技能都會被定義為一個具有簡短語言描述的策略，用嵌入表示，以及一個指示從機器人當前狀態完成技能概率的affordance函數。

為了學習affordance函數，研究人員使用稀疏獎勵函數，設置為1.0表示成功執行，0.0表示未成功。

訓練策略方面，研究人員從10個機器人在11個月內執行的68000次演示中收集了數據，並從一組自主學習的策略片段中篩選了12000次成功的片段，然後在Everyday Robots模擬器用使用MT-Opt學習語言條件值函數，通過使用演示來引導模擬策略的性能，以提供初步成功，再通過模擬中的在線數據收集來持續改進強化學習性能。

04.走向通用機器人時代

為了測試其方法，研究人員使用了與PaLM配對的Everyday Robots機器人，將機器人放在有各種常見物體的廚房環境中，用101條指令對其進行測試。

這些指令不是簡單的命令式查詢，而是涵蓋了語言常有的歧義性和復雜性。

研究人員用兩個指標來評估系統的性能：（1）規劃成功率，表示機器人是否為指令選擇了正確的技能；（2）執行成功率，表示機器人是否成功執行了指令。

他們比較了PaLM和FLAN兩種谷歌大型語言模型、有和沒有affordance grounding以及直接使用自然語言運行的底層策略。

結果顯示，使用帶有affordance grounding的PaLM（即谷歌PaLM-SayCan）系統在84%的時間內選擇了正確的技能序列，並在74%的時間內成功執行這些技能序列。

與FLAN以及沒有robotic grounding的PaLM相比，PaLM-SayCan的錯誤減少了50%。同時，相較此前的FLAN-SayCan方法，PaLM-SayCan的執行成功率提升了13%。

“這特別令人興奮，因為它代表著我們第一次可以看到語言模型的進步如何轉化為機器人技術的類似改進。”谷歌研究人員在技術博客中寫道。

研究人員相信，這項研究將推動從執行簡短、明確的制定命令的工業機器人，過渡到可以處理更復雜和抽象命令的通用機器人時代。

不過由於谷歌沒有公開101個命令的完整列表，所以這些命令是否覆蓋家庭機器人所需理解的絕大部分語言廣度和復雜性，還不好下定論。

谷歌研究人員還開源了一個機器人模擬設置，希望提供寶貴資源用於將機器人學習與高級語言模型相結合的未來研究。

GitHub鏈接：http://say-can.github.io/

未來，他們希望更好地瞭解利用機器人的真實世界經驗獲得的信息來改進語言模型，以及自然語言在多大程度上是編程機器人的正確本體。

05.科技巨頭對機器人研發興趣濃厚

谷歌母公司Alphabet對研發機器人佈局已久。

2013年，谷歌一連收購了幾家知名機器人公司，包括機器人領域“最出圈”的波士頓動力。不過後來波士頓動力幾經轉手，先是被谷歌賣給日本電信和科技投資巨頭軟銀，後來又被軟銀賣給了韓國汽車巨頭現代。

此前Everyday Robotics打造的機器人已經在谷歌內部執行一些簡單任務，比如送零食、倒垃圾、擦拭櫃台。

▲機器人跟谷歌員工打乒乓球

Everyday Robotics項目仍處於起步階段，機器人行動比較緩慢，做事也沒那麼果斷靈巧。不過隨著這些機器人借助谷歌大型語言模型提高理解能力，它們將進一步提高執行力。

除了谷歌外，多家大型科技公司都對機器人技術展現出濃厚的興趣。

一個典型的代表是美國電商巨頭亞馬遜，它在倉庫中使用了許多機器人，並且正在試驗無人機送貨。這個月初，亞馬遜還宣佈計劃以17億美元收購掃地機器人鼻祖iRobot，此次收購也將成為亞馬遜史上第四大巨額收購交易。

就在上週，國內智能手機製造商小米公佈了其研發的人形機器人“鐵大”，去年它還推出了一款機器狗“鐵蛋”。

▲小米人形機器人“鐵大”

除此之外，美國電動車龍頭特斯拉也在研發通用機器人，並將在9月30日發布其首款人形機器人“擎天柱”原型機。

據特斯拉創始人兼CEO馬斯克透露，“擎天柱”將是一款非常友好的機器人，能替代人類執行一些從事危險、重復、無聊的任務，包括拿扳手給特斯拉電動車裝螺絲，或者幫人類買菜、做飯、照顧老人，而且未來其成本比汽車還要便宜。

▲特斯拉“擎天柱”的部分參數

06.結語：距離高智能機器人，還有很長的路要走

多年來，用AI技術訓練機器人屢有突破，但大的進展仍然緩慢。而引入語言模型的方法，或許可以幫助機器人進一步提高解決復雜問題的能力，從而替代人類從事更多重復性勞動。

谷歌的這一探索，展示了機器人技術與大型語言模型進步結合的更多可能性。

目前真正大范圍滲透進人們日常生活空間的家庭機器人，僅有清潔機器人這個品類，但在AI、激光雷達等技術的輔助下，隨著機器人提高視覺、導航等技能，更多新型機器人將進入家庭場景。

當然，迄今的機器人研發，距離我們想像的十項全能“機器人管家”，還有很長的路要走。

語言模型固然可以為機器人提供更好的步驟規劃評估和選擇，但它們還做不到事無巨細地提供所有信息，比如不能告訴機器人打開冰箱時應施加多大的力。谷歌研究人員也暫時沒有將PaLM-SayCan商業化的計劃。

圍繞機器人創新技術及商業化落地成果，智東西將在明日舉行的2022世界機器人博覽會現場發來更多一線觀察報道，歡迎關注。

本文來自微信公眾號 “智東西”（ID：zhidxcom），作者：ZeR0，36氪經授權發布。

本文經授權發布，不代表36氪立場。

如若轉載請註明出處。來源出處：36氪

新聞專題
家事科學大揭密做家務不再是負擔

EBC東森新聞·8 小時前
大S疑出軌？具俊曄電梯照藏貓膩葛斯齊：跟我想的一樣
大S疑出軌？具俊曄電梯照藏貓膩葛斯齊：跟我想的一樣
Reactions55
三立新聞網 setn.com·10 小時前
史上最慘！台股收盤暴跌「兇手不是台積電？」股民揭原因急喊：恐怖了
財經中心／蔣季容報導台積電昨（18）日法說會不如預期，台股今（19）日慘遭血洗，盤中一度跌至19291.88點，收盤以大跌774點作收，創下收盤最大跌停。股民在PT
Reactions84
中天新聞網·2 天前
苗博雅慘被打臉！于美人證實送二手衣給徐巧芯：不是LV的
徐巧芯遭質疑身上穿著價值超過10萬元的LV名牌服飾，今（18日）受訪時氣得當場脫下外套讓大家檢查，徐巧芯表示那些衣服是于美人送她的二手衣，而于美人也傳簡訊證實這件事，並表示送她的衣服不是LV的。
Reactions799
今日新聞NOWnews·1 天前
徐巧芯「收二手衣」恐違法？律師：多說多錯
[NOWnews今日新聞]國民黨立委徐巧芯大姑夫婦涉詐騙洗錢遭羈押，讓徐巧芯近期成為輿論焦點，近日被連環爆料身穿許多精品名牌行頭，氣得徐巧芯在媒體前當眾脫衣。律師林智群指出，徐巧芯回應穿搭風波時，恐怕...
Reactions733
今日新聞NOWnews·6 小時前
月收少440萬！黃子佼工作室頂讓　車也賣了
[NOWnews今日新聞]名主持人黃子佼在去年6月因MeToo風波重創演藝事業，怎料傳聞在今年復出的他又再度爆出私藏上百部外流不雅片，且當中還藏有未成年相關，日前更增加一名受害者K小姐指控性騷擾行為，...
Reactions261
中天新聞網·1 天前
苗博雅臉丟大了！于美人親曝「送巧芯舊衣真相」開酸：政治人物要目光如炬
徐巧芯近來成民進黨攻擊焦點，昨更被爆料身穿許多精品名牌行頭，還包含一件超過10萬元LV名牌服飾，氣得徐巧芯當場脫衣澄清，而贈送衣服給徐巧芯的于美人證實是自己送的，希望政治人物目光如炬，不要只會在衣服上打轉。
Reactions1,124
鏡週刊Mirror Media·13 小時前
台中社區貼公告「勿往外丟擲螃蟹」　累犯4次住戶忍無可忍
住社區大樓竟然遇到「天降螃蟹」！台中海線某社區張貼管委會公告表示，有樓上住戶往外丟螃蟹，丟到鄰居的露台上，而且已累犯4次，讓遭殃的住戶忍無可忍，公告曝光到網上引起網友熱議。
Reactions28
中天新聞網·17 小時前
他見超商架上零食「被這樣神操作」　網友：店員剛退伍？
台灣的超商密度是全球最高，尤其在人口愈稠密的都市區，幾乎沒走幾步路，就可以同時看見好幾間超商，且店內貨架的空間擺設和燈光明亮度，城鄉幾乎無差異，近日就有一名網友到便利商店購物，卻被眼前一幕驚呆，網友笑喊，難道「店員剛退伍嗎」？
Reactions25
今日新聞NOWnews·13 小時前
立院表決大戰！吳秉叡投錯票反對民進黨提議
[NOWnews今日新聞]立法院院會今（19）日上演表決大戰，藍綠都甲級動員備戰，表決議案包括變更議程、復議案等，不過過程中都有幾次表決時，有部分藍綠立委未出席，如藍委謝衣鳳、綠委陳俊宇、林淑芬。林淑...
Reactions268
鏡週刊Mirror Media·10 小時前
歐陽妮妮「強國腔」護航娜娜　對岸網友也嫌棄：不會別硬學
演藝圈知名的歐陽一家把事業重心放在中國大陸，歐陽妮妮近來也獻殷勤，公開講話開始帶強國腔，結果慘遭吐槽之外，還因試圖字正腔圓導致舌頭打結，然後語氣不順，挨酸「學得不倫不類的，挺尷尬的」「聽了真的很躁！」
Reactions34
BBC NEWS 中文·16 小時前
北京半程馬拉松：撐何傑奪冠的姆南加特稱自己只是「兔子」，「去那裏不是為了參賽」
「我不知道為什麼他們把我的名字寫在胸前的號碼牌上，而不是把我標記為配速員。我的工作是設定節奏，幫助他獲勝……」
Reactions116
民視·14 小時前
與趙露思合照被抓包P圖！一對比「4人全換頭」超扯原圖網嚇爛
娛樂中心／許嘉惠報導25歲中國女星趙露思擁有甜美的臉蛋、清新的氣質，過去主演《傳聞中的陳芊芊》「陳芊芊」一角而暴紅，之後演出多部愛情劇，演技十分精湛，常常成為話題的焦點。近日她出席精品品牌Versace的活動，以一襲黑色亮片禮服亮相，一名網紅也透過社群平台曬出與趙露思的合照，怎料修圖過猛引發熱議，有網友曬出原圖對比，沒想到照片中的4個人全都改頭換面，讓大批網友都看傻眼。
Reactions11
三立新聞網 setn.com·1 天前
Keanna駁記錯人！謝和弦「有人真的超噁爛」：跪著求我尿在她身上
娛樂中心／蕭宥宸報導藝人Keanna上週爆料指前夫謝和弦與歌手陳芳語在錄音室呼麻偷情，陳芳語隨即透過粉絲群組闢謠稱「她在說謊」。謝和弦今（18）日指Keanna「記
Reactions47
中廣新聞網·12 小時前
下週水情有機會解渴？　專家曝「半個台灣紫爆」
昨（18）日清晨北部一場急暴雨，讓水情告急的石門水庫水位回升10公分，不過因為降雨多在下游平地，水庫還是「入不敷出」。氣象粉專「台灣颱風論壇｜天氣特急」臉書」貼出未來10天總降雨分布圖，只見台灣西半部
Reactions47
太報·1 天前
女神菜單曝光！「小籠包」原來是這家孫藝珍讚嘆這道菜「超好吃」
韓國演藝圈女神孫藝珍，日前因代言活動造訪台灣，讓不少粉絲親睹女神魅力。孫藝珍也透露，此行美食將以「小籠包」為心中首選。女神究竟選擇哪一家店家品嘗小籠包？今天（4／18）女神菜單曝光，是位於台北101內的「捌伍添第」，業者也透露，孫藝珍當天享用都是經典招牌菜。
Reactions4
中時新聞網·19 小時前
綠委恐剉咧等？郭正亮一看「郭智輝入閣」：台灣問題嚴重
崇越科技董事長郭智輝將出任新任經濟部長，崇越為台積電供應鏈，主要業務涵蓋半導體設備、材料，近年則橫跨生技、光電、綠能、環保、健康及運動等領域相當多元，郭智輝也有「斜槓經濟人」稱號。對此，前立委郭正亮18日就表示，「賴清德用郭智輝來處理核三問題，賴清德知道台灣問題很嚴重，需要找有能力的人來處理」，引發討論。
Reactions177
三立新聞網 setn.com·3 小時前
準氣象／全台準備接雨！下周鋒面報到　這2天雨最猛烈
生活中心／蔣季容報導把握周末好天氣！三立主播黃家緯透露，明（20）日及周日可以享受2天高溫好天氣，周一（22日）開始鋒面產生，周二開始一整天都會有明顯雨勢。
Reactions4
民視·1 天前
廣末涼子「透明衣100%無遮」甩不淪包袱！真面目翻車慘變大媽
娛樂中心／巫旻璇報導日本女星廣末涼子2023年6月被日媒爆料與米其林一星餐廳廚師鳥羽周作「雙重不倫」醜聞，2人在深夜於飯店約會的畫面更被捕捉流出，最後廣末涼子手寫道歉信，並承認出軌，最後宣布與丈夫離婚。停工11個月後，她自立門戶成立「株式會社R‧H」，近日她更新近況，整個人消瘦不少，讓粉絲相當心疼。
Reactions44
三立新聞網 setn.com·1 天前
超傻眼！徐巧芯稱「借100萬像借衛生紙」　苗博雅當機5秒後回：很難想像
記者詹宜庭／台北報導國民黨立委徐巧芯的大姑夫婦涉及洗錢詐騙案，網紅四叉貓質疑，徐巧芯的財產申報資料上為何沒有100萬元的「債權」資料？徐巧芯則回應，「代墊100萬」
Reactions199
TSNA·3 小時前
中職》艾士特7局無失分挺兄弟　王柏融開轟但台鋼7連敗
左投艾士特（Eric Stout）先發7局無失分，中信兄弟4局上攻取3分，王柏融8局下面對呂彥青擊出反向2分全壘打，中信兄弟19日晚間在澄清湖球場3比2險勝台鋼雄鷹，台鋼升上一軍首年苦吞7連敗。
Reactions10