谷歌最新黑科技LaMDA,能讓你的語音助手不再智障嗎?

·9 分鐘 (閱讀時間)

編者按:本文來自微信公眾號“騰訊研究院”(ID:cyberlawrc),作者:王煥超,36氪經授權發布。

到了今天,已經很少有人會把“智能語音助手”當回事,更多人把它看作是“智障”的同義詞。

自蘋果的Siri在2016年發布以來,相關技術一輪又一輪地革新,模仿者一個又一個地出現。但智能助手的智能化程度,並沒有我們想像中提升得那麼快。

不斷失望之後,我們的要求也越來越低,除了讓它幫忙訂一個明早8:00的鬧鐘或打開某個App,已經別無他望。

最近熱播的《愛,死亡和機器人》第2季,在第1集中也告訴了我們一個智障的語音助手會帶來多嚴重的後果:在清潔機器人“發瘋”並開始無差別攻擊之後,女主人打電話給智能客服,不但沒能解決任何問題,反而一直在添亂,最終靠人的力量才勉強逃出生天。啊,難道說,我們未來仍然要承受這麼智障的語音助手嗎?

好在事情出現了轉機。美國時間2021年5月18日,一年一度的谷歌I/O大會如期而至。在一眾產品和技術之間,LaMDA並不起眼,但它卻可能是智障語音助手的拯救者。

LaMDA究竟是什麼?

LaMDA的全稱是LanguageModel for Dialogue Applications,簡單而言,它是一種能力更強的語言模型,適用於對話應用程序。

與前輩BERT、GPT-3一樣,LaMDA也基於Transformer架構。後者是谷歌公司於2017年發布並開源的神經網絡架構。利用該架構生成的模型,可以被訓練閱讀一組單詞(比如一句話或一個段落),並且關注這些單詞之間的聯系,然後預測接下來會是什麼單詞。[1]與其他模型不同的是,LaMDA在對話方面接受了更多訓練。

在展開介紹之前,我們需要仔細想想,現有的語音助手為何如此“智障”?

智障的根本原因是技術能力不足,具體表現為“文不對題”——不能給我們想要的答案,這一點相對還好解決,只要加大訓練量就能逐漸優化。但另一個更難以解決的問題是,語音智能助手只會孤立地理解我們提出的問題,並且孤立地給出答案。換句話說,你不能指望它聯繫上下文語境,跟我們進行長時間的“連續對話”。

要知道,我們在現實中的對話場景是完全開放性的,經常是從一個主題出發,延伸到另一個主題,最後在完全不相關的主題結束。比如,我們見到一個朋友,常常以“你吃飯了沒?”打頭,聊到前幾天推出的一款新游戲,最後打算週末約一場電影。

現實對話的開放性特徵,使之成為機器學習領域最難解決的問題之一。它涉及到一項很重要的能力,即自然語言理解(NLU),要求AI能夠進行語義語境情感的判斷,這是比自然語言處理(NLP)還要復雜的能力。

而現在大多數智能助手,往往按照狹窄的、預先定義好的對話路徑被設計,並不能進行開放對話、連續對話。這就是它們看起來還相當智障的原因。

而LaMDA就針對這一問題進行了技術突破。LaMDA基於谷歌2020年的一項研究[2],這項研究顯示,基於Transformer架構的語言模型在經過對話訓練後,能夠談論幾乎所有話題。

在訓練的過程中,LaMDA發現了開放式對話與其他形式語言的細微差別。它最為核心的,就是進行“開放域”(Open Domain)對話的能力。而這項能力的重要依託,就是相比於現有的對話模型,LaMDA更能理解對話的語境。它可以通過閱讀句子或段落來“破譯”對話意圖,發現單詞之間的關聯,並能預測接下來可能出現的單詞,從而做出合乎語境的回答。

在這樣的能力支撐下,LaMDA能夠和人在無窮無盡的話題轉換中聊下去,進行長時間的開放性對話。用谷歌官方的話來形容,就是“能夠用自由流動的方式,談論無窮無盡的主題”。

從“冥王星”到“紙飛機”

在本次谷歌I/O大會上,LaMDA充分展示了強悍的對話能力。[3]演示環節中,LaMDA扮演了冥王星的角色,與用戶進行對話。

在示例場景中,LaMDA能夠根據用戶的提問作出精準回答,而且還能夠將一個主題,引向另一個主題,不斷推進對話。這種主題的過渡並不突兀,顯得自然而合理。

當被問到:“你希望大家瞭解你的哪一面?”

它這樣回答:“我希望人們知道我不僅僅是一顆隨機的冰球(random ice ball),我實際上是一個美麗的星球。”

對於“冥王星之前是否有過到訪者”的問題,LaMDA也能給出准確的答案。它甚至還貼心地提醒用戶,如果要訪問冥王星,需要帶上大衣,因為它非常冷。

這種對話給人的感覺,就像是在和一個知識淵博的朋友聊天。雖然話題天花亂墜、不斷湧現,但LaMDA總能接住話茬,並且自然而然地展開對話。

在另一個演示中,LaMDA也展現了高超的對話能力。

在這個演示中,LaMDA扮演的角色是一架紙飛機。當用戶問,你曾經最糟糕的著陸地點是什麼?它回答說:“可能是一個小水窪(puddle)。”

當被用戶問到:“一架真正好的紙飛機的秘訣是什麼?”

它主動追問用戶:“‘好’是什麼意思?”,體現了足夠的靈活和機敏。

用戶回答:“我關心距離(distance)。”LaMDA進而圍繞“如何優化紙飛機的飛行距離”這一話題,分享了相關知識。

要知道,LaMDA的這些回復都不是預先設定的,而是自然生成的。這也就意味著,LaMDA不必再經過專門的訓練才能進行另一次對話,也不會作出重復的回答。這樣的能力確實令人驚奇。

這兩個示例中,僅憑寥寥幾語就能看出LaMDA使問題應答更有意義了,而這就是理解對話語境能力帶來的結果。在這樣的能力輔助下,LaMDA表現得相當理智和機敏。

谷歌公司也表示,理智和特異性並不是LaMDA所追求的唯一品質。他們還注重洞察力、幽默感等能力。與此同時,谷歌也非常關注事實性問題,也就是LaMDA的回答是否符合事實。[4]畢竟對於一個語音助手來說,有趣很重要,正確更重要。

LaMDA的前路仍然遙遠

無論是更先進的AI還是更智能的聊天機器人,谷歌在過去幾年一直在著力促進AI如何更好地與人類溝通。

皮查伊在演講中提到,語言的豐富性和靈活性正在使其成為人類最偉大的工具之一,同時,它也成為計算科學的最大挑戰之一。雖然現在LaMDA可以根據對話語境提供建議和答案,讓對話不違和地進行下去,但它仍在研發初期,想要達到AI助手的功能,還需要時間的磨合。

問題是,提升AI助手的對話能力,究竟有什麼意義?至少對於谷歌而言,這項能力作用重大,因為谷歌的很多重要產品都與信息檢索有關,它們都基於對計算語言的解讀,無論是翻譯能力,還是對用戶檢索信息的理解。如果谷歌能讓AI更好地理解語言,那麼它就能改進相關的核心產品,比如Google Search、Assistant和Workspace。“它甚至可以將搜索變成對話,更自然流暢。”皮查伊如是說。

當然也不單單是對谷歌一家公司,對話能力的進步突破,無疑會給所有涉及到人機對話的領域帶來全新想像力。

但語言的豐富性、靈活性以及隨之伴生的復雜性,無疑使這項工作成為極大的挑戰。可以說,面對這樣一個困難領域,LaMDA的能力還稱不上成熟。在現實運行中,它仍可能出錯,給出荒謬的回應。

比如,在扮演冥王星的演示案例中,它就說到自己跳得很高(jump really high),經常練習翻轉動作,並且很樂於用它最喜歡的球——月球來玩接球游戲。這些回答顯然是違背常識的。

除此之外,作為語言模型,LaMDA也無可避免地面臨一些AI的老問題。比如它可能會被濫用或者傳播偏見。算法偏見是個極為復雜的問題,既可能源於算法結構設計,也可能是訓練數據集的問題,它的本質是社會偏見在算法層面的延伸。

如谷歌所言,“語言可能是人類最偉大的工具之一,但像所有工具一樣,它可能會被濫用。接受語言訓練的模型可能傳播這種濫用行為——例如,通過內化偏見、反映仇恨言論或復制誤導性信息。即使它所訓練的語言經過仔細審查,模型本身仍然可能不被善用。”[5]

當然,LaMDA還會面臨許多意想不到的現實風險。比如被違法犯罪分子用於網絡欺詐,類似的新聞已經屢見不鮮。更仿真的對話能力,也就意味著更強大的欺詐能力。

即便在技術層面,LaMDA也有更大的優化空間。目前,LaMDA主要是圍繞文本對話進行構建的,在未來,LaMDA可能會兼容其他的媒介形態,包括圖像、音頻、視頻等等。這可以寄希望於同在本次大會發布的MUM(多任務統一模型),未來人機交互手段或許會因這兩項技術而出現革命性的變化。

LaMDA的具體作用如何,還待進一步觀察,畢竟Google之前有過黑歷史(2017年,Google發布了餐廳訂位服務AI Duplex,後來被發現背後有真人幫忙完成[6])。不過,人們和AI進行更自然、開放的對話,相信已經不再遙遠了。

參考資料:

1.https://www.blog.google/technology/ai/lamda

2.https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

3.https://www.youtube.com/watch?v=aUSSfo5nCdM

4.https://www.blog.google/technology/ai/lamda

5.https://www.blog.google/technology/ai/lamda

6. https://wallstreetcn.com/articles/3567850

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪