Yahoo Tech 隨筆| 極度擬真的人形 AI 形象,是恐怖谷?還是社會危機的解答?
港產 AI 初創專注更自然的嘴唇動作,就讓對話機器人更擬真。
生成式 AI 對話機器人是近年的大熱話題,簡單的在對話框裡輸入幾個字,就能得出豐富、有趣、看似專業的回答,甚至直接挪用到課業、工作上也不讓人生疑。香港科學園的 Pantheon Lab 再想多一步,如果有極度擬真的真人形象配合生成式回答,這會否是接待業界的未來?
這家本地 AI 初創公司專注更自然的嘴唇動作,讓對話機器人更擬真,最近更聯手港鐵在鰂魚涌站開始測試「虛擬服務大使 Tracy」,提供全年無休的智能客服體驗。然而這種人機交互,會是恐怖谷一樣讓人感到怪怪的?還是社會危機的解答?Yahoo Tech 編輯與 Pantheon Lab 的創辦人兼 CEO Ivan 談了一下,看看這種技術的發展如何。
港鐵「虛擬服務大使 — Tracy」
現在大家前往鰂魚涌 A 出口的出入口閘機附近,付費區和非付費區兩邊各有一部巨型螢幕,裡面就有著一位港鐵「虛擬服務大使 Tracy」來為大家提供各種資訊。只要有人走近這螢幕,上方的相機就會感應到,Tracy 隨即就會向你問好,就有如真人客服一樣的互動。
除了螢幕上有預設的四個 FAQ 按鍵:洗手間位置、增值八達通卡、自動櫃員機位置和手機充電設施位置,使用者可以對著螢幕右側的麥克風直接說出你想查詢的內容,像是如何前往某地鐵站、查詢車費、服務時間等不同的車務資料。更妙的是連車站附近的資訊也能有限度提供,像是便利店、餐廳等。
港鐵認為,鰂魚涌站穩定地服務著居民、上班族、旅客三種不同需求的客群,能夠給他們的「實習生」有面對不同種類查詢的機會。而這這種能解析人類隨機說話的內容並提取重點來回答的能力,正是大型語言模型 LLM 的功勞。
更自然的嘴唇動作,是擬真的關鍵
如果你端視這位身處螢幕內側的 Tracy,會發現她的嘴唇會像真人一樣隨著語音回答而變化,非常擬真,這就是 Pantheon Lab 的最大賣點。
Pantheon Lab 的 AIDOL 技術以生成式嘴唇「聲畫同步」為核心,配合預錄真人影像或 AICG 形象,在視覺上可以提供到有如真人接待員一樣的交談互動體驗。簡單以電影配音為例子,配音員都需要研究演員的嘴部動作來計算字數、使用者字詞,為求能做到「聲畫同步」的效果,不然就會容易叫觀眾出戲。
另一例子是曾經紅極一時的 YouTube 角色「Annoying Orange」,把人的眼睛和嘴巴的影像與一顆橙做結合,這樣的「擬人化」也是讓觀眾覺得那顆橙「活過來」的因素之一。可見人類在交流、在辨識交流對象的時候,「嘴唇」的象徵意義是相當大的。
回到鰂魚涌站裡的「Tracy」,正是有著會適當活動的真人形象,配合有聲畫同步的嘴唇動作,希望讓港鐵乘客和遊人可以獲得有如跟真人對話般的感覺。據港鐵方面接一個月以來的意見回饋,學生、長者等不同年齡層的乘客都有對 Tracy 的存在感興趣,並會主動試用,當中最主要的用途是在查找路線。
《恐怖谷理論》的說法是,當隨著機器人到達「接近人類」的相似度時,人類好感度突然下降至反感的範圍。目前不管是小編,還是試用的遊人們,似乎都沒有對 Tracy 的形象感到反感,可能是新冠疫情期間的視訊會議、視訊授課經驗,都讓大家習慣了螢幕後有人跟你說話?還是今天的 TikTok、IG 都充斥用爆濾鏡的「照騙」,所以一丁點不自然的臉孔也能被接受?無論如何,這似乎是「數位人類」可以落地發展的一個勢頭。
社會危機的解答?
人口老化、青黃不接的人口斷層都是今天先進社會亟待解决的問題,不光是日本,香港也正面臨這種危機。除了引進海外年輕的(肝臟)勞動力,近年急速發展的的 AI 技術也似乎可以幫一把。Ivan 認為他們的 AIDOL 是屬於「數位人類」(digital human)的一種,可以填補著人類社會勞動力不足的一些部分,特別是服務業這塊。
打比說方今天很多的餐廳都改用 QR 二維碼下單,讓食客自己行掃碼、手機下單和結帳,傳統樓面(服務員)的角色似乎都能被取代,甚至讓人懷疑為什麼餐廳還要「加一服務費」。這不光是餐廳老闆希望控制成本、系統化運作,還有招聘困難的挑戰,餐廳樓面工作繁重,但薪金水平不一定吸引到人手應徵,自動化下單流程就成為最直接的解決方案。
試想像一下,這種冷冰冰的點菜流程能夠多「添加一點人性」,由一個懂得理解人類說話、有人類形象的「虛擬小二」,讓食客可以「面對面地」簡單說出「過橋米線、茄湯唔辣、少米、走韭菜、唔飲嘢」或是「魚柳包走醬、薯條走鹽,要新出嘅雪糕」,而不是透過 app 的層層介面選擇,這會否是提升你的點餐感受呢?
再進一步的說,「虛擬小二」可以對應不同語言,外地遊客進店後也可以直接用外語下單,不需要特意聘請精通八國語言的服務員。甚至是日後的無人便利店裡,也可以在收銀機的螢幕上應用 AIDOL,讓虛擬店員幫忙處理各項購物疑難、儲分等等的服務,都是零售業界能增加自我品牌價值的其中一個可能性。
是說,Pantheon Lab 曾經在香港的 IAB C23 活動上以 AIDOL 技術打造名為「ISA」的虛擬角色,向香港廣告業界公開展示這種擬真 AI 形象的應用,所以除了港鐵之外,日後可能還有更多的 Tracy / ISA 出現在我們的日常生活中。
機器如何理解人類說話?
雖說人類形象的「虛擬店員」能帶來親切感,但也需要準確分析和理解客人的要求,同時要生成適合的回應,這就涉及到近期大熱的大型語言模型。簡單來說這就是一套可以讓機器能讀懂人類自然說話內容的轉譯器,而其體積和運算力都有著一定需求,同時 LLM 能夠包含的知識庫也要專門化,像是港鐵的版本就需要有更完整的鐵路車務資訊。
Ivan 表示,他們的 AIDOL 可以做到本機 + 雲端的混合式 LLM,本機運算依賴度愈高、回應速度更快,只是需要的電腦也要更強,直接拉高每台末端裝置的成本。走雲端方案是便宜、可以抓取互聯網上的最新資訊,但數據來回傳輸需時,也有外洩風險。 因此客戶都需要按業務需要、實際用途、成本考量,平衡各方才能選擇最適合的 AI 裝置,不過這些都會隨著科技進步而有改變,就像今天的手機也能內建具 LLM 的 AI 助手。
總結
無論科技的發展是多便利、多強大,最終的末端消費者、用戶端都會是有血有肉的顧客,所以服務業、零售業這些會面向人類的產業,更需要多應用涉及情緒的小技巧來提升用戶體驗,就像今天看到很多網店客服的預設回覆(特別是淘寶),都帶有佻皮活潑的用字語氣,背後同樣是希望讓消費者以為自己在跟真人溝通。
因此即使 AI 對話機器人具備足夠的能力來輔助服務業的待客部分,人機交流的介面會以何種方式呈現就變得更重要 – 單純的語音指令?文字輸入?還是像 AIDOL 一樣有著「虛擬店員」形象?還看商家的實力和取向。回歸港鐵的「虛擬服務大使 Tracy」為例子,正是企業希望用「以客為本」的方面來保持「猶如與真人互動」的一個選擇。
更多內容:
緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!
🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk
🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/
🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8
🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D
◤AI手機重磅上市◢
三星Galaxy S24旗艦新機開賣 送45W旅充組+保護殼
ROG Phone 8早鳥好康 2/15前下單登錄送配件組
ROG Phone 6/6D系列最高折萬 挑戰低價