當Siri聽得懂台式英語

李學文
·4 分鐘 (閱讀時間)

上周搭電梯時,撞見兩位外籍路人聊天,表情極其生動又手舞足蹈,側耳一聽,這語言感覺熟悉又帶點陌生,一問朋友,朋友說那應該是菲律賓人在說英文。確實,同一個語言因為不同國家、民族發音習慣的不同,聽者也會感受到許多差異,這讓人不禁好奇,近幾年很紅的語音辨識人工智慧不知道碰到口音很重的外國人,會不會也辨識到自己生悶氣呀?

語音辨識的歷史,最早可以追溯到1920年代的玩具狗Radio Rex,只要喊它的名字,它就會從小房子裡彈出來,隨後能夠互動的語音聲控洋娃娃等等聲控副產品逐漸問世,並到21世紀大放異彩。智能語音助理Amazon的Alexa、apple的Siri和Google的Assistant是人機互動的相關品牌。只是,口音似乎給語音辨識系統的成長帶來很大的挑戰。以英文辨識來說,對母語非英文的外國人而言,講英文會受到母語發音習慣影響,從而產生中文腔、歐洲腔、印度腔。這種不同口音所帶來的異國魅力,對於人們來說,可能十分有趣,但是對於機器而言,可能就不是那麼一回事了。

據了解,由於目前規模較大的語音助理開發商大多集中在美國矽谷,因此也讓口音的語音辨識蒙上一層因國籍不同而產生的社會地位偏見陰影。Kaggle 數據科學家 Rachael Tatman在接受《華爾街日報》採訪時就曾說:「這些系統最適合白人,尤其是來自西岸受過高等教育的中產階級美國人,因為打從一開始他們就是使用該技術的群體。」

口音辨識訓練跟一般人工智能訓練模型一樣,都需要很大的資料庫反覆訓練,才能達到高辨識率。因此,若使用者不到一定數量,針對特定口音辨識的開發訓練就難符合商業成本,但只為使用頻率最高的口音群體開發,滿足了商業利益,卻又蒙上歧視的陰影,也是難取捨。

為了服務自己國家,今年8月英國BBC和微軟合作,開發了一套聽得懂英式口音的語音助理Beeb,不只辨識能力佳,還會說英式笑話。英國雖然領土範圍不算大,但不同口音的人口密度相當高,只是,這個被刻意打造出迎合英式生態系的語音辨識系統Beeb,並無意走進全球市場,只為了服務自己的用戶。

受新冠疫情影響,醫療型的語音辨識也是大放異彩。在台灣,最新的醫護版Siri在今年8月由緯創醫學開發落地,醫院語音辨識最困難的是醫護人員溝通時常常夾雜中英文,這款醫護語音辨識系統能同時辨識中文與英文,打破一般系統一次只能辨識一種語言的限制,最特別的是這套醫護版Siri還能聽得懂台式英文。只不過,這些都是非商業用途的特定目的產品,現階段無法讓普世都受用。

簡言之,語音辨識的發展若沒有因地制宜提高辨識率,按照地域特色打造多重標準,似乎難以滿足地球村的所有居民們,但若一村一族都不放過的去收集資料,又和市場效益相悖,這的確是個兩難問題。

此外,任何科技產品開發若完全以技術本位思考,很容易陷入一個迷思,就是好還要更好,永遠地追求精益求精,改善缺陷,而忽略評估市場接受度、落地可能性。一個很棒的產品,方便、美觀又易上手,但售價高昂,不是人人負擔得起,市場就小,開發成本難以回收,也難以成為大眾都接受的成功商品,就如同日本東陶公司設計的未來馬桶,無論功能如何迷人,一個要價新台幣33萬元,讓潛在的消費者望之卻步。

我個人認為,語音辨識說到底就是一個技術而已,除了上述受眾多寡與種族歧視等問題,能否與下游的應用有更多的連動,人機溝通的介面是否夠人性化,使其完全融入個人的實體生活中,也是一個挑戰。舉例來說,現有的手機語音辨識讓我們呼叫一聲就能打電話、切換歌曲、上網瀏覽各式資料,不擅長用手機的長輩除了手寫,語音辨識打字也是聊天的小幫手;導航系統的語音助理能減緩開車時更改目的地不易的缺點,也提高行車安全性等等,這些聽起來都十分實用,只是,這些應用的使用頻率夠高嗎?使用過程中出錯率小嗎?這些問題都會決定語音辨識技術是否真正能落實到我們的生活中。 (作者為科技媒體專欄作家)