語音應用崛起 MEMS麥克風 需求夯

工商時報【文╱拓墣產業研究院研究員田智弘】 人工智慧崛起強化語音辨識能力,促使語音成為重要人機介面,應用層面從手機拓展到智慧音箱、電視與車用等終端產品,進而帶動市場對MEMS麥克風需求。但不同類型終端產品需要的麥克風陣列不盡相同,各廠商相繼推出麥克風陣列解決方案,也成為廠商競爭的一大利器。 語音控制一直被視為是最直觀的操控方式,早在2011年蘋果便推出手機語音助理Siri,但當時語音辨識不成熟,導致語音助理成為手機娛樂產品。隨著人工智慧興起,各廠商透過自然語言處理(Natural Language Processing)訓練電腦人類語言邏輯、提升語音辨識能力,加上亞馬遜、Google、阿里巴巴與小米等廠商透過低價智慧音箱打入市場,讓消費者快速瞭解語音的應用範疇,包含資訊詢問、家電控制與購物等,大幅擴增語音應用的可能性,促使語音成為新的人機介面。 隨著語音應用興起,各廠商希望將新人機介面放到自家終端產品,推升麥克風需求,其中又以半導體製程MEMS麥克風需求成長最高。MEMS麥克風具備較高的可靠性、穩定性與一致性,聲音採集品質佳,對語音辨識有很大幫助。 因為各類型產品的外型、應用環境與使用方式不同,所以使用的麥克風數量和陣列模型也有差異,從麥克風使用數量來看,手機MEMS麥克風需求為2∼4顆;智慧音箱需求範圍較廣,依照產品設計和價格定位,MEMS麥克風需求2∼8顆不等。 由於智慧音箱市場在2017年快速成長,推升整體MEMS麥克風產值達13.81億美元,2018年MEMS麥克風進一步拓展到電視和穿戴裝置,產值因此年增11%、達到15億美元。 汽車是語音應用的另一大市場,透過語音控制能讓駕駛人在不移轉視線的情況下直覺性操控、提升行車安全,因此車廠開始導入語音控制系統,其MEMS麥克風數量2∼6顆不等,甚至採用更多顆麥克風以抑制噪音,有望帶動另一波MEMS麥克風需求。 遠距語音辨識 多麥系統問世 MEMS麥克風陣列隨著語音控制需求增加而開始受到重視,語音控制存在的環境相當複雜,若使用時相隔距離較遠,收音上就會遇到回音干擾、室內混響與多訊號源干擾等問題,導致訊噪比(SNR)降低,影響語音辨識率。 過去智慧型手機大多採用單麥克風系統,能在低噪音、無混響與近距離下,獲得訊號品質較高的聲音,但當環境中有許多聲源和環境噪音,例如客廳、廚房與戶外等,就無法做到聲源分離,進而無法對聲源定位和辨識。為了遠距離語音辨識,多麥克風系統應運而生,透過幾何結構組合成線型、環型與球型等陣列,數量從2∼1,000顆不等,目的是為了採集不同空間方向的聲音訊號來做噪音抑制、混響去除與人聲干擾抑制後,方能做到聲源側向,再透過波束成形做聲音定位。 近年隨著語音辨識能力提高,加上廠商希望縮小產品設計並降低成本,因此開始減少MEMS麥克風使用量,一般消費性產品採用的MEMS麥克風陣列型態以線型和環型為主。但線性麥克風陣列仍舊有其限制,僅能做到180度聲源定位,無法針對全方位做空間指向性,像是亞馬遜第三代Echo Dot就採用4顆麥克風,雖較前一代減少3顆,但仍是採用環型陣列。 1.線型MEMS麥克風陣列:寬邊陣列 電視和NB等產品適合採用線性麥克風陣列中的寬邊陣列,寬邊陣列是指聲波方向和麥克風陣列垂直,透過聲波相加得出聲源方位,且抑制來自陣列側邊的聲音,使得前方和後方的響應一致,但該陣列具有軸對稱性,無法分辨出前方和後方聲源,因此適合聲音僅來自前方或後方的產品。透過增加橫向MEMS麥克風數量則能更有效抑制側邊聲音,藉此增加聲源定位距離,不過,MEMS麥克風之間若間距過窄,會降低低頻衰減、增加低頻噪音干擾,但過寬又會造成機構設計困難,降低混疊頻率,因此在產品設計上需特別衡量橫向麥克風數量與其距離的安排。 以電視為例,其擺放的空間大多在較空曠的客廳,且人往往距離電視較遠,因此電視需搭載遠場語音辨識讓用戶控制。要強化遠場語音辨識的能力和距離,需要將數個MEMS麥克風排列成寬邊陣列,除了可以抑制電視兩側揚聲器所製造的噪音外,也能增強聲源定位距離,但遠距離容易造成聲音在室內不斷反射,導致麥克風不斷收到重覆訊號,造成辨識困難。 2.線型MEMS麥克風陣列:端射陣列 針對單方向做聲音偵測的產品,例如手機、耳機、助聽器、智慧手環與智慧手錶等產品,就適合採用線性麥克風陣列中的端射陣列。端射陣列是指聲波方向與麥克風陣列平行,當前方比後方先接收到聲波時,就能透過麥克風拾取聲波的時間差得知聲波來源,透過訊號處理抑制其他方向的聲音干擾,形成空間指向性。 以穿戴裝置為例,由於產品體積較小,難以透過多個麥克風做橫向排列抑制周遭噪音,加上消費者使用穿戴裝置做語音控制時,往往會靠近嘴巴,代表定向聲源只有一個方向,而需抑制的噪音源同樣是來自嘴巴,並非聲源的反方向,因此透過端射陣列設計,能專注收取單一方向的聲音。 3.環型MEMS麥克風陣列 環型MEMS麥克陣列是端射陣列的延伸應用,適用於需要針對全方位做聲源定位和辨識的產品,在設計上各MEMS麥克風需要等距且均勻分布在圓周上,且排列形成多個端射陣列,以利針對不同角度的聲源做降噪、側向與定位。目前運用最廣的語音辨識產品智慧音箱,即是使用環型MEMS麥克風陣列。 由於智慧音箱在使用上不具備方向性,多擺設在客廳、廚房與臥房,會因為環境多樣性而使得噪聲干擾方式不同,例如在客廳會受到多訊號源干擾,在廚房則會受到諸多環境音干擾,在臥房則可能透過智慧音箱播放音樂,導致噪音出現,加上用戶聲音可能來自四面八方,因此需透過環型陣列做波束成形的指向性收音和降噪,提高語音辨識率。 市場百家爭鳴 慎防邊緣化危機 隨著語音應用興起,MEMS麥克風陣列成為語音控制系統中第一道關卡,若MEMS麥克風陣列收音狀況不佳,將嚴重影響辨識率,MEMS麥克風陣列解決方案成為各廠商重點角逐的市場。當前全球最大的MEMS麥克風廠商為樓氏電子Knowles,市占率超過3成,同時也掌握MEMS晶粒設計、MEMS麥克風封測與MEMS麥克風陣列模組,備受亞馬遜青睞。 不過,並非所有廠商都有一條龍的生產模式,多數廠商涵蓋設計到封測,或封測到系統整合廠部分,最後再由系統整合廠將MEMS麥克風模組或陣列出貨給品牌廠商。像是意法半導體STM只提供MEMS晶粒設計到MEMS麥克風封測,原因在於MEMS麥克風供應鏈呈現金字塔狀,若意法跨足MEMS麥克風陣列模組,將會與原先的合作廠商競爭;此外,如亞馬遜這類提供語音辨識授權的業者,也開始進入MEMS麥克風陣列模組市場,將使該市場競爭更加激烈。 歌爾和瑞聲不具備MEMS晶粒設計能力,僅提供封測到系統整合,為各類型產品提供不同解決方案,包含手機、穿戴裝置與智慧音箱等,但隨著語音廠商開始切入MEMS麥克風陣列模組市場,該市場競爭更加激烈,因此模組廠商開始向上游發展,像是瑞聲開始自行開發ASIC,不僅能藉此優化自身MEMS麥克風模組,同時也能增加產品毛利。 歌爾則透過封裝方式將多個感測器整合,使得單一元件擁有多種功能,減少基板使用面積而具有成本優勢。此外,部分聲學廠商同時提供代工服務,例如歌爾、共達電聲、奮達科技與美律等,皆提供智慧音箱和耳機的代工,優勢在於聲學相關產品的機構設計是聲學廠商強項,且能直接提供聲學模組給品牌廠商。 近期語音廠商開始朝麥克風陣列模組發展,原因在於語音廠商希望達到最佳語音辨識率,若採取非官方認證的麥克風陣列,語音辨識可能會出現誤差,導致消費者體驗不佳。因此,為了讓實際收音和訓練樣本一致,語音辨識業者開始推出麥克風陣列解決方案,像是亞馬遜、科大訊飛與阿里巴巴等,都提供相關解決方案,此外,語音辨識業者可以透過麥克風陣列模組進行語音資料蒐集,以優化自家語音辨識,同時也能擴大自家生態圈,從而拓展到更多產品,可謂一舉數得。 然而,語音辨識業者跨入,導致下游MEMS麥克風陣列模組市場開始出現變化,語音辨識業者透過軟硬整合方式吸引廠商採用,廠商則能直接進入語音辨識業者的生態圈中,這對硬體開發商而言,是有相當強的吸引力。 面對語音辨識業者的擠壓,原先的麥克風陣列模組廠商開始朝上游或代工發展,藉此強化自身產品競爭力,否則只能轉向中低階市場,最終面臨被市場邊緣化的風險。