Meta AI 語音工程師陳鵬仁談閩南語轉英文秘辛：多數語料庫來自「台灣電視劇」

壹哥的科技生活

更新時間： 2022年10月26日下午7:20

上週 Meta CEO Mark Zuckerberg 以台語即時翻譯的形式，跟來自台灣的 Meta 工程師陳鵬仁對話，引發各界關注，光是在 Facebook 的影片觀看次數就來到 185萬。而這樣的一套AI語音翻譯系統，壹哥本身也有嘗試過，在實際測試過後發現一些疑問，剛好有這機會跟這來自台灣的台灣之光 Meta AI 語音翻譯系統工程師陳鵬仁對話，跟大家分享這套神奇系統背後的台灣精神與開發祕辛。

相信大家可能很快就可以在影片當中發現，Meta 工程師陳鵬仁的閩南語腔是南部口音。陳鵬仁說：「是的沒錯！爸爸是屏東人，從小爸媽都用台語（以下統稱閩南語）跟我對話，我在耳濡目染之下就學會閩南語。」後續訪談中也了解到這套系統目前已經可以辨識北部跟南部的腔調。

Meta 工程師陳鵬仁在台灣長大，是道地的台灣人，台大資工所畢業之後就進入當時還是 Facebook 的紐約辦公室，至今工作大約 10年。這 10 年之間，陳鵬仁參與的都是跟機器學習相關的工作，像是一開始前六年開發的產品，就是大家熟悉的「打卡」功能，好比說像是打卡之後提供地點推薦，這些需要使用到機器學習的功能他都有參與。陳鵬仁大約在四年前加入 Meta AI，主要做文字上的翻譯，大約一年多以前加入「語音的翻譯」也就是現在的專案。

「看到台灣反應這麼熱烈，我很感謝，也很認真看大家的回饋是什麼...我的伯父甚至很認真的希望能有一套這樣的產品...」

由 Meta CEO Mark Zuckerberg 分享的這一段翻譯影片至今僅僅一個禮拜，就已經有超過 185 萬次觀看、3萬多則留言，台灣媒體也以鋪天蓋地的形式介紹陳鵬仁。

在訪談過程中，他把這一切成果歸功於跟團隊合作，而他對於能夠參與閩南語系統專案，覺得很開心自己能夠在工作上從事到一個自己聽得懂的翻譯系統，對於閩南語的認識也更加深入，像是本來不太清楚所謂的「閩南語七聲八調」，參與過程中發現了解更多自己熟悉的語言覺得很興奮。

團隊大多數都會講閩南語所以才以閩南語對開始

陳鵬仁表示，全球有大概 7,000 多種語言，其中有一半都是像閩南語一樣沒有辦法用文字來呈現，這也是 Meta 想要研究的方向。這次的發表是採用一套所謂的 Universal Speech Translator（UST）通用語音翻譯工具當作背後支撐，開發團隊大約 50人，說話的人可以做語音輸入，然後做語音輸出。

團隊裡面有語言學家、社會學家、工程師等等，最後決定閩南語作為第一個研究的對象，主要的原因是團隊很多人會講、聽得懂閩南語，這樣對於開發上來說像是再驗證、研究等等會有很大的幫助。

陳鵬仁透露，這套閩南語對英文的翻譯系統最早是 3~4 年前由陳鵬仁的大主管投入，剛開始想要做的方向是「語音到文字」之間的翻譯，大約兩年多前，團隊發現「語音對語音」更值得開發，因為「語音對語音」對人來說是更直接即時的翻譯系統，而不管是過去還是現在，跨語言通常都是人與人溝通之間的隔閡，所以就朝這方向去研究，希望未來大家可以用自己的語言溝通。而陳鵬仁加入時間大約一年多，而最後決定要開發「閩南語到英文」，則是去年中開始。

閩南語翻譯英文的兩大痛點

簡而言之，開發團隊光是在這四年的開發期，至少換了三套的翻譯方案，相信對於團隊來說也是頗具挑戰。陳鵬仁表示，相比於傳統的語音翻譯，語音翻譯系統難度在於資料上的搜集，現在網路上有很多文字為主，要訓練這個翻譯系統，主要是不同語言，數位化的過程中很容易取得的語調，相較於文字很難取得「語音對語音」翻譯的資料...陳鵬仁將之稱為「語料庫」。

另外一方面，訓練系統也特別困難，語音其實包含更多語音的訊息，系統在學習如何更精準翻譯語音，相對於文字來說反而需要更多資料，這兩點是比較困難的地方。舉例來說，像是相關的語料庫數量、閩南語的口音還有相關的文字等等，這部分在開發過程中都比想像中難很多，因此，團隊花了很多力氣在建立語料庫上面。

建立語料庫之後，接著開始打造訓練系統，因為同一時間團隊有在研究什麼樣的系統可以更容易達到語音到語音翻譯，所以過去兩年中做了很多研究。大約花了3~4個月完成第一個模型，根據模型相關的開發結果再做後續的調整，這方面大概1~2個月左右。

3萬小時的「語料庫」多數來自台灣的連續劇

陳鵬仁表示，開發過程中有接受來自各界相關團體的建議，團隊也有找到一個台語老師，更精準翻譯語言建議。他更透露團隊開發過程中發現閩南語有多變的口音跟腔調，因此在建設語料庫的過程中，主要是根據語料庫的口音來建設，整體資料量涵蓋約3萬小時，有很大宗都是來自於台灣的連續劇，因為連續劇有各種不同的口音、語氣跟腔調，如此一來，一些比較口語的說法跟腔調，才會很容易被翻譯出來。

除此之外，在語音辨識、語音合成方面特別採用了陽明交大廖元甫教授的模型來建制，而一些語言收集則是尋求台大的李宏毅教授等相關單位的協助。

閩南語翻譯之後，Meta的下一步？

對於Meta AI語音開發團隊而言，翻譯系統絕對是接下來研究的重點之一。談到下一步規劃，陳鵬仁表示，目前這套系統還在開發中，還沒有推廣到Meta旗下相關產品的規劃。而正如同先前 Meta 對外所說，語音到語音翻譯系統好處是不用經過文字，未來UST有可能延伸到其他語言，團隊的目標是拓展更多的語言讓人們可以聽更多、說更多。

陳鵬仁表示，目前這個系統必須要等一句話講完之後，才能翻譯另外一句，像是這段跟Mark Zuckerberg的對話，也是他先錄製一段進行翻譯、Mark Zuckerberg再錄製一段進行翻譯。因此現階段團隊最重要的工作就是讓翻譯延遲縮短，並且持續在「翻譯的正確性」跟「精準度再提升」這兩個方向開發，包括語速、腔調、語氣的轉換上，包括英文轉換成閩南語方面。這次的發表是用閩南語做一個例子，未來團隊發展目標，將會放在繼續研發讓翻譯更順暢、即時，期望大家在現實場景能夠沒有隔閡的交流，在元宇宙面對面交談。

後記：

陳鵬仁有兩個女兒，大女兒四歲半、小女兒一歲半，大女兒以華語為主，小女兒現在主要學閩南語，為了延續閩南語，他目前是透過一些音樂的刺激，像是閩南語的歌，像是兒歌或者流行音樂，也會用一些輔助教具，像是繪本搭配圖案跟女兒一起交流，而他自己本人也會持續加強閩南語，像是聽閩南語的音樂、流行樂、Podcast，並且持續用閩南話跟小孩對話，讓下一代能夠持續將閩南語文化延續下去。

Meta 工程師陳鵬仁的閩南語腔是南部口音。陳鵬仁說：「是的沒錯！爸爸是屏東人，從小爸媽都用台語跟我對話，我在耳濡目染之下就學會閩南語。」後續訪談中也了解到這套系統目前已經可以辨識北部跟南部的腔調。

Meta 工程師陳鵬仁在台灣長大是道地的台灣人，台大資工所畢業之後就進入當時還是 Facebook 的紐約辦公室，至今工作大約 10年，這 10 年之間，陳鵬仁參與的都是跟機器學習相關的工作，像是一開始前六年開發的產品，就是大家熟悉的「打卡」功能，好比說像是打卡之後提供地點推薦，這些需要使用到機器學習的功能他都有參與。陳鵬仁大約在四年前加入 Meta AI，主要做文字上的翻譯，大約一年多以前加入「語音的翻譯」也就是現在的專案。

「看到台灣反應這麼熱烈，我很感謝，也很認真看大家的回饋是什麼...我的伯父甚至很認真的希望能有一套這樣的產品...」

對於Mark Zuckerberg所分享的這一段翻譯影片至今已經有超過 185 萬次觀看、3萬多則留言，台灣媒體也以鋪天蓋地的形式介紹陳鵬仁。

在訪談過程中，他把這一切成果歸功於跟團隊合作的成果，而他自己覺得能夠參與閩南語系統專案，他覺得很開心自己能夠在工作上從事到一個自己聽得懂的翻譯系統，過程中非常興奮、嘗試認識非常多閩南語，像是本來不太清楚所謂的「閩南語七聲八調」，參與過程中發現了解更多自己熟悉的語言覺得很興奮。

團隊大多數都會講閩南語所以才以閩南語對開始

陳鵬仁表示，這次的發表是採用一套所謂的 Universal Speech Translator（UST）通用語音翻譯工具當作背後支撐，開發團隊大約 50人，說話的人可以做語音輸入，然後做語音輸出，而全球有大概 7,000 多種語言，其中有一半都是像閩南語一樣沒有辦法用文字來呈現，這也是 Meta 想要研究的方向。

閩南語翻譯英文的兩大困難

建立語料庫之後，接著開始打造訓練系統，因為同一時間團隊有在研究什麼樣的系統可以更容易達到語音到語音翻譯，所以過去兩年中做了很多研究成果，真正打造這套系統大約花了3~4個月完成第一個模型，根據模型相關的開發結果再做後續的調整，這方面大概1~2個月左右。

3萬小時的「語料庫」多數來自台灣的連續劇

陳鵬仁因為我們要做閩南語，也有接觸到一些使用者得到很多建議跟反饋。團隊也有找到一個台語老師，更精準翻譯語言建議。他更透露團隊開發過程中發現閩南語有多變的口音跟腔調，因此在建設語料庫的過程中，主要是根據語料庫的口音來建設，整體資料量涵蓋約3萬小時，這中間有多數是來自於台灣的連續劇；如此一來，一些比較口語的說法跟腔調，才會很容易被翻譯出來。

除此之外，UST 開發過程中也有透過跟台灣的學術單位合作才有辦法達成這樣的成果，像是在語音辨識、語音合成方面特別採用了陽明交大廖元甫教授的模型來建制，而一些語言收集則是尋求台大的李宏毅教授等相關單位的協助。

閩南語翻譯之後，Meta的下一步？

後記：

三立新聞網 setn.com
第60屆百想今揭曉！宋仲基、宋慧喬離婚5年首度同台　互動成焦點
娛樂中心／林汝珊報導南韓演藝圈年度盛事《第60屆百想藝術大賞》將在今（7）日下午4點舉行，其中本屆一大亮點無非就是宋慧喬、宋仲基將雙雙出席頒獎典禮，這也是兩人離婚將
TVBS新聞網
MLB／大谷翔平連3場炸裂助道奇5連勝　本季11轟獨佔全聯盟第一
美國職棒大聯盟（MLB）本季轉戰洛杉磯道奇隊（Los Angles Dodgers）的日籍球星大谷翔平手感火燙，7日面對邁阿密馬林魚隊（Miami Marlins）的比賽中再度開轟，這除了是大谷翔平連續第3場比賽擊出全壘打外，本季至今累積11支全壘打也讓大谷翔平獨居聯盟全壘打王，最終也幫助道奇隊以6比3獲勝、取得近期的5連勝。
Reactions34
三立新聞網 setn.com
獨家／小S宣布《不熙娣》搭檔換阿Ken！製作人全招了　真實內幕曝
記者蔡維歆／台北報導小S徐熙娣主持的《小姐不熙娣》節目近日在網路上曝光一段幕後花絮，小S突然問派翠克「你知不知道我們節目下一季（下周）開始，將換搭配的主持人？」並直言「你不是我的S
Reactions25
TVBS新聞網
成劉德華唯一絕交男藝人！　疑因「留宿朱麗倩」惹怒天王
62歲香港天王劉德華出道40年，影、視、歌三棲，演藝事業成績輝煌，親民作風也讓他圈粉無數，圈內人緣也極佳，不過踩到他的地雷時，還是有可能被他列為拒絕往來戶，過去他曾在《康熙來了》脫口，表示曾和一位男藝人絕交，網友們聽了立刻辦起案，推敲出疑似是過去常常幫他照顧老婆朱麗倩的潘宏彬。
Reactions13
三立新聞網 setn.com
「盧秀燕、韓國瑜」誰出戰2028大選？沈富雄大膽預言：1選擇一定輸
政治中心／許智超報導 2028年總統大選，國民黨將會派出的人選備受關注，而台中市長盧秀燕和立法院長韓國瑜都被認為是熱門人選。不過，前立委沈富雄昨（6）日就直言，「韓國
Reactions134
民視
安海瑟薇站路邊「硬塞童裝」！濃妝全卸「41歲落差臉蛋」認不出
娛樂中心／曾郁雅報導41歲美國女星安海瑟薇（Anne Hathaway）憑藉演出《穿著Prada的惡魔》、《麻雀變公主》系列、《斷背山》、《黑暗騎士：黎明昇起》等電影累積大量人氣，至今依舊是許多粉絲心中浪漫喜劇女王的她，近日將推出新戲《關於你的想法》，同時擔任製作人的她相當投入宣傳活動，不只瘋狂在社群分享新戲資訊，更不忘公開自己出席活動的工作花絮，近日她就曬出一張穿著超合身印花短T的「0濾鏡」自拍照，短短兩天之內就吸引超過160萬名粉絲到場瘋看女神近況。
Reactions32
三立新聞網 setn.com
快訊／溫朗東拋重量級震撼彈：原來，京華城案跟徐巧芯案，是同一個案子
記者李鴻典／台北報導國民黨立委徐巧芯近來話題不斷，政治評論員溫朗東5日指控，徐巧芯背後金主為建商「達永建設」，質疑她利用職權推動南松山逾百億都更計畫，讓達永建設都更案銷售更順利；徐
Reactions300
中時新聞網
31歲網紅「酒後吃止痛藥」猝逝新婚夫悲痛告別：最後一次吻妳
大陸跨國戀網紅「俄羅斯娜娜」驚傳猝逝消息，享年31歲。對此，她的老公王濤6日證實，娜娜在加護病房長達38天，最後仍搶救無效不幸辭世，死因為「酒後服藥」。
Reactions7
Yahoo奇摩房地產編輯部
房市有多瘋？！三重老公寓不到千萬「百組人搶著要」全台中古屋庫存驟降...一表認清殘酷市況
近年來政府推出一連串房市政策，意欲降低房市交易熱度，成效到底如何？樂居研究部主任謝銘元表示，有房仲傳給他新北市三重老公寓物件，開價不到千萬元，有超過百組民眾預約看屋，自己還在猶豫要不要去看，就聽到房仲說，第１組看屋就賣掉了。謝銘元認為，這是新青安以及供給不足導致，預計今年房價依舊表現不錯。
Reactions36
三立新聞網 setn.com
公開張小燕對話惹眾怒！她71歲「宣布再婚」掃陰霾　甜蜜合照曝光
娛樂中心／綜合報導資深媒體人高愛倫上月在黃子佼事件鬧得沸沸揚揚時，突然PO出與他師父張小燕的對話紀錄，不過由於對方表明不希望被曝光，高愛倫也因此遭到網友砲轟。時隔近1個月，如今她一
Reactions7
鏡週刊Mirror Media
【余天女婿案內幕】假富少月花20萬揮霍度日　余天女婿陳鑒淪車手頭內幕
前立委余天的女婿陳鑒涉嫌擔任詐騙集團車手頭，上週遭到逮捕，警方在他的背包發現另一筆2百萬元現金。當便衣刑警把白衣男從地面拉起時，只見他神情淡定地說：「我不是詐騙集團，是公司主管派我來收錢，你們抓錯人了！」說完還從口袋掏出1張前立委余天的國會助理名片。
Reactions122
今日新聞NOWnews
卜蜂擬發5.5元現金股利　首季每股賺1.25元
[NOWnews今日新聞]台灣飼料及肉品加工業者廠卜蜂股利分派，擬分配每股5.5元現金股利，若以今（6）日收盤價106元計，現金殖利率約5.19％。卜蜂今（6）日董事會決議股利分派，每股5.5元現金股...
Reactions1
今日新聞NOWnews
黃國昌槓上林淑芬　網：到底誰給你的勇氣？
[NOWnews今日新聞]新北市蘆洲南北側重劃區目前在中央審查，民眾黨立委黃國昌砲轟「中央卡地方」，民進黨在地立委林淑芬則質疑至無知，還是急於對三重果菜批發市場都更案建商財團拋媚眼。針砭時事的臉書粉專...
Reactions75
TVBS新聞網
夏天愛吃1物恐罹「癌王」！一發現末期了　醫嘆：存活率僅1成
根據衛福部最新數據，台灣每年約有12.1萬人罹癌，平均每4分19秒就有1人罹癌。夏日炎炎，許多人喜愛吃冰品消暑，但日本京都府立醫科大學前校長吉川敏一在《日本醫學博士打造的全面抗癌計畫》一書中提醒，夏天除了要注意防曬以免增加罹癌機率，飲食習慣也是關鍵因素之一。
Reactions39
民視
47歲大S近照「0眉毛只擦口紅」！素顏臉蛋震驚中網：長這樣？
娛樂中心／綜合報導台灣知名女星大S（徐熙媛）的老公具俊曄4日在台北舉辦個人DJ秀，在溫馨小空間舉辦現場LIVE活動，當天不只有小S、許雅鈞以及大女兒許曦文（Elly）、二女兒許韶恩（Lily），連S媽都到現場力挺，小S更直接被拱上台辣舞支持姐夫，解鎖狂嗨的畫面在網上瘋傳，活動結束之後更有一張疑似大S最新近況照在中國微博瘋傳，不少網友見到大S久違的近況照片，都忍不住瞪大眼睛驚呼：「變這樣嗎？」。
Reactions111
今日新聞NOWnews
曝綠1猛將消失了　沈富雄示警：國民黨小心
[NOWnews今日新聞]立法院開議以來，由於藍白立委聯手，民進黨在表決大戰中連吞15敗。前立委沈富雄表示，民進黨黨團三長，民進黨團幹事長吳思瑤是扣分，而戰鬥力最強的民進黨立院黨團書記長莊瑞雄好像消失...
Reactions252
TVBS新聞網
人生勝利組！4星座「聰明又有野心」　第1名平時反差最大
有些人的智商特別高，學習力也快，總能一眼領悟新知，優異的表現使人敬佩，命理網站《星座巫師》就分享4星座的人腦筋動得快，在職場上充滿野心，事業成績斐然，往往成為人生勝利組。
Reactions1
TVBS新聞網
母親節前悲劇！北市女持跳繩勒斃老母　檢方聲押獲准
台北市北投驚傳人倫悲劇！昨（5）日上午，60歲高姓女子，因不明原因持跳繩將高齡89歲的老母親勒斃，直到高女胞兄返家時發現母親倒臥在房內已明顯死亡，一度以為母親是心臟病發作猝死，警方進一步追查才發現高女手臂有抓痕，才驚覺是兇殺命案，據悉，高女對於犯案動機隻字未提，警方訊後也依殺人罪嫌將她移送法辦，檢方晚間聲押獲准。
Reactions91
TVBS新聞網
NBA／戈貝爾沒打照贏！愛德華茲27分碾金塊　灰狼2：0領先
繼上一戰灰狼在愛德華茲（Anthony Edwards）豪取43分、7籃板帶領下，球隊拿下西區季後賽次輪首勝後，雙方今（7）天在丹佛金塊主場進行系列賽第2戰，此役灰狼門神戈貝爾（Rudy Gobert）因老婆產子缺陣，但絲毫沒有影響，灰狼全場壓著金塊打，灰狼唐斯和愛德華茲各砍下27分，終場灰狼就以106：80大勝金塊。
Reactions17
三立新聞網 setn.com
外交部告徐巧芯！賴士葆稱「要告就告」　藍黨團幫喊追殺：戳到馬蜂窩？
記者陳怡潔／台北報導就是證實她的說法，她絕對不向執政黨低頭，還會再繼續爆料；今（7日）上午外交部條法司副司長許柏逸來到台北地檢署對徐巧芯提告洩密罪。對此，國民黨立委
Reactions116

其他人也在看