Meta AI 語音工程師陳鵬仁談閩南語轉英文秘辛:多數語料庫來自「台灣電視劇」

上週 Meta CEO Mark Zuckerberg 以台語即時翻譯的形式,跟來自台灣的 Meta 工程師陳鵬仁對話,引發各界關注,光是在 Facebook 的影片觀看次數就來到 185萬。而這樣的一套AI語音翻譯系統,壹哥本身也有嘗試過,在實際測試過後發現一些疑問,剛好有這機會跟這來自台灣的台灣之光 Meta AI 語音翻譯系統工程師陳鵬仁對話,跟大家分享這套神奇系統背後的台灣精神與開發祕辛。

相信大家可能很快就可以在影片當中發現,Meta 工程師陳鵬仁的閩南語腔是南部口音。陳鵬仁說:「是的沒錯!爸爸是屏東人,從小爸媽都用台語(以下統稱閩南語)跟我對話,我在耳濡目染之下就學會閩南語。」後續訪談中也了解到這套系統目前已經可以辨識北部跟南部的腔調。

Meta 工程師陳鵬仁在台灣長大,是道地的台灣人,台大資工所畢業之後就進入當時還是 Facebook 的紐約辦公室,至今工作大約 10年。這 10 年之間,陳鵬仁參與的都是跟機器學習相關的工作,像是一開始前六年開發的產品,就是大家熟悉的「打卡」功能,好比說像是打卡之後提供地點推薦,這些需要使用到機器學習的功能他都有參與。陳鵬仁大約在四年前加入 Meta AI,主要做文字上的翻譯,大約一年多以前加入「語音的翻譯」也就是現在的專案。

「看到台灣反應這麼熱烈,我很感謝,也很認真看大家的回饋是什麼...我的伯父甚至很認真的希望能有一套這樣的產品...」

由 Meta CEO Mark Zuckerberg 分享的這一段翻譯影片至今僅僅一個禮拜,就已經有超過 185 萬次觀看、3萬多則留言,台灣媒體也以鋪天蓋地的形式介紹陳鵬仁。

在訪談過程中,他把這一切成果歸功於跟團隊合作,而他對於能夠參與閩南語系統專案,覺得很開心自己能夠在工作上從事到一個自己聽得懂的翻譯系統,對於閩南語的認識也更加深入,像是本來不太清楚所謂的「閩南語七聲八調」,參與過程中發現了解更多自己熟悉的語言覺得很興奮。

團隊大多數都會講閩南語所以才以閩南語對開始

陳鵬仁表示,全球有大概 7,000 多種語言,其中有一半都是像閩南語一樣沒有辦法用文字來呈現,這也是 Meta 想要研究的方向。這次的發表是採用一套所謂的 Universal Speech Translator(UST)通用語音翻譯工具當作背後支撐,開發團隊大約 50人,說話的人可以做語音輸入,然後做語音輸出。

團隊裡面有語言學家、社會學家、工程師等等,最後決定閩南語作為第一個研究的對象,主要的原因是團隊很多人會講、聽得懂閩南語,這樣對於開發上來說像是再驗證、研究等等會有很大的幫助。

陳鵬仁透露,這套閩南語對英文的翻譯系統最早是 3~4 年前由陳鵬仁的大主管投入,剛開始想要做的方向是「語音到文字」之間的翻譯,大約兩年多前,團隊發現「語音對語音」更值得開發,因為「語音對語音」對人來說是更直接即時的翻譯系統,而不管是過去還是現在,跨語言通常都是人與人溝通之間的隔閡,所以就朝這方向去研究,希望未來大家可以用自己的語言溝通。而陳鵬仁加入時間大約一年多,而最後決定要開發「閩南語到英文」,則是去年中開始。

閩南語翻譯英文的兩大痛點

簡而言之,開發團隊光是在這四年的開發期,至少換了三套的翻譯方案,相信對於團隊來說也是頗具挑戰。陳鵬仁表示,相比於傳統的語音翻譯,語音翻譯系統難度在於資料上的搜集,現在網路上有很多文字為主,要訓練這個翻譯系統,主要是不同語言,數位化的過程中很容易取得的語調,相較於文字很難取得「語音對語音」翻譯的資料...陳鵬仁將之稱為「語料庫」。

另外一方面,訓練系統也特別困難,語音其實包含更多語音的訊息,系統在學習如何更精準翻譯語音,相對於文字來說反而需要更多資料,這兩點是比較困難的地方。舉例來說,像是相關的語料庫數量、閩南語的口音還有相關的文字等等,這部分在開發過程中都比想像中難很多,因此,團隊花了很多力氣在建立語料庫上面。

建立語料庫之後,接著開始打造訓練系統,因為同一時間團隊有在研究什麼樣的系統可以更容易達到語音到語音翻譯,所以過去兩年中做了很多研究。大約花了3~4個月完成第一個模型,根據模型相關的開發結果再做後續的調整,這方面大概1~2個月左右。

3萬小時的「語料庫」多數來自台灣的連續劇

陳鵬仁表示,開發過程中有接受來自各界相關團體的建議,團隊也有找到一個台語老師,更精準翻譯語言建議。他更透露團隊開發過程中發現閩南語有多變的口音跟腔調,因此在建設語料庫的過程中,主要是根據語料庫的口音來建設,整體資料量涵蓋約3萬小時,有很大宗都是來自於台灣的連續劇,因為連續劇有各種不同的口音、語氣跟腔調,如此一來,一些比較口語的說法跟腔調,才會很容易被翻譯出來。

除此之外,在語音辨識、語音合成方面特別採用了陽明交大廖元甫教授的模型來建制,而一些語言收集則是尋求台大的李宏毅教授等相關單位的協助。

閩南語翻譯之後,Meta的下一步?

對於Meta AI語音開發團隊而言,翻譯系統絕對是接下來研究的重點之一。談到下一步規劃,陳鵬仁表示,目前這套系統還在開發中,還沒有推廣到Meta旗下相關產品的規劃。而正如同先前 Meta 對外所說,語音到語音翻譯系統好處是不用經過文字,未來UST有可能延伸到其他語言,團隊的目標是拓展更多的語言讓人們可以聽更多、說更多。

陳鵬仁表示,目前這個系統必須要等一句話講完之後,才能翻譯另外一句,像是這段跟Mark Zuckerberg的對話,也是他先錄製一段進行翻譯、Mark Zuckerberg再錄製一段進行翻譯。因此現階段團隊最重要的工作就是讓翻譯延遲縮短,並且持續在「翻譯的正確性」跟「精準度再提升」這兩個方向開發,包括語速、腔調、語氣的轉換上,包括英文轉換成閩南語方面。這次的發表是用閩南語做一個例子,未來團隊發展目標,將會放在繼續研發讓翻譯更順暢、即時,期望大家在現實場景能夠沒有隔閡的交流,在元宇宙面對面交談。

後記:

陳鵬仁有兩個女兒,大女兒四歲半、小女兒一歲半,大女兒以華語為主,小女兒現在主要學閩南語,為了延續閩南語,他目前是透過一些音樂的刺激,像是閩南語的歌,像是兒歌或者流行音樂,也會用一些輔助教具,像是繪本搭配圖案跟女兒一起交流,而他自己本人也會持續加強閩南語,像是聽閩南語的音樂、流行樂、Podcast,並且持續用閩南話跟小孩對話,讓下一代能夠持續將閩南語文化延續下去。

Meta 工程師陳鵬仁的閩南語腔是南部口音。陳鵬仁說:「是的沒錯!爸爸是屏東人,從小爸媽都用台語跟我對話,我在耳濡目染之下就學會閩南語。」後續訪談中也了解到這套系統目前已經可以辨識北部跟南部的腔調。

Meta 工程師陳鵬仁在台灣長大是道地的台灣人,台大資工所畢業之後就進入當時還是 Facebook 的紐約辦公室,至今工作大約 10年,這 10 年之間,陳鵬仁參與的都是跟機器學習相關的工作,像是一開始前六年開發的產品,就是大家熟悉的「打卡」功能,好比說像是打卡之後提供地點推薦,這些需要使用到機器學習的功能他都有參與。陳鵬仁大約在四年前加入 Meta AI,主要做文字上的翻譯,大約一年多以前加入「語音的翻譯」也就是現在的專案。

「看到台灣反應這麼熱烈,我很感謝,也很認真看大家的回饋是什麼...我的伯父甚至很認真的希望能有一套這樣的產品...」

對於Mark Zuckerberg所分享的這一段翻譯影片至今已經有超過 185 萬次觀看、3萬多則留言,台灣媒體也以鋪天蓋地的形式介紹陳鵬仁。

在訪談過程中,他把這一切成果歸功於跟團隊合作的成果,而他自己覺得能夠參與閩南語系統專案,他覺得很開心自己能夠在工作上從事到一個自己聽得懂的翻譯系統,過程中非常興奮、嘗試認識非常多閩南語,像是本來不太清楚所謂的「閩南語七聲八調」,參與過程中發現了解更多自己熟悉的語言覺得很興奮。

團隊大多數都會講閩南語所以才以閩南語對開始

陳鵬仁表示,這次的發表是採用一套所謂的 Universal Speech Translator(UST)通用語音翻譯工具當作背後支撐,開發團隊大約 50人,說話的人可以做語音輸入,然後做語音輸出,而全球有大概 7,000 多種語言,其中有一半都是像閩南語一樣沒有辦法用文字來呈現,這也是 Meta 想要研究的方向。

團隊裡面有語言學家、社會學家、工程師等等,最後決定閩南語作為第一個研究的對象,主要的原因是團隊很多人會講、聽得懂閩南語,這樣對於開發上來說像是再驗證、研究等等會有很大的幫助。

陳鵬仁透露,這套閩南語對英文的翻譯系統最早是 3~4 年前由陳鵬仁的大主管投入,剛開始想要做的方向是「語音到文字」之間的翻譯,大約兩年多前,團隊發現「語音對語音」更值得開發,因為「語音對語音」對人來說是更直接即時的翻譯系統,而不管是過去還是現在,跨語言通常都是人與人溝通之間的隔閡,所以就朝這方向去研究,希望未來大家可以用自己的語言溝通。而陳鵬仁加入時間大約一年多,而最後決定要開發「閩南語到英文」,則是去年中開始。

閩南語翻譯英文的兩大困難

簡而言之,開發團隊光是在這四年的開發期,至少換了三套的翻譯方案,相信對於團隊來說也是頗具挑戰。陳鵬仁表示,相比於傳統的語音翻譯,語音翻譯系統難度在於資料上的搜集,現在網路上有很多文字為主,要訓練這個翻譯系統,主要是不同語言,數位化的過程中很容易取得的語調,相較於文字很難取得「語音對語音」翻譯的資料...陳鵬仁將之稱為「語料庫」。

另外一方面,訓練系統也特別困難,語音其實包含更多語音的訊息,系統在學習如何更精準翻譯語音,相對於文字來說反而需要更多資料,這兩點是比較困難的地方。舉例來說,像是相關的語料庫數量、閩南語的口音還有相關的文字等等,這部分在開發過程中都比想像中難很多,因此,團隊花了很多力氣在建立語料庫上面。

建立語料庫之後,接著開始打造訓練系統,因為同一時間團隊有在研究什麼樣的系統可以更容易達到語音到語音翻譯,所以過去兩年中做了很多研究成果,真正打造這套系統大約花了3~4個月完成第一個模型,根據模型相關的開發結果再做後續的調整,這方面大概1~2個月左右。

3萬小時的「語料庫」多數來自台灣的連續劇

陳鵬仁因為我們要做閩南語,也有接觸到一些使用者得到很多建議跟反饋。團隊也有找到一個台語老師,更精準翻譯語言建議。他更透露團隊開發過程中發現閩南語有多變的口音跟腔調,因此在建設語料庫的過程中,主要是根據語料庫的口音來建設,整體資料量涵蓋約3萬小時,這中間有多數是來自於台灣的連續劇;如此一來,一些比較口語的說法跟腔調,才會很容易被翻譯出來。

除此之外,UST 開發過程中也有透過跟台灣的學術單位合作才有辦法達成這樣的成果,像是在語音辨識、語音合成方面特別採用了陽明交大廖元甫教授的模型來建制,而一些語言收集則是尋求台大的李宏毅教授等相關單位的協助。

閩南語翻譯之後,Meta的下一步?

對於Meta AI語音開發團隊而言,翻譯系統絕對是接下來研究的重點之一。談到下一步規劃,陳鵬仁表示,目前這套系統還在開發中,還沒有推廣到Meta旗下相關產品的規劃。而正如同先前 Meta 對外所說,語音到語音翻譯系統好處是不用經過文字,未來UST有可能延伸到其他語言,團隊的目標是拓展更多的語言讓人們可以聽更多、說更多。

陳鵬仁表示,目前這個系統必須要等一句話講完之後,才能翻譯另外一句,像是這段跟Mark Zuckerberg的對話,也是他先錄製一段進行翻譯、Mark Zuckerberg再錄製一段進行翻譯。因此現階段團隊最重要的工作就是讓翻譯延遲縮短,並且持續在「翻譯的正確性」跟「精準度再提升」這兩個方向開發,包括語速、腔調、語氣的轉換上,包括英文轉換成閩南語方面。這次的發表是用閩南語做一個例子,未來團隊發展目標,將會放在繼續研發讓翻譯更順暢、即時,期望大家在現實場景能夠沒有隔閡的交流,在元宇宙面對面交談。

後記:

陳鵬仁有兩個女兒,大女兒四歲半、小女兒一歲半,大女兒以華語為主,小女兒現在主要學閩南語,為了延續閩南語,他目前是透過一些音樂的刺激,像是閩南語的歌,像是兒歌或者流行音樂,也會用一些輔助教具,像是繪本搭配圖案跟女兒一起交流,而他自己本人也會持續加強閩南語,像是聽閩南語的音樂、流行樂、Podcast,並且持續用閩南話跟小孩對話,讓下一代能夠持續將閩南語文化延續下去。