台英翻譯系統語料庫來自連續劇 工程師談幕後祕辛

Meta日前推出英語直翻閩南語的翻譯系統,幕後推手、來自台灣的軟體工程師陳鵬仁,分享開發這款AI翻譯系統的心路歷程,他說,很大一部分的語料庫,都來自於台灣的連續劇,而且因為閩南語的聲調、口音有很多種,要達到百分百精準翻譯,還要持續優化,不過陳鵬仁也說,能夠讓本土語言被看見,是一件很開心的事。

Meta軟體工程師陳鵬仁:「大家好,我是陳鵬仁,我在台灣出生長大,現在在Meta AI當工程師。」Meta軟體工程師陳鵬仁從小講台語,長大後出國工作,更把台語發揚光大,開發英語、閩南語即時翻譯語音系統,過程中最辛苦的是收集台語語庫。

Meta軟體工程師陳鵬仁:「我們語料庫有一大宗是台灣的連續劇,所以大家如果有試我們的系統,可能會覺得說,閩南語到英文的部分,有一些比較口語的說法。」拚命看劇累積台語詞彙,過去的翻譯模式先進行語音和文字轉換,再轉成語音,書寫語言是重點,也用大量文字來訓練AI模型,但陳鵬仁的翻譯系統,採取語音直接轉語音,減少中間轉換過程,可以讓翻譯品質提高、錯誤率降低,但挑戰也更大。

陳鵬仁說好不容易開發完成,搶先拿給教他講台語的爸爸測試,陳鵬仁:「(測試時)我爸爸跟我說一個字,不知道是治療還是豬寮,不同的調會是有不同意思,有跟爸爸測試過,他覺得很有趣,很特別可以跟他在工作專案上有些互動。」

閩南語聲調、口音百百種,這款翻譯系統涵蓋絕大部分人使用的,像是台北腔、高雄腔等,但閩南語變調規則複雜,加上沒有特定文字系統,要做到百分百精準翻譯,有努力空間,陳鵬仁笑說得持續優化,才能讓親朋好友可以實際應用。

陳鵬仁:「我阿伯是開民宿,我是聽我爸爸轉述,很認真問我爸爸說,我們這個系統有沒有在賣,很想買一台,因為民宿會有接待外國朋友的需求,那因為他英文比較聽不太懂,所以有這個翻譯系統,對他來講是很大的(幫助),阿伯很認真在問這件事情。」

不只是台語,陳鵬仁未來還想持續開發客語、原住民語等翻譯系統,根據統計,全球有將近5,000萬名的閩南語使用者,陳鵬仁想讓父親與世界溝通的初心,不只讓本土語言傳播全球,更潛藏龐大商機。

「鏡新聞」已在MOD508台與YouTube頻道同步播出。


更多《鏡新聞》報導
戴資穎「內戰」台灣好手許玟琪 賽前追劇狂錄10段自拍
60年沒洗澡「弄乾淨會殺了我」 全世界最髒男人相隔多年洗沐卻過世
蘇納克就任英國首相 承諾穩定經濟是優先要務