Meta 的新 AI 多模翻譯器會說 100 種語言

全面結合語音與文字翻譯的功能,可以降低運算需求。

phone talk
phone talk

雖然還沒有到了可以任意與任何人即時溝通的地步,現代 AI 翻譯技術確實是愈來愈接近什麼都能翻譯的程度了。唯一的問題,是大部份的翻譯模型都只能做好一種工作,例如將語文轉成文字,或是將一種語言的文字轉成另一種。如果要將語音轉成文字,翻譯,再轉回語音的話,中間就要經過多種 AI 模型,除了增加運算需求外,也會增加在轉換過程中發生誤解的機會。

Meta 新推出的 SeamlessM4T 就試圖解決這個問題,在一個模型內,同時支援多語言的文字和語音。它能在 100 個語言間完成語音到文字或文字到文字的轉譯,同時其中的 36 種語言還能支援直接轉為語音輸出。在部落格文章中,Meta 的研究團隊表示 SeamlessM4T 能大幅改善中資源與低資源語言的翻譯性能,同時在英文、西文、德文等語文都保有強大的表現。

與此同時,Meta 也整理並開源了一個巨大的語音轉語音及文字轉文字的翻譯對照文本庫,名為 SeamlessAlign。它有「數以百億計」的句子及「四百萬小時」的語音,並且已經將 443,000 小時的語音與文字相對應,還有 29,000 小時左右的對應語音組。這些對照庫將幫助任何翻譯 AI 進行訓練或是性能分析,而以 SeamlessAlign 進行訓練的 SeamlessM4T,在對抗背景噪音的能力比前代強了 37%,而在應付用戶口音變化方面,也比前代強了 48%。

和大部份過去 Meta 的機器翻譯模型一樣,SeamlessM4T 也是開源的。Meta 相信這是在朝著通用翻譯器前進的路上,極為重要的一步,並且希望有更多的研究專家與開發者能以此為基礎,更進一步強化其能力。