彌平「高低資源」差距 Meta宣布AI重大突破!打造出200種語言模型

Meta在AI技術領域有了重大突破!該公司今(7日)宣布打造出全球第一個能翻譯200種不同語言的單一AI模型:「NLLB-200 AI」;將以開放原始碼方式協助社群研究。這項AI模型也將支援FB動態消息、IG及其他平台上的內容翻譯,讓大家只要點擊”翻譯”鈕,就可以用自己熟悉的語言準確了解內容。

全球有數十億人無法使用他們的母語來瀏覽網路上的內容,Meta正在改變這一點,致力於「不遺漏任何語言」(No Language Left Behind)是一個突破性研究,它創造了一個開放原始碼的AI語言模型,為200種語言提供高品質翻譯,幫助數十億人直接以原來的母語來溝通。

Meta AI團隊研究總監Necip Fazil Ayan表示,「不遺漏任何語言」的重點在於將翻譯功能擴大到200種語言,它的理念是徹底消除語言隔閡,讓每個人都能以自己的母語陳述,而不需要改變溝通和說話的方式。Necip Fazil Ayan認為,「在未來元宇宙世界中,這一切都將整合在一起。」

圖片
Meta AI團隊研究總監Necip Fazil Ayan說,「不遺漏任何語言」的主要理念是徹底消除全球的語言隔閡。截自YouTube@Meta AI

它們都是低資源語言

Meta AI團隊研究經理Paco Guzman則表示,從印度的”阿薩姆語”到非洲的”祖魯語”,這些語言絕大多數都屬於低資源語言(low-resource languages),技術執行的難度非常高。「團隊必須找出更多語言資料,因此制定了一套做法以求大海撈針,並針對可用於訓練模型的不同語句來比較。」團隊研究科學家Holger Schwenk補充說明。

以母語寫詩讓全世界欣賞

團隊研究工程師Vedanuj Goswami表示,「NLLB-200 AI是目前最先進的AI語言模型,我們同時進行自動衡量數據評估以及人工評估兩種動作,以這樣的方式來判斷特定語言能提供的翻譯品質。」Vedanuj Goswami以自己的祖母為例,「她用阿薩姆語寫詩,這種語言屬於低資源語言;相信在未來,我可以輕鬆將她的詩翻譯成高資源語言,讓全世界的人都能欣賞到祖母的詩作。」

圖片
Meta AI團隊研究工程師Vedanuj Goswami的祖母用阿薩姆語寫詩,希望未來能將這些詩作翻譯成高資源語言,讓全世界的人欣賞。截自YouTube@Meta AI

另一位研究工程師Guillaume Wenzek亦指出,「我們正在改善高資源語言(high-resource languages)和低資源語言如冰島語、豪薩語和奧克語的差距。」Meta AI團隊認為某種模型只要能發揮影響力,就會嘗試推出去。

圖片
全球絕大多數的語言都屬於低資源語言,包括冰島語、加泰隆尼亞語、豪薩語、盧干達語、奧克語、阿薩姆語等等。截自YouTube@Meta AI

不同語言的食譜需要精準翻譯

另一位研究科學家Angela Fan以烹飪為例,有時她想做出其他文化的美食料理,但這些文化都有自己的食譜和配方。現在可以肯定的是有朝一日將可運用AI工具等新技術,瀏覽任何文化的食譜,然後親自試做。

圖片
全世界的美食文化各有其奧妙所在,這些不同語言的食譜需要精準AI語言模型來翻譯。圖為加泰隆尼亞沙拉所需的食材和做法。截自YouTube@Meta AI

Meta並與語言學家、社會學家、倫理學家等跨學科團隊合作,深入了解各種語言,並針對所有支援的語言建立了負面內容清單,以便偵測篩選出褻瀆性詞語或可能具有冒犯性的內容,此清單亦分享給其他研究人員,務求降低模型建置中的風險。

開放原始碼提供研究資源

Meta AI團隊研究經理Paco Guzman強調,「團隊的目標不只是獨自解決這個問題,更是與研究社群互動,並挑戰一切可能的極限。」另一位研究工程師Onur Celebi則補充道,「Meta以開放原始碼(Open Source)來提供程式碼,我相信這一點有助於社群研究並提升開發品質。」。

對此,Meta與維基媒體基金會(Wikimedia Foundation)合作,透過NLLB-200協助改善維基百科的翻譯系統,並開放NLLB-200原始碼讓其他研究人員可以將此研究擴大至更多語言。

圖片
Meta「NLLB-200 AI」模型能翻譯200種不同語言,除了用於FB、IG、WhatsApp等社群平台外,也將應用於教育領域和元宇宙。取自Meta

除了宣布AI語言模型的重大進展外;另根據彭博社報導指稱,Meta即將推出用於VR/AR的高階頭戴式裝置已命名為「Meta Quest Pro」,有可能就是先前代號為「Project Cambria」的新款頭戴式設備,預估費用將超過1,000美元(約30,065元台幣),預計將以未上市的蘋果頭戴式裝置為主要競爭對手。

更多太報報導