Meta 第一個全新 AI 技術支援的非書寫語音翻譯系統!直接把台語轉換成英文
Meta 宣布以口語表達的「閩南語」打造了一個史無前例的人工智慧技術翻譯系統,可讓使用閩南語的人士與使用英語的人士對話,目的希望打破語言隔閡,拉近人們之間的距離,無論身在何處,甚至在元宇宙中也不例外。
為開發這個只有語音的全新翻譯系統,Meta AI 研究人員必須克服許多來自傳統機器翻譯系統的挑戰,包括資料蒐集、模型設計,以及準確度評估。Meta 不只會開放閩南語翻譯模型的原始碼,也會公開評估資料集和研究報告,讓他人能夠重製並以這項成果為基礎建立模型。
Meta 表示,閩南語是所謂的資源匱乏語言,這意味著與西班牙文或英文等語言相比,該語言尚未有足夠的訓練資料。此外,將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難以蒐集資料並加上註解來訓練模型。因此這項技術是利用中文作為中間語言,以建立偽標籤和人工翻譯,簡單的說就是先將英語(或閩南語)語音翻譯成中文文字,接著再翻譯成閩南語(或英語),然後新增至訓練資料中。此方法利用了資源充足的相似語言的資料,藉此大幅改善了模型成效。
跟多數翻譯訓練模型一樣,該項技術的另一個產生訓練資料的作法是利用語音探勘。使用預先訓練好的語音編碼器,便能透過編碼方式將閩南語語音嵌入內容加入到其他語言的相同語意空間中,而無須取得閩南語的書寫文字。閩南語語音可以和擁有相似語意嵌入內容的英語語音和文字配對。我們接著從文字來合成英文語音,產生平行的閩南語和英語語音。
Meta 使用語音轉單元翻譯(speech-to-unit translation,S2UT)系統,直接在先前由 Meta 開創的路徑中,將輸入的語音翻譯成一系列聲學單元,然後從這些單元中生成波形。針對二次解碼機制採用 UnitY,讓第一階段的解碼器產生相關語言(中文)的文字,然後讓第二階段的解碼器製作單元。
語音翻譯系統通常會使用稱為 ASR-BLEU 的衡量指標來評估,首先需使用自動語音識別系統(ASR)將翻譯後的語音轉譯成文字,然後將轉譯後的文字與人工翻譯的文字比較,以計算 BLEU 分數(標準機器翻譯衡量指標)。但評估主要以口語表達的語言(例如閩南語)時,評估語音翻譯的挑戰之一就是沒有標準的書寫文字系統。為啟動自動評估程序,Meta 開發了稱為 Tâi-lô 的系統,將閩南語語音轉譯成標準化的拼音符號。這項技術能以音節為單位計算 BLEU 分數,並能夠很容易地比較不同方法下的翻譯品質。
除了開發方法以評估閩南語與英語語音翻譯的準確度,根據名為 Taiwanese Across Taiwan 的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集。
現階段來說,這項閩南語轉英文的模型仍在開發訓練中,而且每次只能翻譯一個完整句子,但已朝著未來實現為各種語言提供同步翻譯的目標邁開一步。
此外,Meta 在非監督方式語音識別技術(wav2vec-U)與非監督方式機器翻譯(mBART)上的最新進展,將有助於未來能翻譯更多口說語言的工作,並且將大幅降低往後擴展至低資源語言的條件,因為其中大部分的語言都沒有獲得標記的資料。未來,所有語言,無論是否可以書寫,都不再是阻礙大家相互理解的障礙。