穀歌公佈音頻轉譯技術 Translatotron

TechCrunch
TechCrunch中文版

每一天,我們都距離道格拉斯·亞當斯(Douglas Adams)提到的能聽懂所有語言的 “通天魚”(Babel fish)更近一些。穀歌的新研究項目採用一種語言的口語句子,然後輸出另一種語言的口語句子,但與大多數翻譯技術不同的是,它不使用中間文本,隻使用音頻。這樣一來,它的翻譯速度會很快,但更重要的是,它能更容易地反映出說話人聲音的語調和節奏。

這個研究項目被稱為 Translatotron,也是多年來相關工作的成果,儘管它在很大程度上仍是一項實驗。穀歌及其他公司的研究人員多年來一直在研究從語音到語音直接翻譯的可能性,但直到最近這些努力才結出碩果。

語音翻譯通常是將該問題分解成更小的顺序性問題來解決:將源語音轉換為文本(語音到文本,或 STT),將一種語言文本轉換為另一種語言的文本(機器翻譯),然後將生成的文本轉換回語音(文本到語音,或 TTS)。這種工作機制確實表現不俗,但並不完美;每個步驟都有其容易出現的錯誤類型,並且這些錯誤會讓相互之間的關係變得更為復雜。

此外,它並不是那種會多種語言的人在自己頭腦中進行翻譯的過程,關於他們自身思維過程的證據已經證明了這一點。它到底是如何運作的,我們無法給出一個確切的答案,但很少有人會說,他們能分解文本,把它想象為一種新的語言,然後讀取新的文本。在如何推進機器學習算法方面,人類認知常常能起到指引作用。

為此,研究人員開始研究將一種語言語音的光譜圖(即詳細的音頻頻率分解)直接轉換成另一種語言的光譜圖。這是一個與三步走語音翻譯截然不同的過程,當然既有自己的缺點,也有自己的優點。

雖然整個過程略顯復雜,但從本質上它是一個步驟的過程,而不是涉及多個步驟,這意味着,假設你有足夠的處理能力,Translatotron 可以更快地進行工作。但對很多人來說,更重要的是,這個過程讓他們更容易保留音源的特徵,所以翻譯出來的東西不會機械地模仿,而是用原句的語調和節奏進行輸出。

這自然會對表達帶來很大影響,那些經常依賴翻譯或語音合成的人不僅會感謝他們的語音轉化内容,而且也會欣賞他們的說話方式。對於經常使用合成語音的人來說,這一點的重要性怎麼說都不為過。

研究人員承認,翻譯的准確性不如傳統的翻譯系統,後者有更多的時間來提高准確性。但是,Translatotron 的很多翻譯結果都非常好,能夠包含聲調就是一個非常大的優勢,讓人不容易錯過。最後,穀歌團隊謙虛地表示,這項工作隻是展示該方法可行性的起點,儘管很容易看出這也是在一個重要領域邁出的重要一步。

描述這項新技術的論文發表在 Arxiv 上,你也可以在這個頁面中瀏覽語音樣本——從聲源到傳統翻譯,再到 Translatotron 翻譯。只是要特别註意,這些樣本並不都是為了翻譯的質量選擇的,而是更多作為例子,說明該系統是如何在獲得意思要點的同時保留表達形式。

題圖來源:布萊斯·德爾賓(Bryce Durbin)/TechCrunch

翻譯:皓岳

Google’s Translatotron converts one spoken language to another, no text involved

你可能還想看