Meta 的新一代 AI 架構讓語音翻譯更有味道

如果輸入是說悄悄話的話,那輸出也該是悄悄話才對嘛。

Meta Seamless Expressive
Meta Seamless Expressive

Meta 在八月時發表的 AI 翻譯模型 Seamless M4T,支援 100 種語言的文字翻譯及 36 種語言的語音翻譯,而現在 Meta 則是在 Seamless M4T 的基礎上擴充到了「v2」版本,除了加快語音翻譯的速度外,也讓翻譯的語音更有表現力,是目前的翻譯 AI 相當缺乏的一種能力。

怎麼說表現力呢?這個取名「SeamlessExpressive」的功能,除了單純翻譯口語的內容外,還會試著去分析你的語速、音調、音量、停頓,甚至是情緒(興奮、難過、耳語等),並且在以語音口說翻譯時,套用相同的語音表現,以更忠實地表達原文的情感。這個功能 Meta 是號稱支援英、西、法、德、義、中等六種語言,但在官方的試玩網頁上,目前僅提供英、西、法、德四種語言的測試,無法試玩中翻英及英翻中。

而加快語音翻譯的功能,則是名為「SeamlessStreaming」,可以將翻譯的速度加快到講者邊說,AI 能同時翻譯的地步。這中間還是會有大約兩秒的延遲,但已經可以達到近乎即時口譯的效果,不用說一句、等一句了。Meta 表示,這裡最主要的困難點在於不同的語言有著不同的造句結構,因此在單純的翻譯之上,Meta 還要再額外開發一個演算法,是用來決定目前已取得的語音內容,是否足夠開始翻譯,還是要繼續等待更多的內容。

Meta 的這兩個新功能雖然說不是直接影響到翻譯的多樣性或準確度,但是對於即時翻譯來說,卻都是非常重要的功能。目前還不知道它們會以什麼樣的型態呈現給一般大眾,但可以想像手機即時同步翻譯到耳機,或甚至是能即時語音口譯的眼鏡,都可能不再是夢想了呢。

相關文章: