人人影視落幕,魷魚游戲殺瘋: 要什麼字幕,AI配音5秒生成

·9 分鐘 (閱讀時間)

不管是Netflix,還是小型的本地化供應商,都在探索能不能用AI配音技術代替人工字幕。

【導讀】今年,《魷魚游戲》大火。隨著Netflix等流媒體的興起,非英語作品也越來越多。然而,字幕和配音行業的人才卻非常緊缺,尤其是小語種直譯方面。為此,不管是Netflix,還是小型的本地化供應商,都在探索能不能用AI配音技術代替人工字幕。

一個時代,終究還是落幕了。

11月22日,上海第三中院對「人人影視字幕組」侵權案進行公開審理,並當庭作出一審判決。

以侵犯著作權罪判處被告人梁永平有期徒刑三年六個月,並處罰金人民幣一百五十萬元。

違法所得予以追繳,扣押在案的供犯罪所用的本人財物等予以沒收。

前段時間,韓國反烏托邦題材劇集《魷魚游戲》(Squid Game)可謂是相當火爆,上線1個月播放量就達到了1.42億,霸榜90個國家和地區。

Netflix也為其提供了多達31種語言的字幕和13種語言的配音。

然而韓裔美籍喜劇演員Youngmi Mayer卻發現《魷魚游戲》的官方字幕過於離譜,完全就是詞不達意。

就比如說,當女演員用韓語表示「看什麼看」,Netflix 的英文字幕翻譯為「走開」。

隨著Netflix等流媒體的興起,像是《魷魚游戲》這類的非英語作品也越來越多。

然而,字幕和配音行業的人才卻非常緊缺,尤其是小語種直譯方面。

還是以《魷魚游戲》為例,如果想將其推向西班牙語市場,通常會先輸出英文版的字幕,然而再在這個基礎上進行法語翻譯。

也就是說,部分語種字幕的質量完全取決於英文的翻譯如何,而這個轉化過程難免會丟失很多信息細節。

據統計,《魷魚游戲》的配音版比字幕版的觀看人數還要多。

為此,不管是Netflix這樣的流媒體巨頭,還是一些小型的本地化服務供應商,都在探索能不能用AI技術代替人工翻譯。

那麼,AI到底是能行,還是不能行?

這就得從Deepfake Voice是什麼開始說起了。

Deepfake Voice

復制或克隆一個人的聲音,常用到的一項技術叫Deepfake Voice,也稱為語音克隆或合成語音,其目的是使用AI生成一個人的語音。

目前,這項技術已經發展到可以在音調和相似度上非常精確地復制人聲的地步。

什麼是聲音克隆?

聲音克隆是一個過程,在這個過程中,人們使用計算機生成真實個體的語音,使用人工智能(AI)創建一個特定的、獨特的聲音的克隆。

要克隆某人的聲音,必須有訓練數據輸給人工智能模型。這些數據通常記錄了目標人說話的例子。

人工智能可以使用這些數據來呈現一個真實的聲音,比如可以用文字鍵入的任何東西生成一段語音,這個過程稱為文本到語音。

在以往的文本到語音(TTS)系統中,訓練數據是關鍵組成部分,它控制了語音輸出的產生。換句話說,你聽到的聲音就應該是數據集中給出的聲音。

不過現在,隨著最新AI技術的引入,使用一些目標聲音的特徵,比如語音波形,也可以進行更深入的分析和提取。

什麼是合成聲音?

合成聲音是一個術語,也就是通常所說的Deepfake Voice,合成聲音也經常與聲音克隆互換使用。

但簡單來說,合成語音就是計算機生成的語音,也叫語音合成,一般是通過人工智能(AI)和深度學習來實現的。

合成聲音的方式主要有兩種:文本到語音轉換(TTS)和語音到語音(STS)。

文本到語音轉換(TTS)在上文中已經介紹過,目前,TTS軟件已被用於幫助視障人士閱讀數字文本,還被搭載在語音助手等其他應用上。

而語音到語音(STS)不是使用文本,而是使用一段語音修改其聲音的特徵來創建另一段聽起來很真實的合成語音。

過去的語音合成並不能生成以假亂真的聲音。但是隨著技術的發展,這種情況已經改變。

人工智能如何完成語音合成?

傳統的語音合成通常使用兩種基本技術。這兩種技術是拼接合成和共振峰合成。

拼接合成採用的方法是將錄制聲音的短樣本拼接在一起,形成一個稱為單元的鏈。這些單元然後被用來生成用戶定義的聲音模式。

而共振峰合成這種技術最常用來復制人們用元音發出的聲音。

這些方法的缺點是,它們時不時會生成一些人們無法發出的聲音。但是深度學習和人工智能的出現將TTS技術帶到了新的高度。

AI文本到語音轉換通常被稱為神經文本到語音轉換,它利用神經網絡和機器學習技術從文本中合成語音輸出。

首先,語音引擎接受音頻輸入,並識別人類聲音產生的聲波。

接著,這些信息被翻譯成語言數據,這被稱為自動語音識別(ASR)。在獲得這些數據後,語音引擎必須對數據進行分析,以理解它所收集的單詞的含義,這被稱為自然語言處理(NLP)。

尋找訓練數據是合成聲音的第一個基本項目。沒有清晰的聲音錄音,就沒有辦法成功地訓練人工智能模型來捕捉一個人說話的所有復雜細節。

錄制過程可能需要幾個小時到幾個小時,語音解決方案團隊將提供一個全面的短語列表,以捕捉一個人聲音的所有特徵。

通常,這個列表不會超過4000個短語,但目標確實是圍繞某人獨特的聲音捕獲盡可能多的數據——捕獲的數據越多,聲音克隆就越準確。

接下裡,AI要對語音數據進行建模。

使用神經網絡獲取一組有序的音素,然後將它們轉換成一組頻譜圖。頻譜圖是信號頻帶頻譜的可視化呈現。

神經網絡選擇合適的頻譜圖,其頻帶能夠更準確地刻畫人腦在理解語音時使用的聲學特徵。然後,神經聲碼器將這些頻譜圖轉換成語音波形,就可以發出自然且逼真的聲音。

中文版Deepfake Voice嘗鮮嗎?

今年10月,GitHub上的一個項目狂攬13k星。

只需5秒,就能用AI技術來模擬聲音來生成任意語音內容,並且還支持中文。

https://github.com/babysor/MockingBird/blob/main/README-CN.md

根據上傳的演示視頻來看,聲音模仿的也很逼真。

Mocking Bird的主要特性包括:

支持普通話並使用多種中文數據集進行測試:aidatatang_200zh, magicdata, aishell3, biaobei,MozillaCommonVoice等

適用於pytorch,已在1.9.0版本中測試,GPU Tesla T4和GTX 2060

可在Windows操作系統和Linux操作系統中運行(蘋果係統M1版也有社區成功運行案例)

僅需下載或新訓練合成器(synthesizer就有良好效果,復用預訓練的編碼器/聲碼器,或實時的HiFi-GAN作為vocoder)

提供一個Webserver可查看訓練結果,供遠程調用

Mocking Bird除了在知乎上有專欄分享保姆級教程和訓練技巧之外,其使用也非常簡單。

首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩餘包。

第二步是准備預訓練模型,可以使用作者提供的或者是其他人訓練好的模型。

重要的數據處理操作是進行音頻和梅爾頻譜圖預處理:python pre.py <datasets_root> 可以傳入參數 —dataset {dataset} 支持 aidatatang_200zh, magicdata, aishell3

第三步在瀏覽器直接啟動一個Web程序來進行調試。

或者啟動一個更完善的工具箱軟件。

作者還貼心的附上了所有可以學習的論文及原始代碼倉庫。

這個倉庫的名字MockingBird 是仿聲鳥、反舌鳥,以善於模仿其他鳥類及昆蟲、兩棲動物的叫聲而聞名,也是一種經常出現在西方文學或影視作品之中的鳥類,在生物學上是嘲鶇的俗稱。

著名的書的名字《殺死一隻知更鳥》的英文就是To Kill a Mocking Bird,實際上屬於翻譯的錯誤,知更鳥的英文是Robin。

當人工智能被用於語音詐騙

Deepfake Voice帶來的語音欺詐是一個很大的問題。

2019年,犯罪分子克隆了一家總部位於英國的能源公司CEO的聲音,騙走了24萬美元,原因就是這個假CEO在口音和語氣上聽起來都是十分真實的。這起事件是歐洲已知的第一起直接使用人工智能的網絡犯罪。

另一起事件發生在2020年。一位在阿拉伯聯合酋長國工作的銀行經理接了一個電話,他當時以為他在和一家公司的董事說話,結果掉進了一個徹頭徹尾的語音騙局,錯誤地批准了3500萬美元的轉賬。

隨著技術的發展,Deepfake Voice詐騙變得越來越復雜,許多人可能在社交媒體上就已經遇到過一些Deepfake Voice偽造的聲音。

那麼,如何防範Deepfake Voice欺詐呢?

有兩種方法。

第一種方法是創建一個檢測器,分析聲音以確定它是否是使用deepfake技術製作的。不幸的是,因為Deepfake Voice技術會不斷發展,檢測器無法永遠保持正確。

第二種方法則相對更加現實,主要是實現一個聽眾聽不到、人們也無法編輯的音頻水印。音頻水印本質上是聲音被創造、編輯和使用的記錄。這樣一來,人們就更容易知道一段聲音是否是合成的。

參考資料:

https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html

https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale

https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/

https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/

https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/

https://www.veritone.com/blog/how-to-create-a-synthetic-voice/

特別鳴謝ifan

https://www.ifanr.com/1454818

本文來自微信公眾號“新智元”(ID:AI_era),編輯:好困 小咸魚,36氪經授權發布。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪