人人影視落幕，魷魚游戲殺瘋：要什麼字幕，AI配音5秒生成

36氪

2021年12月8日上午4:00·9 分鐘 (閱讀時間)

不管是Netflix，還是小型的本地化供應商，都在探索能不能用AI配音技術代替人工字幕。

【導讀】今年，《魷魚游戲》大火。隨著Netflix等流媒體的興起，非英語作品也越來越多。然而，字幕和配音行業的人才卻非常緊缺，尤其是小語種直譯方面。為此，不管是Netflix，還是小型的本地化供應商，都在探索能不能用AI配音技術代替人工字幕。

一個時代，終究還是落幕了。

11月22日，上海第三中院對「人人影視字幕組」侵權案進行公開審理，並當庭作出一審判決。

以侵犯著作權罪判處被告人梁永平有期徒刑三年六個月，並處罰金人民幣一百五十萬元。

違法所得予以追繳，扣押在案的供犯罪所用的本人財物等予以沒收。

前段時間，韓國反烏托邦題材劇集《魷魚游戲》（Squid Game）可謂是相當火爆，上線1個月播放量就達到了1.42億，霸榜90個國家和地區。

Netflix也為其提供了多達31種語言的字幕和13種語言的配音。

然而韓裔美籍喜劇演員Youngmi Mayer卻發現《魷魚游戲》的官方字幕過於離譜，完全就是詞不達意。

就比如說，當女演員用韓語表示「看什麼看」，Netflix 的英文字幕翻譯為「走開」。

隨著Netflix等流媒體的興起，像是《魷魚游戲》這類的非英語作品也越來越多。

然而，字幕和配音行業的人才卻非常緊缺，尤其是小語種直譯方面。

還是以《魷魚游戲》為例，如果想將其推向西班牙語市場，通常會先輸出英文版的字幕，然而再在這個基礎上進行法語翻譯。

也就是說，部分語種字幕的質量完全取決於英文的翻譯如何，而這個轉化過程難免會丟失很多信息細節。

據統計，《魷魚游戲》的配音版比字幕版的觀看人數還要多。

為此，不管是Netflix這樣的流媒體巨頭，還是一些小型的本地化服務供應商，都在探索能不能用AI技術代替人工翻譯。

那麼，AI到底是能行，還是不能行？

這就得從Deepfake Voice是什麼開始說起了。

Deepfake Voice

復制或克隆一個人的聲音，常用到的一項技術叫Deepfake Voice，也稱為語音克隆或合成語音，其目的是使用AI生成一個人的語音。

目前，這項技術已經發展到可以在音調和相似度上非常精確地復制人聲的地步。

什麼是聲音克隆？

聲音克隆是一個過程，在這個過程中，人們使用計算機生成真實個體的語音，使用人工智能（AI）創建一個特定的、獨特的聲音的克隆。

要克隆某人的聲音，必須有訓練數據輸給人工智能模型。這些數據通常記錄了目標人說話的例子。

人工智能可以使用這些數據來呈現一個真實的聲音，比如可以用文字鍵入的任何東西生成一段語音，這個過程稱為文本到語音。

在以往的文本到語音（TTS）系統中，訓練數據是關鍵組成部分，它控制了語音輸出的產生。換句話說，你聽到的聲音就應該是數據集中給出的聲音。

不過現在，隨著最新AI技術的引入，使用一些目標聲音的特徵，比如語音波形，也可以進行更深入的分析和提取。

什麼是合成聲音？

合成聲音是一個術語，也就是通常所說的Deepfake Voice，合成聲音也經常與聲音克隆互換使用。

但簡單來說，合成語音就是計算機生成的語音，也叫語音合成，一般是通過人工智能（AI）和深度學習來實現的。

合成聲音的方式主要有兩種：文本到語音轉換（TTS）和語音到語音（STS）。

文本到語音轉換（TTS）在上文中已經介紹過，目前，TTS軟件已被用於幫助視障人士閱讀數字文本，還被搭載在語音助手等其他應用上。

而語音到語音（STS）不是使用文本，而是使用一段語音修改其聲音的特徵來創建另一段聽起來很真實的合成語音。

過去的語音合成並不能生成以假亂真的聲音。但是隨著技術的發展，這種情況已經改變。

人工智能如何完成語音合成？

傳統的語音合成通常使用兩種基本技術。這兩種技術是拼接合成和共振峰合成。

拼接合成採用的方法是將錄制聲音的短樣本拼接在一起，形成一個稱為單元的鏈。這些單元然後被用來生成用戶定義的聲音模式。

而共振峰合成這種技術最常用來復制人們用元音發出的聲音。

這些方法的缺點是，它們時不時會生成一些人們無法發出的聲音。但是深度學習和人工智能的出現將TTS技術帶到了新的高度。

AI文本到語音轉換通常被稱為神經文本到語音轉換，它利用神經網絡和機器學習技術從文本中合成語音輸出。

首先，語音引擎接受音頻輸入，並識別人類聲音產生的聲波。

接著，這些信息被翻譯成語言數據，這被稱為自動語音識別（ASR）。在獲得這些數據後，語音引擎必須對數據進行分析，以理解它所收集的單詞的含義，這被稱為自然語言處理（NLP）。

尋找訓練數據是合成聲音的第一個基本項目。沒有清晰的聲音錄音，就沒有辦法成功地訓練人工智能模型來捕捉一個人說話的所有復雜細節。

錄制過程可能需要幾個小時到幾個小時，語音解決方案團隊將提供一個全面的短語列表，以捕捉一個人聲音的所有特徵。

通常，這個列表不會超過4000個短語，但目標確實是圍繞某人獨特的聲音捕獲盡可能多的數據——捕獲的數據越多，聲音克隆就越準確。

接下裡，AI要對語音數據進行建模。

使用神經網絡獲取一組有序的音素，然後將它們轉換成一組頻譜圖。頻譜圖是信號頻帶頻譜的可視化呈現。

神經網絡選擇合適的頻譜圖，其頻帶能夠更準確地刻畫人腦在理解語音時使用的聲學特徵。然後，神經聲碼器將這些頻譜圖轉換成語音波形，就可以發出自然且逼真的聲音。

中文版Deepfake Voice嘗鮮嗎？

今年10月，GitHub上的一個項目狂攬13k星。

只需5秒，就能用AI技術來模擬聲音來生成任意語音內容，並且還支持中文。

https://github.com/babysor/MockingBird/blob/main/README-CN.md

根據上傳的演示視頻來看，聲音模仿的也很逼真。

Mocking Bird的主要特性包括：

支持普通話並使用多種中文數據集進行測試：aidatatang_200zh, magicdata, aishell3， biaobei，MozillaCommonVoice等

適用於pytorch，已在1.9.0版本中測試，GPU Tesla T4和GTX 2060

可在Windows操作系統和Linux操作系統中運行（蘋果係統M1版也有社區成功運行案例）

僅需下載或新訓練合成器（synthesizer就有良好效果，復用預訓練的編碼器/聲碼器，或實時的HiFi-GAN作為vocoder）

提供一個Webserver可查看訓練結果，供遠程調用

Mocking Bird除了在知乎上有專欄分享保姆級教程和訓練技巧之外，其使用也非常簡單。

首先安裝好PyTorch、ffmpeg、webrtcvad-wheels和requirements.txt 中要求的剩餘包。

第二步是准備預訓練模型，可以使用作者提供的或者是其他人訓練好的模型。

重要的數據處理操作是進行音頻和梅爾頻譜圖預處理：python pre.py <datasets_root> 可以傳入參數 —dataset {dataset} 支持 aidatatang_200zh, magicdata, aishell3

第三步在瀏覽器直接啟動一個Web程序來進行調試。

或者啟動一個更完善的工具箱軟件。

作者還貼心的附上了所有可以學習的論文及原始代碼倉庫。

這個倉庫的名字MockingBird 是仿聲鳥、反舌鳥，以善於模仿其他鳥類及昆蟲、兩棲動物的叫聲而聞名，也是一種經常出現在西方文學或影視作品之中的鳥類，在生物學上是嘲鶇的俗稱。

著名的書的名字《殺死一隻知更鳥》的英文就是To Kill a Mocking Bird，實際上屬於翻譯的錯誤，知更鳥的英文是Robin。

當人工智能被用於語音詐騙

Deepfake Voice帶來的語音欺詐是一個很大的問題。

2019年，犯罪分子克隆了一家總部位於英國的能源公司CEO的聲音，騙走了24萬美元，原因就是這個假CEO在口音和語氣上聽起來都是十分真實的。這起事件是歐洲已知的第一起直接使用人工智能的網絡犯罪。

另一起事件發生在2020年。一位在阿拉伯聯合酋長國工作的銀行經理接了一個電話，他當時以為他在和一家公司的董事說話，結果掉進了一個徹頭徹尾的語音騙局，錯誤地批准了3500萬美元的轉賬。

隨著技術的發展，Deepfake Voice詐騙變得越來越復雜，許多人可能在社交媒體上就已經遇到過一些Deepfake Voice偽造的聲音。

那麼，如何防範Deepfake Voice欺詐呢？

有兩種方法。

第一種方法是創建一個檢測器，分析聲音以確定它是否是使用deepfake技術製作的。不幸的是，因為Deepfake Voice技術會不斷發展，檢測器無法永遠保持正確。

第二種方法則相對更加現實，主要是實現一個聽眾聽不到、人們也無法編輯的音頻水印。音頻水印本質上是聲音被創造、編輯和使用的記錄。這樣一來，人們就更容易知道一段聲音是否是合成的。

參考資料：

https://www.axios.com/artificial-intelligence-voice-dubbing-synthetic-14bfb3c6-99db-4406-920d-91b37d00a99a.html

https://www.businesswire.com/news/home/20210514005132/en/Veritone-Launches-MARVEL.ai-a-Complete-End-to-End-Voice-as-a-Service-Solution-to-Create-and-Monetize-Hyper-Realistic-Synthetic-Voice-Content-at-Commercial-Scale

https://www.veritone.com/blog/combining-conversational-ai-and-synthetic-media/

https://www.veritone.com/blog/everything-you-need-to-know-about-deepfake-voice/

https://www.veritone.com/blog/how-ai-companies-are-tackling-deepfake-voice-fraud/

https://www.veritone.com/blog/how-to-create-a-synthetic-voice/

特別鳴謝ifan

https://www.ifanr.com/1454818

本文來自微信公眾號“新智元”（ID:AI_era），編輯：好困小咸魚，36氪經授權發布。

本文經授權發布，不代表36氪立場。

如若轉載請註明出處。來源出處：36氪

EBC東森新聞·
周五再放一天？12縣市已達停班停課標準
周五再放一天？12縣市已達停班停課標準
Reactions92
三立新聞網 setn.com·
又在信義區！孫安佐竟與混血女星當街打起來　自豪有這項「超能力」
娛樂中心／綜合報導狄鶯與孫鵬的兒子孫安佐在泰國脫序行為之後，2個多月來各種紛爭再度成為話題人物，還曾因在信義區展示有攻擊性的武器被送入警局。台英混血歐斯卡（Oscar）在台北101
Reactions227
引新聞·
小吳終於道歉了！十盛標示不實　哽咽認了：早知道有奶精
（記者劉雅文／綜合報導）百萬YouTuber小吳和網紅紀卜心，共同創立的手搖飲品牌「十盛熟成奶茶專賣店」，日前 […]
Reactions300
華視·
行李等2小時還沒到氣炸　華航主管當眾下跪任罵
凱米颱風雖然已經離開台灣，但影響還在！昨(26)日凌晨華航有兩個航班延遲抵達桃園機場，三、四百名乘客在行李轉盤，又等了兩個小時，氣到對地勤人員破口大罵！華航主管緊急出面，安撫乘客的情緒，甚至還當眾下跪...
Reactions56
三立新聞網 setn.com·
高虹安有罪「檢察官同天升官」遭狂帶風向　律師揭真相：實在很可恥
政治中心／林昀萱報導新竹市長高虹安被控涉貪助理費46萬餘元，台北地檢署依違反《貪污治罪條例》等罪起訴，一審台北地方法院昨（26）日重判高虹安7年4月、褫奪公權4年。
Reactions117
中天新聞網·
高雄被颱風重創卻找不到黃捷！本人出面回應網友反揪疑點：出國玩不敢說？
凱米颱風直撲台灣，而南台灣的台南、高雄等地更是被暴雨襲擊，多處出現嚴重淹水，然而此時身為高雄立委的黃捷卻不見人影。對此，黃捷本人回應「自己的團隊」從早到晚奔波，對高雄噴政治口水「大可不必」。然而網友卻發現更多疑點，怒嗆質疑黃捷到底人在不在台灣？
Reactions878
TVBS新聞網·
台北風雨小「放颱風假賺爛」？專家揭關鍵打臉：沒這事能這麼和平
颱風凱米直撲台灣，全台多個縣市一連放了2天颱風假，然而今（25）日早有民眾疑惑「北北基桃這樣放颱風假是賺到了？」、「北部風雨那麼小放什麼颱風假？」但氣象專家點出1關鍵，直言若沒發生這件事，「北部還能那麼和平嗎？」
Reactions245
中天新聞網·
美媒評選奧運開幕式各國出場團服　盛讚中華隊：把時尚帶進巴黎
2024巴黎奧運開幕式已在稍早舉行完畢，本屆奧運也是史上首次在「水上」的戶外開幕式，各國代表隊選手進場後，隊服也成為外界矚目焦點。其中美國媒體《雅虎體育》就對中華隊的出場服裝稱讚滿滿，「中華隊將時尚帶到巴黎！」
Reactions24
三立新聞網 setn.com·
2親人都罹大腸癌！婆婆「剩菜加1物」吃出癌　譚敦慈揭飲食3地雷
生活中心／張家寧報導大腸癌是近幾年台灣癌症的頭號話題，許多名人也都曾因該疾病身亡，對於人體健康的影響程度不容小覷，外界提到大腸癌大多會聯想到攝取加工食品、抽菸嗜酒等壞習慣。
Reactions21
中央社·
王冠閎分享奧運接駁車慘況須席地坐盼團本部安排
巴黎奧運今天舉行開幕式，接駁車問題仍然無解，台灣游泳好手王冠閎、韓安齊分享，接駁車大誤點、開錯路，加上游泳項目人數多，甚至只能席地而坐，也盼比賽日當天團本部能安排接駁。
Reactions55
三立新聞網 setn.com·
強颱釀高雄淹水！陳柏惟怒轟酸民「對同胞無情、程度差」：高雄人沒欠你
記者楊士誼／台北報導颱風「凱米」侵台，造成多起災情，25日颱風出海後帶來的西南氣流造成中南部多處淹水，高雄更降下超過2009年莫拉克颱風降雨量的超級大雨，造成多處淹水、滯洪池全滿，
Reactions826
新頭殼·
凱米前腳剛走又有颱風? 菲律賓附近恐有熱帶低壓生成下週逼近台灣
[Newtalk新聞] 凱米颱風暴風圈今（26）天凌晨脫離台灣本島。中央氣象署最快在今天上午8點半解除海上颱風警報，颱風尾夾帶的豐沛雨量預計會持續到今晚才會趨緩；而凱米前腳才剛走，恐怕又有颱風成形，週末菲律賓東方海面可能會有熱帶低壓生成，預計將朝台灣東南海面前進，下週一到四對台灣會影響。氣象署今天凌晨2點半解除凱米颱風本島警報，凱米颱風今天清晨5點的中心位置在馬祖的西南西方約170公里之處，以每小時16轉12公里速度，向北北西轉西北進行。氣象署預計在上午8點半解除海上警報。中央氣象署預報員陳姵安表示，凱米颱風尾帶來的豐沛雨量預計在今晚就會趨緩。陳姵安提到，週六風向改為東南風，屆時東部、屏東將會出現風場幅合效應，將會有水氣影響。另外，週末在菲律賓東方海面，可能會有熱帶低壓生成，若生成將朝台灣東南側海面前進，下週一到週四對台灣有影響。不過，目前歐洲、美國對熱帶低壓的強度預設仍有分歧，還要持續觀察。此外，氣象粉專「台灣颱風論壇｜天氣特急」25日深夜發布消息指出，目前在菲律賓東南方有一個熱帶擾動（tropical disturbance）95W正在發展，綜合歐美德及幾個AI模式大致都認為
Reactions60
三立新聞網 setn.com·
他喊1縣市完虐北中南：最宜居城市！網戰翻：天然災害真的相對少
鄉民中心／梁雪婷報導台灣各縣市因地理位置、環境設備等，遇到自然災害的損害各有不同。日前，就有網友指出，桃園甚少傳出自然災害的災情，也沒有台北土壤液化的問題，空氣也比
Reactions26
Yahoo奇摩運動·
奧運》戴資穎、孫振掌旗率隊征戰花都開幕式Lady Gaga、席琳狄翁接連開唱同慶
2024巴黎奧運會於台灣時間27日凌晨1點30分正式開幕，中華代表團搭乘第74艘船進場，掌旗官由台灣羽球一姊戴資穎及霹靂舞一哥孫振擔當，代表團共有21位中華健兒、12位教練、6位行政人員參與開幕儀式，巴黎現場雖然下起不小的雨勢，但仍舊抵擋不了大家的熱情，每位選手皆用力揮舞手上會旗，透過轉播鏡頭讓世界看到台灣。
Reactions59
中廣新聞網·
揭發高虹安涉貪　國民黨前議員林耕仁「16字」曝心內話
新竹市長高虹安涉貪案一審判有罪，內政部宣布高虹安停職，高虹安表態將會提出上訴。揭發高虹安涉貪的國民黨前新竹市議員林耕仁今（26）天透過臉書回應：「天道輪迴、舉頭三尺、尊重司法、嚴謹判決」。高虹
Reactions181
三立新聞網 setn.com·
認屍案傳回泰國　唐治平親戚不捨出手了！金援內幕曝光
記者鍾智凱／綜合報導唐治平認母案受到高度關注，日前他受訪時表示：「既然檢警堅持要我認，我就認。」先前他曾指出母親會有百萬保險金部分，他說要拿到母親死亡證明才能領，且
Reactions102
TVBS新聞網·
根本不在台灣？黃捷發文嗆「團隊在奔波」網揪疑點：出國玩不敢說
凱米颱風尾橫掃台灣中南部造成嚴重災情，高雄慘淹大水淪為重災區。然而高雄立委黃捷卻被質疑未被到場勘災，國民黨智庫副執行長凌濤更是發文「急尋黃捷」。對此，黃捷今（26）日發文反擊，只是1句「團隊同仁」在地方奔波，再遭網友揪出疑點，質疑她出國玩不敢說？
Reactions317
FTNN新聞網·
躲股災選「它」！交易量暴增達42萬張　股價逆勢漲2.93%　網喊：歐印
[FTNN新聞網]記者蔡昀庭／台北報導因凱米颱風侵襲，台股休市2天，今（26日）開盤補跌，重挫982點，摜破22000點，最低達到21931.9點，收22,119.21點。股民為躲...
Reactions29
三立新聞網 setn.com·
凱米來襲爽放颱風假？台股休市2天沒開盤　最大苦主30億沒了
財經中心／蕭宥宸報導颱風凱米重創台灣，各縣市24、25日停班停課，台股也跟著停牌2天。股市2天未開盤，推估政府證交稅收減少約30億，且不包括證券商手續費。此外，美股迎來大幅度回檔，
Reactions133
Yahoo奇摩新聞（記者潘鈺楨）·
席琳狄翁回來了！奧運開幕華麗復出「壓軸飆高音」女神卡卡雨中性感獻舞
2024巴黎奧運於台灣時間27日凌晨開幕，演出陣容如同先前外傳，由女神卡卡（Lady Gaga）在塞納河畔表演揭開序幕，席琳狄翁（Celine Dion）壓軸登場，在巴黎鐵塔為開幕式畫下完美句點。
Reactions32

Deepfake Voice

中文版Deepfake Voice嘗鮮嗎？

當人工智能被用於語音詐騙

其他人也在看