AI軟件克隆你的聲音,全球詐騙案件已屢次得逞
在2月28號剛於舊金山結束的RSA大會上,一家名為Pindrop的專門檢測語音詐騙的初創公司再次向業內發出警告:網絡詐騙份子已經開始借助AI軟件克隆聲音進行詐騙了!
Pindrop的CEO Vijay Balasubramaniyan表示:“Pindrop在過去一年中調查了大約十二起類似的案件,都是欺詐者使用AI軟件“克隆”某人的聲音以進行詐騙。同時,我們還看到了Deepfake音頻作為針對公眾人物的工具出現。如果你是家公司的CEO或者你在YouTube上有很多視頻,騙子就極有可能用它來合成你的聲音。”
並且,雖然Pindrop只看到了少數這樣的案件,但涉案金額很高。Pindrop估算涉及的詐騙金額可能高達1700萬美元。
來自矽谷的警告消息又一次將AI的安全性問題帶到了輿論的風口浪尖。毫無疑問,自從AI成為全球技術發展的主流以來,DeepFake的問題就一直是人們關心的重點。在之前的文章中,小探深度討論了關於人臉識別的安全問題(點擊這裡查看)。而今天我們要討論的AI語音合成的問題,則可能比人臉識別更加危險。
AI聲音合成,一面“天使”一面“魔鬼”
語音合成技術現在已經非常成熟了。例如高德導航裡的各種明星語音包,“林志玲為您導航祝您好心情”、“郭德綱前方有落石車碎人心碎”、“你鎮定一下羅永浩要開始導航了”,基本上能夠達到以假亂真的效果。大部分時候用戶也分不出來到底是明星自己錄的,還是合成的語音。當然這種場景中,語音合成只是為了提升用戶體驗做的一個小功能。不僅沒有對用戶造成損失,反而讓用戶開車的時候擁有更好的體驗。
但是下面這個故事就不是這樣了。2018年Charlie Warzel,Buzzfeed的科技記者,受了前密西根大學社交媒體責任中心CTO Aviv Ovadya言論的影響,做了一件想想都非常後怕的事情。他使用AI合成軟件模仿了自己的聲音,然後打電話給他媽媽,結果他媽媽愣是沒聽出來。世界上最熟悉你自己聲音的人是誰?可能不是你自己,因為你自己聽到的聲音和別人聽到的是有區別的。最熟悉你聲音肯定是你的母親。
既然身邊最熟悉的人都被這樣“偽裝”騙了,那只要使用這種軟件不就擁有了“變身”的超能力了嗎?
事實上,利用AI語音合成冒充熟人進行電信詐騙的案例這幾年時常發生,並且涉及金額都非常的巨大。
根據《華爾街日報》2019年報導,英國某能源公司高管在一個小時之內通過匈牙利供應商向一詐騙犯轉賬24萬美元,約175萬元人民幣,僅僅是因為詐騙犯通過AI技術仿造了其母公司CEO的聲音。該高管表示,在整個通話過程中,老闆輕微的德國口音都展現得淋漓盡致,該高管完全沒有任何的懷疑,直到被要求再次轉賬時才發覺了事件異常。
在報案調查後,警方只能發現該筆轉賬流動到了墨西哥等地區,但是具體嫌疑犯的身份始終無法確定。這個案件帶來的損失目前只能由保險公司承擔。這位受害者後來在一封電子郵件中寫道,雖然“老闆”的要求相當奇怪,但聲音如此逼真,他覺得自己別無選擇,只能服從。
美國網絡安全公司Symantec的研究人員表示,他們發現至少有三起公司高管的聲音被人模仿以用於電信詐騙。雖然Symantec拒絶透露這些受害公司的名稱,也不願透露上述英國能源公司是否是其中之一,但它指出,其中一起案件的損失總計達數百萬美元。
雖然有種種風險,但技術的發展一點也沒有慢下來。目前,許多矽谷巨頭和人工智能初創企業都在開發這種語音合成軟件,用以模仿人的聲音節奏和語調,並被用來製作令人信服的演講。
(Lyrebird 官網)
幾個月前,Resemble團隊發佈了一個名為Resemblyzer的開源工具,該工具使用人工智能和機器學習來通過獲取語音樣本的高級表示並預測它們是真實的還是生成的來檢測深度偽造。而在AI語音合成屆早已成名已久的Lyrebird,其開發出的AI合成軟件更是可以在合成語音中模擬出說話人的感情。
AI技術被濫用,它的工作原理是什麼?
無數的研究表明,重現人們講話的韻律只需要一個小的數據集。像Resemble和Lyrebird這樣的商業系統僅需要幾分鐘的音頻樣本,而百度最新的Deep Voice實現等複雜的模型可以從3.7秒的樣本中複製語音。
斯坦福大學網絡政策中心研究員、曾任奧巴馬和特朗普政府時期白宮網絡安全政策高級主管的Andrew Grotto(安德魯·格羅托)表示:“罪犯將使用任何能讓他們以最低成本實現目標的工具。也許這是一項在10年前聽起來很新奇的技術,但是現在任何有想法的非專業罪犯都可以使用。”目前市面上的AI語音合成軟件的工作原理是將一個人的聲音分解成不同的組成部分,比如音軌或音節,然後將這些組成部分重新排列,形成具有相似語音模式、音調和音色的新語音。除了借助這種新技術,騙子們還依賴於最常見的詐騙技巧來提高他們的效率,利用時間壓力,比如臨近的截止日期,或者社會壓力,比如安撫老闆的願望,來讓受害人打消任何疑慮。在某些情況下,犯罪分子會瞄準公司會計或財務的負責人,因為他們知道這些人有能力立即匯款。
(Pindrop的CEO演示如何合成公眾人物的視頻截圖)
視頻連結:https://www.youtube.com/watch?v=PDs8-Exx6kE&feature=youtu.be
除了進行詐騙,DeepFake音頻還存在向公眾傳遞負面信息的風險。RSA大會演講現場,Pindrop的CEO向公眾演示了一款合成公眾人物聲音的AI系統,這項技術通過在網上搜索特朗普之前的錄音來模仿他的聲音,耗時不到一分鐘,並用美國總統特朗普的聲音說了一些笑話。如果這項技術被用於仿造領導人物的聲音,並用到犯罪事件中,無疑可能非常危險,甚至給國家安全帶來危害。
AI聲音合成如此猖獗,應該如何防範?
雖然風險重重,但語音模擬技術的發展勢不可擋。例如,Google已經為自動識別DeepFake語音的研究項目提供了資金和資源的幫助。但Google也開發了一些世界上最具說服力的語音人工智能,包括它的Duplex服務,它可以用電腦生成的栩栩如生的聲音,打電話給餐廳預定座位。
卡內基國際和平基金會(Carnegie Endowment for International Peace)矽谷辦公室主任Charlotte Stanton則提醒業界:“在商業領域,人們有很強的的意願想要製造出好的技術產品,但一定要平衡,避免它被用於非法途徑。所以,研究人員在研發像AI語音合成技術這樣強大的技術時需要更加謹慎,很明顯,AI語音合成已經到了可以被濫用的地步。”
幸運的是,人工智能開發人員正在努力構建能夠檢測和打擊Deepfake音頻的解決方案。例如,Pindrop公司已經開發出一種人工智能算法,可以從DeepFake的音軌中辨別真實的語言。它是通過檢查說話時單詞的實際發音,以及這些發音是否與真實人類的說話模式相匹配,因為人類的聲音無法象機器偽裝那樣標準和快速。
Pindrop還預測到,也許有一天音頻安全服務會象數據安全服務一樣有巨大的市場。該公司CEO表示:“會有一些公司建立檢測這些安全漏洞的機制。如果網上出現了偽造的音頻,那麼這個機制就會開始保護你的聲音數據。”
除了Pindrop等小公司。矽谷科技巨頭也積極的致力於尋找檢測Deepfake音頻的方案。例如,谷歌在去年年初與GNI合作,發佈了一系列合成語音,其中包含由其深入學習的文本到語音(TTS)模型所說的數千個短語,來自英文報紙文章68種不同的合成語音,並涵蓋了各種區域口音。該數據庫提供給了2019 ASVspoof挑戰的參與者使用,該競賽旨在開髮針對假語音的對策,特別是可以創建區分真實和計算機生成的語音的系統。
同時,DeepFake音頻的潛在威脅也可能會改變用戶的行為,使用戶在向互聯網上傳聲音時更加謹慎。Pindrop調查的詐騙案例中就有這樣一位受害者,他幾乎沒有在任何社交平台上公開過自己的聲音,僅僅是因為召集員工開會時的講話被竊取,就成為了犯罪分子的目標。這樣的案例不禁會讓人聯想:“既然這麼謹慎的人都會存在被詐騙的風險,那麼我們乾脆就不要在公眾平台上表露自己的任何生理特徵,包括聲音和長相。這實在太恐怖了!”
不敢想像,如果我們的公眾社交平台上面看不到任何超出文字以外的更生動的表達,那麼幾十年來的科技和信息發展不就白費了嗎?這無疑是對多年來為人類科技文明進化做出貢獻的科技工作者的侮辱。
小探相信,隨著AI不斷的發展,我們所面對的DeepFake威脅將會越來越多。因此,無論是視頻或音頻,建立一個完善的安全審核機制是非常有必要的!
本文經授權發布,不代表36氪立場。
如若轉載請註明出處。來源出處:36氪
◤2/26~3/8寵愛女神節◢
👉資訊電玩直降2000起
👉寵愛家電直降88折起
👉行動娛樂最高瘋殺5000