語義鴻溝、異構鴻溝、數據缺失，多模態技術如何跨過這些坎？

36氪

2019年3月21日下午9:04

AI前線導讀：隨著近年來深度學習、大算力、大數據快速發展，計算機視覺、語音識別等技術都取得了非常大的進展，綜合了多種信息模態的多模態研究已成為一個新趨勢。對於快手而言，多模態研究也是非常重要的課題。快手是一個記錄和分享生活的短視頻社交平台，通過人、內容及二者互動數據的理解，借助算法匹配推薦用戶可能感興趣的內容。一方面，視頻可稱是典型的多模態問題，綜合了視覺、聽覺、文本多種模態信息。在視頻的基礎上，加上用戶行為數據就是一種更加複雜的多模態問題。目前快手在多模態技術上的應用，一方面在於幫助用戶更好地表達與記錄，另一方面在於對視頻內容的精準理解。

多模態技術幫助用戶更好地表達與記錄

1、語音轉文字打造便捷字幕生成體驗

在視頻中，對音頻部分的理解是視頻信息傳遞的重要部分。快手上有很多以語言講述為核心的視頻，需要大量匹配的字幕輔助觀看。視頻字幕製作其實是一件工作量很大的事情，一般需要在電腦前使用專業的編輯軟件手動逐個輸入文字。而如果通過語音識別技術，把語音直接轉成文字，就可以很輕鬆地通過手機編輯生成一個帶字幕的視頻。

對視頻進行語音轉寫時，面臨以下的技術難點：首先，拍攝視頻時，麥克風和說話者之間的距離比較遠，語音信號因為傳輸距離遠產生衰減，同時麥克風對環境噪聲的抑制能力也會減弱，造成語音信號弱，背景噪聲強的現象；其次，在房間內拍攝時，可能因牆壁對語音信號的反射造成混響；第三，快手的用戶包括了全國各個區域，自然地包括了多樣的口音；最後，短視頻的內容種類豐富，表達方式隨意，有些視頻還有很強的韻律起伏。這些因素都會影響語音識別系統的準確率。快手針對這些問題，研發了語音質量檢測、單通道混響消除、噪聲掩蔽建模等多種技術，以及通過序列化建模方法提升多種口音的識別準確率。

2、語音合成實現個性化配音

在視頻配音方面，如果用戶不喜歡男性配音，而希望實現女性配音的效果，就可以通過語音合成技術滿足個性化的訴求。

語音識別及合成技術都會使記錄的過程變得更加便捷、有趣，但這兩項技術在做視覺或者多媒體的圈子裡面關注度不是特別高，在語音圈子裡面，語音識別、語音合成也往往是兩波人在做。

隨著深度學習技術的出現，語音識別和合成其實在某種程度上可以看做是非常對稱的兩個問題，因為語音識別是從語音到文字，語音合成是從文字到語音。語音識別，我們提取一些聲學的特徵，經過編碼器或者Attention 的機制，實現從語音到文字的轉化；語音合成的技術和算法，其實也涉及編碼器或者Attention 的機制，二者形成了比較對稱的網絡。所以我們把語音識別和合成看成是一個模態轉換的特例，從神經網絡建模角度來看，是一個比較一致、容易解決的問題。快手的語音識別、語音合成技術原理圖如下：

3、根據視頻內容自動生成音樂

音樂也是短視頻非常重要的一部分，為一個場景匹配合適的音樂並非易事。過去，有不少用戶在拍攝時為了與音樂節拍一致，努力配合音樂節奏拍攝，極大限制了拍攝的自由度。快手希望用戶可以隨意按照自己的方式錄製視頻，對用戶拍攝的視頻內容進行理解後，自動生成符合視頻內容的音樂。

利用神經網絡強大的學習能力，實現視覺信息到音樂要素的轉化，包括：歌曲節奏、速度、調性、情感、風格、動機等。例如：將視頻中用戶身體扭動的時間點與生成音樂中的“鼓點”位置對齊；動作快慢決定歌曲速度等。

通過上述音樂要素，從備選曲庫中篩選合適的樂譜組成旋律空間。音樂的動機是由幾個小節組成的旋律片段，它是音樂的核心，整首歌曲都圍繞動機展開。在自動編碼器網絡中，動機被表示為一個向量，旋律空間被表示為若干的向量序列。在動機與旋律空間的約束下進行採樣，生成新的向量序列，再通過解碼網絡生成新的旋律。同樣的動機，在相同的旋律空間下，也可以生成情感、風格相似，但表現上又有差異的音樂作品。常見的AI 旋律生成算法，難以保存作曲手法，生成較長的旋律片段時，整個作品的走勢會難以控制。採用旋律空間加動機的方式，能夠有效解決該問題。對旋律進行自動化的配器和混音，最終生成符合視頻內容的音樂作品。

音樂生成涉及很多具體的技術，其中一個問題是懂音樂的人不懂計算機科學，懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好，需要有做音樂和做AI 的人一起集成創新，這方面快手也做了非常多的工作。

4、2D 圖像驅動3D 建模實現Animoji 效果

iPhoneX 問世時的一項標誌性功能，是通過結構光攝像頭實現Animoji，現在國內手機廠商也越來越多地採用結構光的方式去實現Animoj。而快手是國內較早實現不使用結構光，只用RGB 圖像信息就實現Animoji 效果的企業。

用戶不必去花上萬元去買iphoneX，只要用一個千元的安卓手機，就可在快手的產品上體驗Animoji 的特效，從而能夠在不暴露臉部信息的同時展現細微的表情變化，例如微笑、單隻眼睛睜單隻眼睛閉等，讓原來一些羞於表演自己才藝的人，也可以非常自如地表達。

其實解決這樣一個問題是非常難的，即使是蘋果，也採用了結構光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術，快手面臨著硬件的約束，只能通過2D 的RGB 視覺信息對問題進行建模、求解。

整個模擬人臉的過程借助了3D 結構恢復與3D 信息融合，用3D 重建技術恢復出3D 結構，融合2D 信息後，分析人臉特徵，進而生成虛擬形象。

3D 人臉重建需要藉助快手內部的上萬級3D 人臉數據集，包含每個人的年齡段、人種、臉型和表情，通過人臉關鍵點識別技術，幫助3D 人臉重建，不論表情是哭是笑都可以重現出來。

此外，生成虛擬形像還要分析用戶的人臉屬性，借助分類/ 回歸/ 分割等方法，區分出性別、年齡、膚色、臉型等信息。

之後，因為生成的3D 卡通圖像是會隨著人的表情而變化的，需要分析人臉表情，才能在卡通形像上展示出一模一樣的表情。

這裡需要通過2D 的RGB 視覺信息對問題進行建模求解，獲得人臉關鍵點和實時重建的3D 模型，把各種模態信息做建模、做對齊，求解出人臉的表情，驅動虛擬卡通形像做各種逼真的動作。

此外，快手Animoji 的體驗非常流暢，也需要歸功於深度神經網絡模型的量化。為了讓模型在手機端流暢運行，需要進行圖像預處理，合併多種預處理操作，對預處理的圖像內存進行統一分配和回收，利用NEON 加速和蘋果自帶的accelerate 加速，讓運行庫只佔2M 的空間。

最後，在保證預測精度的前提下，快手技術團隊對AI 模型進行局部的INT8 量化，使得運行速度可提高1 倍以上，同時AI 預測模型的佔用空間也壓縮到將近原來的四分之一。

多模態技術如何實現精準理解視頻內容？

除了幫助用戶更好地記錄，快手也希望通過一個更好的分享機制，讓用戶發布的視頻能夠被更多感興趣的人看到，這也涉及視頻推薦裡面多模態的一些問題，其中有兩點值得分享：

第一，我們強調音頻和視覺的多模態綜合的建模，而不是僅僅是單獨的視覺或者音頻，視覺和聽覺兩種媒體的融合，會是未來一個重要趨勢。

第二，工業界和學術界所做的研究有很大區別，快手有非常多的用戶數據，這些用戶數據是不在傳統多媒體內容研究範疇裡面的，但是工業界可以很好地利用這些數據，更好地做內容理解。

舉個例子，一個男子表演口技的視頻中，如果關閉聲音，僅憑畫面信息，我們並不知道他是在做什麼，可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話，人們可能無法獲得真實的信息。我們對世界的理解一定是多模態的理解，而不僅僅是視覺的理解。

快手數據庫中有80 億短視頻，想要理解這麼多的視頻內容，必須藉助多模態技術。我們從文本、視覺、聽覺角度去做了很多單模態的建模，包括多模態的綜合建模、有序與無序，以及多模態特徵之間怎樣進行異構的建聯，在很多任務內部的分類上也做了改進。

另一方面需要強調的是， ImageNET 等很多學術界研究內容理解的任務有完善的標註數據集，但是這個數據集對於工業界而言還是太小，且多樣性不夠。快手每天有1.6 億用戶、超過150 億次的視頻播放，這個數據是非常大的。如果有150 億的標註數據，做算法就會有很大的幫助，但是現實上是不具備的。

怎樣將研究分析技術與海量數據更好地做到融合？快手通過融合行為數據和內容數據，進行綜合建模。同樣大小的人工標註量，利用海量的用戶行為數據，能夠獲得比純內容模型更好的性能，對視頻有了一個更好的理解，進而在多媒體內容的理解和分析方面的算法研究有了非常大的進展。

多模態技術研究的三個難點：語義鴻溝、異構鴻溝、數據缺失

其實在目前來看，多模態研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝，雖然近十年來深度學習和大算力、大數據快速發展，計算機視覺包括語音識別等技術都取得了非常大的進展，但是截至現在，很多問題還沒有得到特別好的解決，所以單模態的語義鴻溝仍然是存在的。再者，由於引入了多種模態的信息，所以怎樣對不同模態之間的數據進行綜合建模，會是一個異構鴻溝的問題。

另外，做語音、做圖像是有很多數據集的，大家可以利用這些數據集進行刷分、交流自己算法的研究成果。但是多模態的數據集是非常難以構建的，所以我們在做多模態研究時是存在數據缺失的問題的。

多模態技術的未來應用方向展望

首先，多模態技術會改變人機交互的方式，我們與機器交互的方式將會越來越貼近於更令人舒適、更自然的方式。比如我們剛才講的Animoji 技術，其實它帶來的是一種可以通過人臉控製手機自動生成Avatar（虛擬動畫）的體驗。原來實現這些效果，需要在好萊塢專門設一個特效室來實現這一點，而現在普通用戶都能享受這樣的技術，所以人機交互會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

第二，多模態技術會帶來新的內容形態，原來接入信息更多是從文本、頁面中獲得，現在有視頻，未來可能還會有AR 或者其它的形式。多模態AR 很重要的一點就是強調沉浸感，這種沉浸感其實是通過聽覺和視覺綜合作用才能產生的。

第三，多模態亟需新的算法和大型的數據，因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講，需要海量的數據才能解決好這個問題，因為現在深度學習、內容理解的成果，某種意義上是監督學習的成果，有足夠的樣本、算力，所以現在的算法能力基本上還停留在對算力和數據有著非常大要求的階段。而多模態的大型數據是非常難建的，而且多模態解的空間是更大的。因為一個模態解的空間是n，另外一個是m，它最後是一個乘積、一個指數級的變化，所以數據集要多大才足夠是一個很難的這個問題，可能需要新的算法來對這個問題進行建模。

本文經授權發布，不代表36氪立場。
如若轉載請註明出處。來源出處：36氪

EBC東森新聞·18 小時前
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
Reactions202
Yahoo奇摩新聞（記者簡子喬）·21 小時前
鄭靚歆辦同志婚禮淚娶德裔老婆！辣媽胡文英穿「全透視比基尼」驚呆全場
前《我愛黑澀會》美眉鄭靚歆，26日與大5歲的德裔老婆鄭采熙（Aky）舉辦同志婚禮。特別的是，鄭靚歆的美魔女辣媽胡文英，以透視藍色比基尼打扮現身，相當搶鏡。
Reactions176
三立新聞網 setn.com·14 小時前
只剩你還在台灣？陶晶瑩曬桃機驚人「逃難潮畫面」　網友全看傻了
記者鍾智凱／綜合報導陶晶瑩把兒女送出國，近來她飛兒子小龍念書所在的新加坡，今曬出桃園機場畫面，只見查驗區非常多人，滿滿的人龍，讓網友看了相當驚奇，直呼：「現在是剩下
Reactions156
TVBS新聞網·2 天前
根本用灌的！明起暴雨狂襲全台　2地區「雨勢更猛更持久」
今日（25日），受鋒面影響，全台大暴雨！南部地區更是雨水豐沛，根據中央氣象署資料，截至25日下午16時26分，全台前5名累積雨量分別為高雄燈塔135毫米、新興133毫米、鼓山131.5毫米、前鎮121毫米、苓雅119.5毫米，全部都在高雄市。氣象署也預估未來一週預計有兩波鋒面陸續影響臺灣，天氣相當不穩定。
Reactions23
TVBS新聞網·20 小時前
女兒婚禮58歲美魔女連換3套　驚見「統促黨」張安樂也來！親密關係曝光
58歲資深女星胡文英，女兒鄭靚歆與老婆Aky今（26）日大喜之日，在台北信義區補辦婚宴。她連換3套禮服，成為全場焦點；婚宴上也驚見「統一促進黨」主席白狼張安樂，胡文英親揭二人親密關係！
Reactions136
引新聞·2 天前
妙齡女「頭套塑膠袋」陳屍條通大樓　母崩潰認屍、發現七字遺書
（記者劉雅文／綜合報導）台北市中山區條通大樓驚傳命案！一名25歲的曾姓女子，住在條通大樓內，經家人報案後由警方 […]
Reactions184
TVBS新聞網·8 分鐘前
暴雨要走了！把握「這2天」陽光露臉　猛飆33度高溫
這幾天下雨，是不是整個人都快發霉了？再撐一下，暴雨要結束了！今（27）日、明（28）日假日還是全台有雨；不過，「這2天」轉晴沒雨了，陽光大露臉，可得好好把握僅剩的好天氣。
Reactions10
三立新聞網 setn.com·2 小時前
血便半年以為內痔　本土女星確診大腸癌！悔不當初：我輕忽了
記者鍾智凱／台北報導女星顧婕受封「整形皇后」，身材相當火辣的她向來在螢幕上活力四射，怎料近來卻爆出她健康亮紅燈，對此顧婕向《三立新聞網》鬆口，證實她確診直腸癌3期，近期就要動刀摘除
Reactions18
中時新聞網·2 天前
很像梅雨的春雨要來了！專家：更強更廣這2天達高峰
另一波鋒面今天接近，天氣不穩定，氣象粉專「觀氣象看天氣」表示，這波降雨範圍更廣、強度更強，很像梅雨的春雨要來了，明後天將達降雨高峰。前氣象局長鄭明典也表示，最近有點梅雨的味道。
Reactions8
中天新聞網·17 小時前
有借沒還！桃猿循環杯去年逾1萬個一去不復返　今年大改版增加辨識度
桃園市政府與樂天球團攜手推動環境友善球場，去年63場主場賽事推動使用循環杯達6萬杯。今年度搭配循環杯樣式改版，增加循環杯辨識度，號召場內攤商一同響應。
Reactions30
三立新聞網 setn.com·19 小時前
突拋震撼彈！柯文哲脫口：2026選很差「2028收攤」　曝藍營2大總統人選
記者詹宜庭／台北報導民眾黨主席柯文哲挑戰總統大位失利後說好4年後要再拚一次，面對外界關注的2026九合一選舉及2028總統大選佈局，柯文哲今（26日）接受資深媒體人
Reactions139
三立新聞網 setn.com·18 小時前
七寶媽靠業配賺翻了！64家合作廠商全被挖　跟她切割「僅10家」
記者趙浩雲／台北報導網紅「林叨囡仔」（七寶媽）因為當眾在直播中歧視資源班的小孩，即使二度道歉仍被罵翻，而有網友整理出與她合作廠商清單，食衣住行育樂就有64家。七寶媽網紅24日在直播
Reactions114
TVBS新聞網·2 天前
《浪姐5》楊謹華爆紅！大批粉絲圍繞狂喊「媽咪」　震憾畫面曝光
46歲女星楊謹華登上大陸實境秀《乘風2024》（浪姐5），初舞台嗨唱張惠妹的〈一個人跳舞〉，唱跳實力獲得不少好評，她在大陸的人氣也因此水漲船高，近日網上瘋傳一段她收工的影片，粉絲等她到深夜，並狂喊楊謹華「媽咪」，釣出她本人搞笑回應。
Reactions16
台視新聞網·8 小時前
半夜國家級警報響起！凌晨2:21花蓮近海規模6.1地震
27日凌晨2點21分花蓮近海發生規模6.1有感地震，地震深度24.9公里，最大震度4級包括花蓮、南投、宜蘭、台中、新竹縣和新北、桃園市，台北也有3級震度。圖／地震測報中心提供國家級警報發出。圖／台視新
Reactions10
三立新聞網 setn.com·20 小時前
沈文程爆料張小燕做這件事！一輩子記心裡　首次上電視差點被看不起
記者鄭尹翔／台北報導雙金歌王沈文程（七海刀狼）大事近！將於五一勞動節重返台北TICC，盛大舉辦《國際沈文程日五月一日彼下暗》台北返場演唱會，說到人生首巡大型個唱，
Reactions46
TVBS新聞網·14 小時前
梅雨鋒面報到！雨彈還沒完　「這天起」雷雨炸全台
今（26日）鋒面接近，各地都有出現短暫陣雨或雷雨，中南部地區影響更大，高雄暴雨還出現災情，不過明（27日）開始，鋒面減弱，不過仍有降雨的機會，到了下週一（20日）降雨才會稍稍趨緩。
Reactions18
今日新聞NOWnews·2 天前
存股族快看　這7家金控今年配息出爐
[NOWnews今日新聞]去（2023）年金融業獲利亮眼，國內14家上市金控去年合計賺超過3652億元，年成長近3成，也讓股東們尤其是存股族，對股利發放有更多期待。目前已有7家金控今年股利政策，除新光...
Reactions3
姊妹淘·1 天前
天生勞碌命！3星座總是閒不下來　第一名根本苦情社畜
5 月 1 日除了是媽祖誕辰，可以進廟宇參拜外，也是「勞動節」能讓勞工們享有一天假期。但是有些星座，天生閒不下來，據小孟老師指出第一名更是不僅常受主管使喚，更是任勞任怨、使命必達，堪稱「最苦情星座」快往下看身旁自己或親友有沒有上榜吧！
Reactions4
女人我最大·1 天前
你上榜了嗎？網友公認「最討人厭星座」TOP3：處女座超難搞、冠軍體質天生顧人怨
看到標題，你的腦海中已經出現指定人選了嗎？磁場這種東西很奇妙，有時和某些人相處就是不對盤，越看越不順眼，以下公開網友一致公認「超討人厭星座」前三名，一起來看看上榜的到底是你，還是他呢？ Top3
Reactions9
今日新聞NOWnews·2 天前
老公顧立雄接國防部長！王美花卸任後新職曝
[NOWnews今日新聞]經濟部長王美花520後將卸任，丈夫顧立雄今（25）日已獲宣布出任國防部長，她的新職也曝光。根據《中國時報》報導，她獲台新金控董事長吳東亮力邀，卸任後將轉任台新金控獨立董事。王...
Reactions1,079

多模態技術幫助用戶更好地表達與記錄

多模態技術的未來應用方向展望

其他人也在看