語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?

AI前線導讀:隨著近年來深度學習、大算力、大數據快速發展,計算機視覺、語音識別等技術都取得了非常大的進展,綜合了多種信息模態的多模態研究已成為一個新趨勢。對於快手而言,多模態研究也是非常重要的課題。快手是一個記錄和分享生活的短視頻社交平台,通過人、內容及二者互動數據的理解,借助算法匹配推薦用戶可能感興趣的內容。一方面,視頻可稱是典型的多模態問題,綜合了視覺、聽覺、文本多種模態信息。在視頻的基礎上,加上用戶行為數據就是一種更加複雜的多模態問題。目前快手在多模態技術上的應用,一方面在於幫助用戶更好地表達與記錄,另一方面在於對視頻內容的精準理解。

多模態技術幫助用戶更好地表達與記錄

1、語音轉文字打造便捷字幕生成體驗

在視頻中,對音頻部分的理解是視頻信息傳遞的重要部分。快手上有很多以語言講述為核心的視頻,需要大量匹配的字幕輔助觀看。視頻字幕製作其實是一件工作量很大的事情,一般需要在電腦前使用專業的編輯軟件手動逐個輸入文字。而如果通過語音識別技術,把語音直接轉成文字,就可以很輕鬆地通過手機編輯生成一個帶字幕的視頻。

對視頻進行語音轉寫時,面臨以下的技術難點:首先,拍攝視頻時,麥克風和說話者之間的距離比較遠,語音信號因為傳輸距離遠產生衰減,同時麥克風對環境噪聲的抑制能力也會減弱,造成語音信號弱,背景噪聲強的現象;其次,在房間內拍攝時,可能因牆壁對語音信號的反射造成混響;第三,快手的用戶包括了全國各個區域,自然地包括了多樣的口音;最後,短視頻的內容種類豐富,表達方式隨意,有些視頻還有很強的韻律起伏。這些因素都會影響語音識別系統的準確率。快手針對這些問題,研發了語音質量檢測、單通道混響消除、噪聲掩蔽建模等多種技術,以及通過序列化建模方法提升多種口音的識別準確率。

2、語音合成實現個性化配音

在視頻配音方面,如果用戶不喜歡男性配音,而希望實現女性配音的效果,就可以通過語音合成技術滿足個性化的訴求。

語音識別及合成技術都會使記錄的過程變得更加便捷、有趣,但這兩項技術在做視覺或者多媒體的圈子裡面關注度不是特別高,在語音圈子裡面,語音識別、語音合成也往往是兩波人在做。

隨著深度學習技術的出現,語音識別和合成其實在某種程度上可以看做是非常對稱的兩個問題,因為語音識別是從語音到文字,語音合成是從文字到語音。語音識別,我們提取一些聲學的特徵,經過編碼器或者Attention 的機制,實現從語音到文字的轉化;語音合成的技術和算法,其實也涉及編碼器或者Attention 的機制,二者形成了比較對稱的網絡。所以我們把語音識別和合成看成是一個模態轉換的特例,從神經網絡建模角度來看,是一個比較一致、容易解決的問題。快手的語音識別、語音合成技術原理圖如下:

語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?
語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?

3、根據視頻內容自動生成音樂

音樂也是短視頻非常重要的一部分,為一個場景匹配合適的音樂並非易事。過去,有不少用戶在拍攝時為了與音樂節拍一致,努力配合音樂節奏拍攝,極大限制了拍攝的自由度。快手希望用戶可以隨意按照自己的方式錄製視頻,對用戶拍攝的視頻內容進行理解後,自動生成符合視頻內容的音樂。

語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?
語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?

利用神經網絡強大的學習能力,實現視覺信息到音樂要素的轉化,包括:歌曲節奏、速度、調性、情感、風格、動機等。例如:將視頻中用戶身體扭動的時間點與生成音樂中的“鼓點”位置對齊;動作快慢決定歌曲速度等。

通過上述音樂要素,從備選曲庫中篩選合適的樂譜組成旋律空間。音樂的動機是由幾個小節組成的旋律片段,它是音樂的核心,整首歌曲都圍繞動機展開。在自動編碼器網絡中,動機被表示為一個向量,旋律空間被表示為若干的向量序列。在動機與旋律空間的約束下進行採樣,生成新的向量序列,再通過解碼網絡生成新的旋律。同樣的動機,在相同的旋律空間下,也可以生成情感、風格相似,但表現上又有差異的音樂作品。常見的AI 旋律生成算法,難以保存作曲手法,生成較長的旋律片段時,整個作品的走勢會難以控制。採用旋律空間加動機的方式,能夠有效解決該問題。對旋律進行自動化的配器和混音,最終生成符合視頻內容的音樂作品。

音樂生成涉及很多具體的技術,其中一個問題是懂音樂的人不懂計算機科學,懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好,需要有做音樂和做AI 的人一起集成創新,這方面快手也做了非常多的工作。

4、2D 圖像驅動3D 建模實現Animoji 效果

iPhoneX 問世時的一項標誌性功能,是通過結構光攝像頭實現Animoji,現在國內手機廠商也越來越多地採用結構光的方式去實現Animoj。而快手是國內較早實現不使用結構光,只用RGB 圖像信息就實現Animoji 效果的企業。

用戶不必去花上萬元去買iphoneX,只要用一個千元的安卓手機,就可在快手的產品上體驗Animoji 的特效,從而能夠在不暴露臉部信息的同時展現細微的表情變化,例如微笑、單隻眼睛睜單隻眼睛閉等,讓原來一些羞於表演自己才藝的人,也可以非常自如地表達。

其實解決這樣一個問題是非常難的,即使是蘋果,也採用了結構光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術,快手面臨著硬件的約束,只能通過2D 的RGB 視覺信息對問題進行建模、求解。

語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?
語義鴻溝、異構鴻溝、數據缺失,多模態技術如何跨過這些坎?

整個模擬人臉的過程借助了3D 結構恢復與3D 信息融合,用3D 重建技術恢復出3D 結構,融合2D 信息後,分析人臉特徵,進而生成虛擬形象。

3D 人臉重建需要藉助快手內部的上萬級3D 人臉數據集,包含每個人的年齡段、人種、臉型和表情,通過人臉關鍵點識別技術,幫助3D 人臉重建,不論表情是哭是笑都可以重現出來。

此外,生成虛擬形像還要分析用戶的人臉屬性,借助分類/ 回歸/ 分割等方法,區分出性別、年齡、膚色、臉型等信息。

之後,因為生成的3D 卡通圖像是會隨著人的表情而變化的,需要分析人臉表情,才能在卡通形像上展示出一模一樣的表情。

這裡需要通過2D 的RGB 視覺信息對問題進行建模求解,獲得人臉關鍵點和實時重建的3D 模型,把各種模態信息做建模、做對齊,求解出人臉的表情,驅動虛擬卡通形像做各種逼真的動作。

此外,快手Animoji 的體驗非常流暢,也需要歸功於深度神經網絡模型的量化。為了讓模型在手機端流暢運行,需要進行圖像預處理,合併多種預處理操作,對預處理的圖像內存進行統一分配和回收,利用NEON 加速和蘋果自帶的accelerate 加速,讓運行庫只佔2M 的空間。

最後,在保證預測精度的前提下,快手技術團隊對AI 模型進行局部的INT8 量化,使得運行速度可提高1 倍以上,同時AI 預測模型的佔用空間也壓縮到將近原來的四分之一。

多模態技術如何實現精準理解視頻內容?

除了幫助用戶更好地記錄,快手也希望通過一個更好的分享機制,讓用戶發布的視頻能夠被更多感興趣的人看到,這也涉及視頻推薦裡面多模態的一些問題,其中有兩點值得分享:

第一,我們強調音頻和視覺的多模態綜合的建模,而不是僅僅是單獨的視覺或者音頻,視覺和聽覺兩種媒體的融合,會是未來一個重要趨勢。

第二,工業界和學術界所做的研究有很大區別,快手有非常多的用戶數據,這些用戶數據是不在傳統多媒體內容研究範疇裡面的,但是工業界可以很好地利用這些數據,更好地做內容理解。

舉個例子,一個男子表演口技的視頻中,如果關閉聲音,僅憑畫面信息,我們並不知道他是在做什麼,可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話,人們可能無法獲得真實的信息。我們對世界的理解一定是多模態的理解,而不僅僅是視覺的理解。

快手數據庫中有80 億短視頻,想要理解這麼多的視頻內容,必須藉助多模態技術。我們從文本、視覺、聽覺角度去做了很多單模態的建模,包括多模態的綜合建模、有序與無序,以及多模態特徵之間怎樣進行異構的建聯,在很多任務內部的分類上也做了改進。

另一方面需要強調的是, ImageNET 等很多學術界研究內容理解的任務有完善的標註數據集,但是這個數據集對於工業界而言還是太小,且多樣性不夠。快手每天有1.6 億用戶、超過150 億次的視頻播放,這個數據是非常大的。如果有150 億的標註數據,做算法就會有很大的幫助,但是現實上是不具備的。

怎樣將研究分析技術與海量數據更好地做到融合?快手通過融合行為數據和內容數據,進行綜合建模。同樣大小的人工標註量,利用海量的用戶行為數據,能夠獲得比純內容模型更好的性能,對視頻有了一個更好的理解,進而在多媒體內容的理解和分析方面的算法研究有了非常大的進展。

多模態技術研究的三個難點:語義鴻溝、異構鴻溝、數據缺失

其實在目前來看,多模態研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝,雖然近十年來深度學習和大算力、大數據快速發展,計算機視覺包括語音識別等技術都取得了非常大的進展,但是截至現在,很多問題還沒有得到特別好的解決,所以單模態的語義鴻溝仍然是存​​在的。再者,由於引入了多種模態的信息,所以怎樣對不同模態之間的數據進行綜合建模,會是一個異構鴻溝的問題。

另外,做語音、做圖像是有很多數據集的,大家可以利用這些數據集進行刷分、交流自己算法的研究成果。但是多模態的數據集是非常難以構建的,所以我們在做多模態研究時是存在數據缺失的問題的。

多模態技術的未來應用方向展望

首先,多模態技術會改變人機交互的方式,我們與機器交互的方式將會越來越貼近於更令人舒適、更自然的方式。比如我們剛才講的Animoji 技術,其實它帶來的是一種可以通過人臉控製手機自動生成Avatar(虛擬動畫)的體驗。原來實現這些效果,需要在好萊塢專門設一個特效室來實現這一點,而現在普通用戶都能享受這樣的技術,所以人機交互會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

第二,多模態技術會帶來新的內容形態,原來接入信息更多是從文本、頁面中獲得,現在有視頻,未來可能還會有AR 或者其它的形式。多模態AR 很重要的一點就是強調沉浸感,這種沉浸感其實是通過聽覺和視覺綜合作用才能產生的。

第三,多模態亟需新的算法和大型的數據,因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講,需要海量的數據才能解決好這個問題,因為現在深度學習、內容理解的成果,某種意義上是監督學習的成果,有足夠的樣本、算力,所以現在的算法能力基本上還停留在對算力和數據有著非常大要求的階段。而多模態的大型數據是非常難建的,而且多模態解的空間是更大的。因為一個模態解的空間是n,另外一個是m,它最後是一個乘積、一個指數級的變化,所以數據集要多大才足夠是一個很難的這個問題,可能需要新的算法來對這個問題進行建模。

本文經授權發布,不代表36氪立場。
如若轉載請註明出處。來源出處:36氪