影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄

深度學習需要更多的理論!

這是學術界的一個共識。神經網絡十分強大,但往往不可預測。

現在,谷歌大腦、FAIR、德州農工大學等的數學家們試圖深究神經網絡的理論基礎,開始揭示神經網絡的形式如何影響其功能。

我們對神經網絡幾乎一無所知

設計一座摩天大樓時,我們會要求它符合規範:塔台要能支撐一定程度的重量,並且要能承受一定強度的地震。

但是,對於現代世界最重要的技術之一,我們實際上是在盲目地建造。我們使用各種不同的設計,使用不同的設置進行修補,但在將它拿出來進行測試運行之前,我們並不真正知道它能做什麼,也不知道它會在哪個地方失敗。

這項技術就是神經網絡,它是當今最先進的人工智能係統的基礎。神經網絡正越來越多地進入社會的核心領域:它們通過社交媒體的信息流決定了我們對世界的了解,它們幫助醫生診斷疾病,它們甚至影響一個被判犯罪的人是否要被收監。

然而,“最接近事實的情況是,我們對神經網絡的實際運作方式幾乎一無所知,也不知道什麼才是真正有洞察力的理論,” 德州農工大學數學家、FAIR 的訪問科學家Boris Hanin說。

他將這種情況與另一種革命性技術的發展進行類比:蒸汽機。最初,蒸汽機除了抽水之外沒有別的用處。後來,蒸汽機開始為火車提供動力,這可能是現在復雜的神經網絡已經達到的水平。再後來,科學家和數學家們發展了熱力學理論,得以準確地理解任何類型的發動機內部的運作方式。最終,這些知識將人類帶到了月球。

“首先,你要有很棒的工程,你要有一些很棒的火車,然後你需要一些理論上的理解才能造出火箭和飛船,”Hanin 說。

在龐大的神經網絡研究社區中,有一小群具有數學意識的研究人員正試圖構建神經網絡理論—— 一個可以解釋神經網絡是如何工作,並保證如果你以規定的方式構建一個神經網絡,它就能夠執行特定的任務的理論。

這項工作仍處於早期階段,但在去年,研究人員已經發表了幾篇論文,詳細闡述了神經網絡中形式和功能之間的關係。這項工作一直深究神經網絡的基礎,表明在你能證明神經網絡可以駕駛汽車之前,你需要證明它們能夠做乘法運算。

如何設計一個神經網絡

神經網絡的目標是模仿人類的大腦 —— 思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個觀點中,思維的複雜性是由你可以利用的更小抽象的範圍,以及你可以將低級抽象組合成高級抽象的次數來衡量的 —— 就像我們學習區分狗和鳥的方式一樣。

“對於人類來說,如果你正在學習如何識別一隻狗,你就要學會識別四條腿,它們是毛茸茸的,” 康奈爾大學計算機科學博士生、谷歌大腦研究員Maithra Raghu 說:“理想情況下,我們希望我們的神經網絡同樣能夠這樣做。”

影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄
影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄

Maithra Raghu, 谷歌大腦成員,致力於尋找解釋神經網絡如何運作的原理 (photo: Arun Chaganty)

抽像對於人類大腦來說是天性。神經網絡必須學會抽象。就像大腦一樣,神經網絡是由被稱為 “神經元” 的構建塊組成的,這些構建塊以不同的方式連接在一起。(神經網絡中的神經元受到大腦神經元的啟發,但並不直接模仿大腦神經元。) 每個神經元可能代表網絡在每個抽象層次上考慮的一個屬性,或多個屬性的組合。

在將這些神經元連接在一起時,工程師們有很多選擇。他們必須決定這個網絡應該有多少層神經元 (或者它應該有多 “深”)。例如,假設有一個神經網絡,它的任務是識別圖像中的物體。圖像在第一層被輸入系統。在下一層,網絡中可能有隻是簡單地檢測圖像中的邊緣的神經元。再下一層結合線條來識別圖像中的曲線。然後再下一層,將曲線組合成形狀和紋理。最後一層處理形狀和紋理,得出它看到圖像中有什麼的結論:長毛猛獁象!

“這裡的想法是,每一層都結合了前一層的幾個方面。一個圓在許多不同的地方是曲線,一條曲線在許多不同的地方是直線,” 賓夕法尼亞大學的數學家 David Rolnick 說。

工程師還必須決定每一層的 “寬度”,它對應於網絡在每個抽象級別上考慮的不同特性的數量。在圖像識別的情況下,層的寬度是它在每個層上考慮的線、曲線或形狀的類型的數量。

除了網絡的深度和寬度之外,還可以選擇如何在層內和層間連接神經元,以及為每個連接賦予多少權重。

因此,如果你有一個特定的任務,你怎麼知道哪個神經網絡架構能最好地完成這個任務呢?

有一些寬泛的經驗法則。比如說,對於圖像相關的任務,工程師通常使用 “卷積” 神經網絡,這種網絡的特點是層與層之間相同的連接模式不斷重複。對於自然語言處理任務—— 比如語音識別或語言生成 —— 工程師們發現 “循環” 神經網絡似乎性能最好。在這些網絡中,神經元可以連接到非相鄰的層。

影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄
影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄

如何設計一個神經網絡

L ucy Reading-Ikkanda/Quanta Magazine

然而,除了這些一般指導原則之外,工程師們很大程度上還必須在依賴實驗證據:他們要運行 1000 個不同的神經網絡,然後觀察哪一個能夠完成任務。

“這些選擇往往是在實踐中反複試驗後做出的,” Hanin 說:“這是一種很艱難的方法,因為有無限多的選擇,一個人真的不知道那個選擇是最好的。”

一種更好的方法是減少反複試驗,多預先了解給定的神經網絡架構會帶來什麼。最近發表的幾篇論文將這個領域推向了這個方向。

“可以這麼說,這項工作試圖開發一本設計正確神經網絡的食譜。如果你知道你想從網絡中獲得什麼,那麼這就是這個網絡的配方,”Rolnick 說。

讓神經網絡無限窄、無限深

神經網絡架構最早的一個重要理論保證出現在 30 年前。1989 年,計算機科學家證明,如果一個神經網絡只有一個計算層,但這一層有無限數量的神經元,它們之間有無限的連接,那麼這個網絡將能夠執行你要求它做的任何任務。

這是一個籠統的陳述,結果相當直觀,但不怎麼有用。這就好比說,如果你能在一張圖像中識別出無限多的線條,你就可以只用一個層來區分所有的對象。這在原則上可能是正確的,但在實踐中,祝您好運。

今天的研究人員將這種寬而平的網絡描述為“富有表現力的”(expressive),這意味著它們理論上能夠在可能的輸入(例如圖像) 和輸出(例如圖像描述) 之間捕獲更豐富的一組連接。然而,這些網絡是極其難以訓練的,這意味著幾乎不可能教他們如何實際產生這些輸出。它們的計算量也超過了任何計算機可以處理的程度。

影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄
影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄

德州農工大學的數學家 Boris Hanin 研究了神經網絡中深度和寬度之間的權衡(Intel AI One Tree Studio)

最近,研究人員一直試圖弄清楚他們能在多大程度上將神經網絡推向另一個方向 —— 通過使神經網絡更窄 (每層的神經元更少) 和更深 (整體的層數更多)。這樣,也許你只需要挑選100 條不同的線,但可以利用連接把這100 條線變成50 條曲線,然後把它們組合成10 種不同的形狀,這些形狀可以為你提供識別大多數物體所需的所有構建塊。

麻省理工學院的Rolnick 和Max Tegmark 去年發表了一篇題為The power of deeper networks for expressing natural functions 的論文,證明通過增加深度和減少寬度,可以用指數級更少的神經元來執行同樣的功能。他們表明,如果你正在建模的情況有 100個輸入變量,你可以使用一層中 2 的 100 次方個神經元,或兩層中 2 的 10 次方個神經元獲得同樣的可靠性。

“神經網絡中 depth 這個概念與這樣一種想法有關,即你可以通過按順序做許多簡單的事情來表達一些複雜的事情,”Rolnick 說:“這就像一條裝配線。”

Rolnick 和 Tegmark 通過讓神經網絡執行一個簡單的任務來證明深度的效用:乘法多項式函數。(這些方程的特徵是變量取自然數的指數,比如 y = x³ + 1) 他們通過向網絡展示方程及其乘積的例子來訓練網絡。然後,他們要求這些網絡計算他們之前沒有見過的方程式的乘積。結果顯示,相比更淺的網絡,更深的神經網絡學習這個任務使用的神經元要少得多。

雖然乘法並不是一項轟動世界的任務,但Rolnick 表示,這篇論文提出了一個重要的觀點:“如果一個淺層的網絡連乘法都不會做,那麼我們就不應該在任何事情上相信它。”

影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄
影響堪比登月:谷歌等探索深度學習新理論藍圖,讓神經網絡更深更窄

賓夕法尼亞大學數學家 David Rolnick 證明,增加網絡的深度可以讓網絡以更少的神經元完成任務。(Stephanie Ku)

其他研究人員一直在探索神經網絡所需的最小寬度。9 月底,曾任俄克拉荷馬州立大學數學家、現為賽諾菲製藥公司研究員的 Jesse Johnson 證明,在某個特定點上,再大的深度也無法彌補寬度的不足。

為了理解他的結論,讓我們想像一下牧場裡的綿羊,但這些是朋克搖滾羊:他們的羊毛被染成了各種各樣的顏色。你的神經網絡的任務是在所有相同顏色的羊周圍畫一個框。這個任務類似於圖像分類:網絡有一個圖像集 (表示為高維空間中的點),它需要將相似的圖像分組在一起。

Johnson 證明,當層的寬度小於或等於輸入的數量時,神經網絡就會在這個任務中失敗。因此,對於朋克搖滾羊這個任務來說,每隻羊都可以用兩個輸入來描述:一個 x 坐標和一個 y坐標,用來指定它在牧場的位置。然後,神經網絡給每隻羊標上顏色標籤,並在相同顏色的羊周圍畫上邊框。在這種情況下,每層需要三個或更多的神經元才能解決這個問題。

更具體地說,Johnson 證明如果寬度與變量之間的比率沒有了,神經網絡將無法實現一個閉環 —— 比如說,如果所有紅色的羊聚集在牧場中央,神經網絡將需要繪製出這樣的循環。Johnson 說:“如果所有層中沒有任何一層的神經元數量比輸入維數更大,那麼無論添加多少層,函數都無法創建某些形狀。”

Johnson 他們的論文、以及更多這樣的論文正開始構建神經網絡理論的雛形。目前,研究人員只能對架構和函數之間的關係做出非常基本的斷言,而這些斷言與神經網絡所承擔的任務的數量相比只佔很小的比例。

因此,儘管神經網絡理論不會很快改變系統構建的方式,但一個關於計算機如何學習的新理論的藍圖正在形成—— 一個將人類帶上更偉大旅程的藍圖,其影響甚至比將人類帶上月球更大。