影響堪比登月：谷歌等探索深度學習新理論藍圖，讓神經網絡更深更窄

36氪

2019年2月16日下午10:41

深度學習需要更多的理論！

這是學術界的一個共識。神經網絡十分強大，但往往不可預測。

現在，谷歌大腦、FAIR、德州農工大學等的數學家們試圖深究神經網絡的理論基礎，開始揭示神經網絡的形式如何影響其功能。

我們對神經網絡幾乎一無所知

設計一座摩天大樓時，我們會要求它符合規範：塔台要能支撐一定程度的重量，並且要能承受一定強度的地震。

但是，對於現代世界最重要的技術之一，我們實際上是在盲目地建造。我們使用各種不同的設計，使用不同的設置進行修補，但在將它拿出來進行測試運行之前，我們並不真正知道它能做什麼，也不知道它會在哪個地方失敗。

這項技術就是神經網絡，它是當今最先進的人工智能係統的基礎。神經網絡正越來越多地進入社會的核心領域：它們通過社交媒體的信息流決定了我們對世界的了解，它們幫助醫生診斷疾病，它們甚至影響一個被判犯罪的人是否要被收監。

然而，“最接近事實的情況是，我們對神經網絡的實際運作方式幾乎一無所知，也不知道什麼才是真正有洞察力的理論，” 德州農工大學數學家、FAIR 的訪問科學家Boris Hanin說。

他將這種情況與另一種革命性技術的發展進行類比：蒸汽機。最初，蒸汽機除了抽水之外沒有別的用處。後來，蒸汽機開始為火車提供動力，這可能是現在復雜的神經網絡已經達到的水平。再後來，科學家和數學家們發展了熱力學理論，得以準確地理解任何類型的發動機內部的運作方式。最終，這些知識將人類帶到了月球。

“首先，你要有很棒的工程，你要有一些很棒的火車，然後你需要一些理論上的理解才能造出火箭和飛船，”Hanin 說。

在龐大的神經網絡研究社區中，有一小群具有數學意識的研究人員正試圖構建神經網絡理論—— 一個可以解釋神經網絡是如何工作，並保證如果你以規定的方式構建一個神經網絡，它就能夠執行特定的任務的理論。

這項工作仍處於早期階段，但在去年，研究人員已經發表了幾篇論文，詳細闡述了神經網絡中形式和功能之間的關係。這項工作一直深究神經網絡的基礎，表明在你能證明神經網絡可以駕駛汽車之前，你需要證明它們能夠做乘法運算。

如何設計一個神經網絡

神經網絡的目標是模仿人類的大腦 —— 思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個觀點中，思維的複雜性是由你可以利用的更小抽象的範圍，以及你可以將低級抽象組合成高級抽象的次數來衡量的 —— 就像我們學習區分狗和鳥的方式一樣。

“對於人類來說，如果你正在學習如何識別一隻狗，你就要學會識別四條腿，它們是毛茸茸的，” 康奈爾大學計算機科學博士生、谷歌大腦研究員Maithra Raghu 說：“理想情況下，我們希望我們的神經網絡同樣能夠這樣做。”

Maithra Raghu, 谷歌大腦成員，致力於尋找解釋神經網絡如何運作的原理 (photo: Arun Chaganty)

抽像對於人類大腦來說是天性。神經網絡必須學會抽象。就像大腦一樣，神經網絡是由被稱為 “神經元” 的構建塊組成的，這些構建塊以不同的方式連接在一起。(神經網絡中的神經元受到大腦神經元的啟發，但並不直接模仿大腦神經元。) 每個神經元可能代表網絡在每個抽象層次上考慮的一個屬性，或多個屬性的組合。

在將這些神經元連接在一起時，工程師們有很多選擇。他們必須決定這個網絡應該有多少層神經元 (或者它應該有多 “深”)。例如，假設有一個神經網絡，它的任務是識別圖像中的物體。圖像在第一層被輸入系統。在下一層，網絡中可能有隻是簡單地檢測圖像中的邊緣的神經元。再下一層結合線條來識別圖像中的曲線。然後再下一層，將曲線組合成形狀和紋理。最後一層處理形狀和紋理，得出它看到圖像中有什麼的結論：長毛猛獁象！

“這裡的想法是，每一層都結合了前一層的幾個方面。一個圓在許多不同的地方是曲線，一條曲線在許多不同的地方是直線，” 賓夕法尼亞大學的數學家 David Rolnick 說。

工程師還必須決定每一層的 “寬度”，它對應於網絡在每個抽象級別上考慮的不同特性的數量。在圖像識別的情況下，層的寬度是它在每個層上考慮的線、曲線或形狀的類型的數量。

除了網絡的深度和寬度之外，還可以選擇如何在層內和層間連接神經元，以及為每個連接賦予多少權重。

因此，如果你有一個特定的任務，你怎麼知道哪個神經網絡架構能最好地完成這個任務呢？

有一些寬泛的經驗法則。比如說，對於圖像相關的任務，工程師通常使用 “卷積” 神經網絡，這種網絡的特點是層與層之間相同的連接模式不斷重複。對於自然語言處理任務—— 比如語音識別或語言生成 —— 工程師們發現 “循環” 神經網絡似乎性能最好。在這些網絡中，神經元可以連接到非相鄰的層。

如何設計一個神經網絡

L ucy Reading-Ikkanda/Quanta Magazine

然而，除了這些一般指導原則之外，工程師們很大程度上還必須在依賴實驗證據：他們要運行 1000 個不同的神經網絡，然後觀察哪一個能夠完成任務。

“這些選擇往往是在實踐中反複試驗後做出的，” Hanin 說：“這是一種很艱難的方法，因為有無限多的選擇，一個人真的不知道那個選擇是最好的。”

一種更好的方法是減少反複試驗，多預先了解給定的神經網絡架構會帶來什麼。最近發表的幾篇論文將這個領域推向了這個方向。

“可以這麼說，這項工作試圖開發一本設計正確神經網絡的食譜。如果你知道你想從網絡中獲得什麼，那麼這就是這個網絡的配方，”Rolnick 說。

讓神經網絡無限窄、無限深

神經網絡架構最早的一個重要理論保證出現在 30 年前。1989 年，計算機科學家證明，如果一個神經網絡只有一個計算層，但這一層有無限數量的神經元，它們之間有無限的連接，那麼這個網絡將能夠執行你要求它做的任何任務。

這是一個籠統的陳述，結果相當直觀，但不怎麼有用。這就好比說，如果你能在一張圖像中識別出無限多的線條，你就可以只用一個層來區分所有的對象。這在原則上可能是正確的，但在實踐中，祝您好運。

今天的研究人員將這種寬而平的網絡描述為“富有表現力的”(expressive)，這意味著它們理論上能夠在可能的輸入(例如圖像) 和輸出(例如圖像描述) 之間捕獲更豐富的一組連接。然而，這些網絡是極其難以訓練的，這意味著幾乎不可能教他們如何實際產生這些輸出。它們的計算量也超過了任何計算機可以處理的程度。

德州農工大學的數學家 Boris Hanin 研究了神經網絡中深度和寬度之間的權衡(Intel AI One Tree Studio)

最近，研究人員一直試圖弄清楚他們能在多大程度上將神經網絡推向另一個方向 —— 通過使神經網絡更窄 (每層的神經元更少) 和更深 (整體的層數更多)。這樣，也許你只需要挑選100 條不同的線，但可以利用連接把這100 條線變成50 條曲線，然後把它們組合成10 種不同的形狀，這些形狀可以為你提供識別大多數物體所需的所有構建塊。

麻省理工學院的Rolnick 和Max Tegmark 去年發表了一篇題為The power of deeper networks for expressing natural functions 的論文，證明通過增加深度和減少寬度，可以用指數級更少的神經元來執行同樣的功能。他們表明，如果你正在建模的情況有 100個輸入變量，你可以使用一層中 2 的 100 次方個神經元，或兩層中 2 的 10 次方個神經元獲得同樣的可靠性。

“神經網絡中 depth 這個概念與這樣一種想法有關，即你可以通過按順序做許多簡單的事情來表達一些複雜的事情，”Rolnick 說：“這就像一條裝配線。”

Rolnick 和 Tegmark 通過讓神經網絡執行一個簡單的任務來證明深度的效用：乘法多項式函數。(這些方程的特徵是變量取自然數的指數，比如 y = x³ + 1) 他們通過向網絡展示方程及其乘積的例子來訓練網絡。然後，他們要求這些網絡計算他們之前沒有見過的方程式的乘積。結果顯示，相比更淺的網絡，更深的神經網絡學習這個任務使用的神經元要少得多。

雖然乘法並不是一項轟動世界的任務，但Rolnick 表示，這篇論文提出了一個重要的觀點：“如果一個淺層的網絡連乘法都不會做，那麼我們就不應該在任何事情上相信它。”

賓夕法尼亞大學數學家 David Rolnick 證明，增加網絡的深度可以讓網絡以更少的神經元完成任務。(Stephanie Ku)

其他研究人員一直在探索神經網絡所需的最小寬度。9 月底，曾任俄克拉荷馬州立大學數學家、現為賽諾菲製藥公司研究員的 Jesse Johnson 證明，在某個特定點上，再大的深度也無法彌補寬度的不足。

為了理解他的結論，讓我們想像一下牧場裡的綿羊，但這些是朋克搖滾羊：他們的羊毛被染成了各種各樣的顏色。你的神經網絡的任務是在所有相同顏色的羊周圍畫一個框。這個任務類似於圖像分類：網絡有一個圖像集 (表示為高維空間中的點)，它需要將相似的圖像分組在一起。

Johnson 證明，當層的寬度小於或等於輸入的數量時，神經網絡就會在這個任務中失敗。因此，對於朋克搖滾羊這個任務來說，每隻羊都可以用兩個輸入來描述：一個 x 坐標和一個 y坐標，用來指定它在牧場的位置。然後，神經網絡給每隻羊標上顏色標籤，並在相同顏色的羊周圍畫上邊框。在這種情況下，每層需要三個或更多的神經元才能解決這個問題。

更具體地說，Johnson 證明如果寬度與變量之間的比率沒有了，神經網絡將無法實現一個閉環 —— 比如說，如果所有紅色的羊聚集在牧場中央，神經網絡將需要繪製出這樣的循環。Johnson 說：“如果所有層中沒有任何一層的神經元數量比輸入維數更大，那麼無論添加多少層，函數都無法創建某些形狀。”

Johnson 他們的論文、以及更多這樣的論文正開始構建神經網絡理論的雛形。目前，研究人員只能對架構和函數之間的關係做出非常基本的斷言，而這些斷言與神經網絡所承擔的任務的數量相比只佔很小的比例。

因此，儘管神經網絡理論不會很快改變系統構建的方式，但一個關於計算機如何學習的新理論的藍圖正在形成—— 一個將人類帶上更偉大旅程的藍圖，其影響甚至比將人類帶上月球更大。

TVBS新聞網·13 小時前
大地震！台灣竟「真的移動」爆遠離大陸　9年對比差很大
花蓮0423大地震，爆發規模6.0、6.3強震，到今日還一直震。沒想到，因受到地震影響，台灣竟然會移動！中央氣象署2年前貼出「台灣9年移動」對比圖，遭網友震驚直喊，「離大陸越來越遠了。」對此，氣象署給答案！
Reactions275
CTWANT·7 小時前
專家示警「海溝巨型地震」！台北恐搖3分鐘「大樓會倒得很徹底」
[周刊王CTWANT] 花蓮縣自昨（22日）傍晚5時8分起，又開始連續出現403強震的餘震，且幾乎都是極淺層地震，餘震20天至今已突破1100起，其中凌晨2時26分、2時32分，接連發生芮氏規模6.0及6.3強震，導致原本因403強震已被判定為危樓的花蓮統帥大樓、富凱大飯店，均發生嚴重傾斜。對此，中央大學...
Reactions160
三立新聞網 setn.com·19 小時前
強震來「第一步不是先開門」！氣象署揭保命要點　網全長知識
生活中心／施郁韻報導花蓮縣外海今（23）日凌晨2時26分、2時32分接連發生芮氏規模6.0及6.3地震，花蓮富凱大飯店、統帥大樓驚傳傾斜倒塌，整個晚上餘震超過90次
Reactions90
三立新聞網 setn.com·14 小時前
恐怖隱沒帶被牽動？琉球海溝恐有8.7超級強震　專家：台北也會受影響
生活中心／蕭宥宸報導花蓮「403地震」過去不到1個月，今（23）晨花蓮再度發生2起芮氏規模6以上強震，造成花蓮市區「統帥大樓」坍塌、富凱大飯店嚴重傾斜。專家指出，花
Reactions80
三立新聞網 setn.com·13 小時前
花蓮密集群震！一天破200起　學者：地殼破裂了
生活中心／柯美儀報導自4月3日花蓮縣東部外海發生規模7.2的大地震後，至今餘震已破千起，從昨日傍晚到今日餘震頻率飆高，且震央開始往南移也往陸地移。學者分析，這2天的
Reactions45
TVBS新聞網·1 天前
小S崩潰落淚！變臉嗆「在諷刺我們家嗎」　錄不下去當場走人
小S（徐熙娣）和派翠克搭檔主持《小姐不熙娣》，播出主題時常引起話題。節目近日在網路上曝光一段幕後花絮，影片中小S在聽完搭檔派翠克的問題後，突然難過掩面，拿起衛生紙頻頻擦淚，場面瞬間凝結，讓派翠克驚慌不已，製作人B2看到派翠克被嚇壞，後來才告訴他其實是被惡整，小S這才笑了出來，演技爆棚。
Reactions189
CTWANT·7 小時前
一家8口留假電話吃「萬元霸王餐」　店家氣炸公布長相…結果超意外
[周刊王CTWANT] 據《鏡報》報導，一家8口上周五晚上前往斯萬西（Swansea）一間義大利餐廳，點了昂貴的牛排、15瓶汽水、雙份甜點等，帳單費用總共329英鎊。後來女子試圖用簽帳金融卡付款，但2次都被拒絕，因此她告訴店員要出去拿別張卡，兒子會在店內等待。然而，男童隨後接到電話，接著便用...
Reactions139
三立新聞網 setn.com·18 小時前
地震防災神APP！「提前28秒倒數」功能神準　網友推爆：蘋果.安卓都能用
生活中心／吳泊萱報導 0403花蓮地震至今餘震不斷，根據氣象署資料，自0403花蓮7.2強震以來，截至今(23)早8時已有逾1100起地震。尤其今日凌晨2點26分
Reactions19
三立新聞網 setn.com·9 小時前
捕獲野生張菲　戴金錶出沒路上！何妤玟揭他72歲現狀
記者鍾智凱／綜合報導綜藝大哥張菲退出螢光幕約6年，近年銷聲匿跡也沒主持節目，僅偶爾被民眾捕獲，去年曾參加九太科技董事長沈會承兒子沈謙的婚宴，如今張菲又被友人抖出蹤跡
Reactions13
今日新聞NOWnews·13 小時前
花蓮餘震規模小變大　國外地質學者認非典型
[NOWnews今日新聞]花蓮於4月3日發生芮氏規模7.2地震後，緊接而來大量餘震，原在上週頻率才稍降低，但本周再度爆發，自22日傍晚開始至今(23)日中午發生超過200次餘震，且在半夜規模最大來到6...
Reactions21
三立新聞網 setn.com·16 小時前
無子宮被問「為何不收養」　小嫻心痛發聲！最大關卡是公婆
記者鍾智凱／綜合報導小嫻2012年與前夫何守正結婚，怎料婚姻6年後就爆出婚變，兩人於2018年離婚，當時也同步爆發小嫻因為生不出孩子，無法替何家傳宗接代，她也掀天生
Reactions242
TVBS新聞網·9 小時前
為什麼討厭林襄？鄉民點出「3問題」　內行分析真正心態
今年轉戰中職味全龍隊，成為「小龍女」的啦啦隊女神林襄，日前有網友質疑她是否轉隊後人氣下滑？林襄回應，「鑽石到哪都會發光啦，欣賞我們的人還是會欣賞我們」。另一方面，昨（22）日有網友在論壇發文指出，常有人批評林襄「假掰女、塑膠」等，好奇「為什麼好多女孩討厭林襄」？貼文引發討論。
Reactions77
Yahoo奇摩房地產編輯部·2 天前
新建案「空屋率超高」為何房價仍猛噴？「晚上社區一片黑⋯」內行曝真相
有一網友日前前往桃園市拜訪朋友時，發現友人居住的新社區，開燈戶數大約僅四分之一，鄰近社區的點燈率也不高，但房價在這幾年依然是節節上漲的狀態，這現象不禁讓他疑惑，「怎麼跟我以前學的供需法則不太一樣啊？」好奇空屋率怎麼跟房價成反比。對此，有人一語道破地表示，「台灣的房子不是蓋來住人的。」
Reactions104
TVBS新聞網·13 小時前
屋主1月才入手！統帥大樓被震歪　砸738萬元「貸款還沒繳」
花蓮地震晃不停，今（23）日凌晨更接連發生規模6強震，其中被列為紅單的統帥大樓也軟腳、3樓瞬間變成一樓，所幸在確定要拆除後，住戶早已全部撤離。而最慘受災戶，莫過於一月才入手的屋主，斥巨資買房，如今還有百萬貸款還沒繳。
Reactions138
民視·19 小時前
花蓮餘震往中部移動？林嘉愷點驚人關鍵：沿海主震大於陸地
生活中心／巫旻璇報導花蓮縣今（23）天凌晨2點26分、2點32分爆發規模6.0、規模6.3地震，造成花蓮富凱大飯店、統帥大樓全倒塌，半夜一連發生2次規模6以上強震，後續更是餘震不斷，讓許多台灣民眾全被搖醒，甚至被嚇到不敢睡覺，不尋常狀況讓不少人擔憂。至於餘震會不會一直往中部跑，民視氣象專家林嘉愷也替大家解答，「因為陸地的餘震沒有沿海主震大，不會往中部過去」。
Reactions15
中時新聞網·3 小時前
近期恐有規模7餘震？花蓮狂震神似73年前「縱谷地震」郭鎧紋這麼說
花蓮4月極其不平靜，自3日7.2強震後，截至24日凌晨已發生超過1200次餘震。由於這次地震與73年前的縱谷地震系列極度相似，許多人擔憂未來可能還會有規模7以上強震，對此前氣象局地震測報中心主任郭鎧紋也做出回應。
Reactions3
太報·19 小時前
最新民調／民進黨擴大領先、藍白差距拉近　游盈隆指與他有關
2024大選結果，立法院呈現藍綠白三黨不過半政治局勢，台灣民意基金會今（4/23）公布最新「政黨支持度」民調，民進黨獲32.9%支持度，大幅領先，國民黨19.2%則與民眾黨18.6%不相上下，而時代力量僅有3%支持度。台灣民意基金會董事長游盈隆認為，民進黨持續擴大領先差距，應和520新總統賴清德就職效應有關。
Reactions369
三立新聞網 setn.com·17 小時前
獨家／地震年！江柏樂預言成真：下一個南投、嘉義…賴清德應辦護國法會
生活中心／綜合報導今年地震不斷，知名風水師江柏樂接受《三立新聞網》訪問表示，「我去年底就已經預言今年地震會很多，主要是因為今年是龍年，現在花蓮災害理應不會持續擴大，
Reactions205
台灣好新聞·11 小時前
徐巧芯爆溫朗東「吃草、床上大便」「裝瘋逃兵」　本人怒告妨害名譽、洩漏病情
國民黨立委徐巧芯的大姑涉入詐騙洗錢案，不滿名嘴溫朗東連日爆料，徐反控溫「裝瘋賣傻逃兵」，甚至「吃草、在鄰兵床上大便」。溫朗東23日上午赴北檢遞交訴狀，按鈴怒告徐巧芯洩漏病情隱私，涉嫌妨害名譽、個資法等罪，後續將再提起民事求償150萬元。溫朗東現身台北地檢署，他怒轟，徐巧芯目的是為了要轉移家人涉詐的焦點，對他抹黑、潑糞。溫朗東抨擊，徐巧芯竟然相信烏龍爆料，漏他個人的病情隱私，還摻雜很多莫名其妙、不合理虛假細節，包括「吃草、在鄰兵床上大便」。他撂話，以後誰再講這個，就蒐證提告。針對造假源頭徐巧芯毋枉毋縱，他向法院控告妨害名譽、違反個資法。更多新聞推薦 ● 盼收斂融資貸款亂象民眾黨立院黨團推《融資公司專法》立法
Reactions199
CaVa·2 天前
出道28年，維多莉亞貝克漢生4孩身材仍超辣，貝克漢爆料：「都只吃同一種食物」
生4孩仍超瘦！貝克漢爆料維多莉亞好身材祕密：從我認識她，她只吃同一種食物
Reactions8

我們對神經網絡幾乎一無所知

如何設計一個神經網絡

讓神經網絡無限窄、無限深

其他人也在看