被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

AlphaGo與柯潔大戰在即,它的創造者傑米斯·哈薩比斯又是如何考慮這場的人機比賽的?他如何看待柯潔?哈薩比斯對深度學習和人工智能的理解又是怎樣的?他何以如此相信通用型人工智能,或者說強人工智能?

被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖
被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

我們先看AlphaGo之父幾個相關的演講片段。之後,我們會請CSDN、極客幫創投和AI100的創始人蔣濤專門來點評這場大戰。

柯潔已經輸過,重要嗎?

參考影片

提起AlphaGo大戰柯潔,就不能不提年初大戰群雄的Master。

2016年12月29日晚七點,弈城圍棋網出現疑似為AI的圍棋高手“Magister”,後來改名“Master”;2017年1月1日晚十一點,它又轉戰至野狐圍棋網。Master以每天十盤的速度在兩個圍棋對戰平台上挑戰中、韓、日、台的頂尖高手,至結束時60戰全勝,大勝柯潔、樸廷桓、陳耀燁、古力、常昊、朴永訓等世界冠軍。

其中,柯潔三次敗北,他為此輾轉反側,夜不成寐。柯潔在微博中說,“人類數千年的實戰演練進化,計算機卻告訴我們人類全都是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。”

因為,AlphaGo一直在自我創新,比如,下圖左側的棋局中:

被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖
被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

右下角紅色圓圈處的黑子,落子所在的第二條線交點,在人類過往的認識中就不是那種有效的位置。

被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖
被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

柯潔在微博中緊接著寫道,“從現在開始,我們棋手將會結合計算機,邁進全新的領域達到全新的境界。”哈薩比斯在演講中專門說到了這裡的異曲同工之處: “柯潔提到了圍棋的真理,我們在這裡談的是科學的真理。”

“就算阿法狗戰勝了李世石,但它贏不了我。”

相比去年AlphaGo大戰李世石時這句狂言,柯潔後來就收斂多了。問題是現在,他心裡還有人類必勝的信念嗎?

超越人類認知的極限

參考影片

在談Master前,哈薩比斯先解釋瞭如何進一步改進AlphaGo,特別是如何在圍棋上超越人類的認知極限:

首先,他要繼續研究李世石打敗AlphaGo的第四局比賽,以填補AlphaGo在知識上的空白。解決辦法是建立一個新的AlphaGo分系統,用以迷惑主系統。同時進一步優化系統性能,過去需要至少3個月才能完成的訓練,現在僅需一周時間。
其次,我們需要理解AlphaGo所採取的決定,並對其進行解釋——它這樣做的原因是什麼,是否符合人類的想法?通過對比人腦對不同落子位置的反應與AlphaGo對落子位置的反應,也許我們就能找到一些關於圍棋的新知識。

打造強人工智能

參考影片

這就說到了AlphaGo,或者說是DeepMind的使命。

解決什麼是智能的問題;用它來解決其他所有的問題。

哈薩比斯相信,如果人工智能最基本的問題得以解決,理論上任何問題都可以被解決。

被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖
被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

他的方法是打造一台通用型學習機器,也就是強人工智能。哈薩比斯認為這是可能的,只要通過大量的數據資源找到最合適的解決方式和算法,具體的技術就是“強化學習”。

他的解釋是這樣的:

首先,想像這樣一個AI代理,它需要了解自己所處的環境,並儘力找出其要達成的目的。此處的環境可以是真實事件、機器人、虛擬世界;帶來通過兩種方式與周圍環境接觸——觀察並據此做出行動。
然後,在此基礎上,建模並找出最佳選擇,這會涉及到對未來的預期、想像,以及假設檢驗。通常,代理是處於真實環境中,到時間,系統會輸出當前所找到的最佳方案。而該方案會或多或少地改變環境,進一步驅動結果的觀察,並反饋給代理。

被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖
被AlphaGo之父刷屏了?3段視頻讓你了解人機大戰的真實意圖

這就是強化學習的原理,示意圖很簡單,但其中涉及的是極其複雜的算法和原理。如果大部分的問題得以解決,我們就能打造出通用型的人工智能。

從數學角度講,在計算機硬件和時間無限的前提下,打造一個通用型的人工智能,所需要的只有信息,大量的信息。從生物機制講,人腦是受多巴胺控制的,它所執行的就是強化學習的功能。因而,強化學習會是解決人工智能問題的有效工具。

由此看來,就算打敗柯潔,AlphaGo依舊征途漫漫。

來源出處:http://36kr.com/p/5076115.html