AlphaZero—人類超高智慧的武功秘笈?

AlphaZero—人類超高智慧的武功秘笈?
AlphaZero—人類超高智慧的武功秘笈?

由只會依照「策略」的打手提升到重視「戰略」的將軍的高度,AlphaZero的直覺和洞視全局的能力,已趨近於明智,但離睿智仍有一段距離。因為領域特定的能力,不等同可以遷移到其他領域的智慧。
撰文/曾志朗

連休四天的元旦假期,新年快樂的祝福聲如雪片而來,但一封Super Bowl LIII(第53屆美式橄欖球冠軍總決賽)的E-mail賀卡最令我喜出望外。那是我多年前在美國加州大學河濱分校指導的一位博士生從東岸紐澤西寄來的,上頭印著2019年超級盃將在2月3日於亞特蘭大那個造型奇特的八角盔甲球場(盔甲聚攏後屋頂就是賓士汽車的logo)舉行。在這張圖文並茂的卡片旁只有一行字:「Ovid,要不要賭一賭誰是冠軍?100美元加紐約最好中餐廳的一頓晚餐如何?」

一句話喚起了幾十年的師生之情,也讓我重新回味當年每逢超級盃大賽時實驗室成員的瘋魔。人人有一套計算方式來推算勝負機率,甚至是預測哪一隊贏幾分。誰先上場?攻守哪個位置?過去表現優劣?最近有無受傷?教練是誰?戰績如何?球場在哪?天氣狀況?觀眾傾向?公式不同,對各個可能向度參數的加權值也互異,加上賭金的誘惑,使得比賽當天電視機前觀戰的氣氛高昂,各為自己押注的球隊加油,對手的一舉一動,都讓他們吵翻天。超級球賽,超級精神,超級吶喊!我是老師,但不會破壞學生的興致,每年都參加賭局,不過總是擲銅板來選擇哪一隊贏。反正只是好玩,賭金也很小,贏的人把錢收齊,一起到校外的咖啡吧吃個宵夜,再喝幾杯啤酒,一年一度的超級盃就在歡樂聲中落幕。好笑的是一年一年過去,有贏有輸,但總的來說,平均勝負數呈五五波。意思是說,他們花大把時間做各項分析和發展複雜程式的運算結果,和我隨機擲幣押寶的結果都一樣!

接到久未謀面的學生的賀卡,我沒有因懷舊不捨,反而有一絲興奮。畢竟今天的我已非昔日的吳下阿蒙,而是擁有些許類神經網路所謂深度學習計算模式的研究者了!我馬上回信給這位已經從AT&T實驗室退休的學生,接受他的挑戰,並說這次要用深度學習模式預測,贏他100美元!他也很快回信,哈哈笑說:「用AI預測超級盃,目前還不可能啦!球場千變萬化,比西洋棋、圍棋還要複雜,我是這方面的專家,多少人試過,沒有一個成功的。老師,你還是用你的硬幣決定贏家比較簡單,還有50%的成功率呢!」雖是師生間的嬉戲玩笑,但我知道他是對的,不如拿起10元硬幣,讓老天幫我決定贏家吧!

40年光陰旋踵即逝,歲月如梭,一眨眼,2018也過了。這一年發生了哪些大事?沉吟片刻,歡快的心情也不由沉了下去,有幾位我尊敬的人物在這一年過世了。

先是2月9日,那天我們實驗心理學界的一顆巨星在紐約殞落。美國普林斯頓大學的崔斯曼(Anne Treisman)教授是我學術生涯中極敬重的學者,她在物件知覺的研究上提出了特徵整合理論,即形成物件知覺的過程,包括注意前(pre-attentive)物件特徵(如線條長短、角度、顏色等)自發性的平行預測處理,和必須動用認知資源去整合特徵。來自不同實驗室、千百個實驗證據支持她的理論。80年代我在國際實驗心理學大會上,提出地點特定的抑制理論,她大感興趣,特地到我實驗室檢視實驗的過程和延伸的另外實驗。那天晚上她住在我家,飯後繼續和我討論地點特定的抑制現象在生物演化中的意義,這樣認真的研究態度令人敬佩。幾年前,她和夫婿諾貝爾經濟學獎得主康納曼來台為新書宣傳,又特地到我實驗室參觀,有此知音,讓我感動。聽到她離世,我濕了眼眶,斯人已去,但此情長在。

第二、三件大事,也很令我傷感。和我一起在國際科學理事會「科學行為的自由與責任委員會」共事六年的薩爾斯頓教授,3月初在英國劍橋大學的附屬醫院過世,不到一星期霍金也走了。前者研究線蟲,以細胞凋亡成就獲得諾貝爾生醫獎,後者以黑洞和宇宙論成為世界最著名的天文物理學家,兩位大師相繼離開,是科學界的損失。

第四件大事要屬10月底,我從南京開完國際演化語言學會議經香港回台北,接到金庸辭世的消息。我想起最後一次見到他是2011年底清華大學頒給他名譽博士時,那時候就聽說他生病了,但看他坐在大大的沙發椅上卻顯得精神奕奕,笑得眼睛都瞇起來的可愛樣子。喪禮舉行那天,我正好也在香港參加香港高等研究院研討會,寫下幾句,遙送他一程:「香江別大俠,淚灑書劍挺飛狐;天龍飛,碧血寒,神雕護鹿鼎,倚天傲笑走天涯!」

大師落,新血起,正所謂繼往開來。第五件大事是喜事啦!深度心智(DeepMind)團隊再度登上頂尖期刊的封面,在12月7日出刊的《科學》雜誌上,發表能自我學習西洋棋、將棋和圍棋的「數位神童」AlphaZero,說明從AlphaGo到AlphaZero的變化重點,以及打敗其他機器學習棋手Stockfish(西洋棋)、Elmo(將棋)和前身AlphaGo的過程。深度心智的團隊真了不起,總是無私的把發表中的程式學術化和公開化,創始人哈薩畢思的一句話充份體現了科學的精神:「科學就是要分享才能推動領域進步。」從AlphaGo到AlphaZero,武功能夠越來越強到「獨孤求敗」的境界,實在是其來有自也!

這篇論文闡述AlphaZero武功進階的關鍵因素,首先點出的是無師自通的學習方式。AlphaZero沒有被灌入大量棋譜,棋藝由無生有,經由與自己產出的對手對弈,九個小時學會西洋棋,12個小時學會將棋,13天學會圍棋。之後和Stockfish對弈,四小時後擊敗它,在1000場比賽中,贏155場輸6場;打敗Elmo只花兩小時,勝率是91.2%;更妙的是經過30小時對弈,連AlphaGo這位前輩都不是它的對手了,確實是青出於藍。深度心智團隊透露,AlphaZero每秒計算六萬個位置,而Stockfish和Elmo需計算6000萬和2500萬個位置,顯見AlphaZero採取更有效率的運算。

再仔細想想,AI的自我鍛鍊,其實就等同老頑童周伯通「左右手互搏」的訓練,自己打自己,練就一代高手!另一個涵義是沒有「前規後隨」的拘束,就可以去除舊知識的枷鎖,海闊天空,創意十足。金庸小說中,逍遙派掌門無崖子窮三年心血,佈下「珍瓏」棋局,江湖各路高手無一能解,等了30年,來了一個不懂圍棋的虛竹和尚,閉著眼睛亂放一子,誤打誤撞破了僵局,恰好符合自殺一塊打開新局的手法。在多次對弈中,AlphaZero也常出現犧牲一處或大膽把「將」擺在棋局中心,但它始終掌控全局。

世界西洋棋冠軍卡斯帕洛夫在當期《科學》雜誌上評論,AlphaZero有別傳統AI棋手的避免犯錯,喜歡在風險大的地方落子;日本將棋七冠王羽生善治也說,從人類的角度,AlphaZero不但違反棋理,而且路數危險。顯然AlphaZero已經由只會依照「策略」的打手,提升到重視「戰略」的將軍的高度了。它的直覺和洞視全局的能力,已不只是人工智能(機器算則),而應該是人工智慧,漸漸趨近於明智(smart intelligence),但離睿智(superior intelligence)仍有一段距離,因為領域特定的智力(機器式能力),不等同可以遷移到其他領域的智慧。

AlphaGo至多是精明的機器計算能力,解決單一問題,AlphaZero則不然,以一個演算法,通吃三種棋類。同一時間,AlphaFold出現了。深度心智團隊跨足基礎科學,而且碰觸的是有關生命基礎的領域,推出AlphaFold,試圖解決蛋白質形態的折疊難題,更期待有朝一日能打造出基礎科學界的AlphaGo和AlphaZero。但唯有開發得以遷移的能力,才是普遍性(通用)的智慧,到底要如何達成?AlphaZero的成就,可能提供關鍵性的答案。

我只能說,如果我們要了解並尋求更高超的智慧,可能必須從AlphaZero的學習和成長歷程中,去探尋類似量子計算那樣充滿動態和複雜(非線形增長)的武功秘笈了。金庸地下有知,應該會像禪宗六祖的捻花微笑,盡在不言中吧!