AI如何應用於視聽產業?

運用AI軟體創作的人臉圖像 創圖者@richy
運用AI軟體創作的人臉圖像 創圖者@richy

人工智慧具有為善和作惡的巨大潛力。 這就是為什麼我們同時發現它既迷人又可怕。AI透過某些原則,如: 可解釋性、信任、隱私、多元化,同時還有表達、創造力和創新的自由來影響著人類的社會和每日生活。 如果人類能夠設法將所有這些目標結合起來,人工智慧在很多方面都是人類的福氣。當然,除非有一天埃隆馬斯克(Elon Musk)最糟糕的噩夢變成現實 : 機器接管世界。 好在這種反烏托邦的未來並沒有出現。至少還沒有出現。

AI如何應用於視聽產業?

歐洲廣電聯盟(EBU)2019年的年度新聞報告《下一個新聞編輯室》[1](EBU News Report 2019 The Next Newsroom)中提到AI是好用的新工具,新聞界應該好好運用 (AI is a handy new tool: use it!)。其中並介紹了BBC的一部影片。

這部叫做〈AI met the archive〉的影片是由數學家Dr. Hannah Fry和一位虛擬的主持人共同主持。影片內容主要講述BBC的AI研發團隊如何讓機器學習創造影片。首先,科學家們將影像(video)的模組找出來,共分為1.發現對象(objection detection),2.旁白分析(subtitle analysis),3.視覺動能(visual energy)等三個步驟模組。接著就是讓電腦混合(mixed)BBC數量龐大的影像資料庫上述三類模組的原始資料(raw data)來自我學習如何產製影片。

在第1個步驟「發現對象」階段,機器會辨識影像,並以文字概念登錄下它所掃描過的影片。例如:拿著手機的手、穿黑衣的男人、白色的盒子等。這是運用影像辨識(image recognition) 和社會學習理論(social learning theory)達到辨識和記錄的功能。

而第二個步驟的「旁白分析」則是找出旁白中的重點單字(概念),例如:人類,語言戰爭、數學戰爭、戰爭等,以及一些連接詞,像是really, probably;一些動詞,如tell等,這個階段是屬於語料分析。

第三個步驟「視覺動能」中,機器會記錄下影片的能量指數(energy index)和框架活動(frame activity)。[2]我們可以把這個概念譯為視覺動能,它受到影像亮度、色彩、形狀等的影響。在BBC的這個影片中,我們可以看到他們的團隊在讓AI自我學習的過程是提供影片中的「能量指數」和「框架活動」兩組資料。

第四個階段,就進入機器學習的階段,透過BBC的影像資料庫中儲存的原始資料讓AI自我學習,以發現資料的模式 (pattern)。

在這部影片中,我們尚未能看到機器自我學習後,能夠創造出任何有意義的影片。其理由,我們可以在另一支BBC的影片〈The Joy of AI〉中找到答案。

簡單地說,截至目前為止,AI發展最大的困難是科學家們還無法找到讓機器可以學習到意識(conscious)、情感(emotion),和產生意義(making sense of) 的方法。

〈The Joy of AI〉這支影片是由Jim Al-Khalili教授所主持。他是伊拉克裔英國籍的理論物理學家,作家和主持人,同時也是薩里大學理論物理學教授,並擔任公眾參與科學的主席。他擔任BBC廣播和電視台科學節目的定期播音員和主持人,並且經常在其他英國媒體中評論科學議題。

Al-Khalili教授在影片中說明人類如何創造了可以模擬、強化,甚至超越人類心靈 (the human mind)的機器。本片細數了從政治理論家Herbert Simon和數學家Allen Newell二人在1955年聖誕節前後聯合打造了第一台會思考的機器(電腦)開始,到目前科學家如何試圖透過機器人研發來促使AI強化人類智慧,這期間AI研發理論的變化等,是所有想要理解AI是什麼的人都應該看的影片。除了吸取AI相關知識,對製播新聞的人們來說,更能從這支影片中觀摩到如何把一個如此複雜的問題,以不到一小時的時間簡明講述,而且幾乎完全不用CG和字幕。

AI發展的模式,基本上分為兩種。第一種是經典人工智慧(classical AI),它的原理是透過人類教電腦,透過程式寫作提供電腦規則,讓電腦去做模仿人類的事。但是很快的,科學家就發現這種模式行不通――AI無法解決甚至像過馬路這樣簡單的問題。

第二種模式是由電腦自己學習,也就是「機器學習」(machine learning)的模式。原理是提供電腦大量的資料(data),讓電腦從資料中學習,自己發現資料內在模式。影片中用來解釋的例子,就是讓電腦區分正常郵件和垃圾郵件的資料模式,然後減少垃圾郵件的數量。

經典人工智慧模式是一種理性思考模式(rational thinking),而機器學習模式是一種潛意識的學習模式(subconscious learning),亦稱深度學習。在影片中,Google的研究員告訴主持人Al-Khalili教授,只要讓電腦自我學習玩遊戲300次左右,AI玩遊戲的能力即可達到人類的水準;這顯示AI的學習非常快速,玩遊戲時不只可以馬上找到贏的策略,它可以找到甚至人類自己也不知道的策略。

1988年,卡內基梅隆大學移動機器人實驗室主任漢斯.莫拉維克(Hans Moravec)[3]提出了著名的Moraved悖論,內容是說:大量的演算,對於電腦是容易的,對於人腦是困難的;但是如何讓看到的事物產生意義,對於人腦是容易的,對於電腦卻非常困難。例如,一個兩歲的幼童可以辨識的東西(辨識媽媽是否真的在生氣),對於電腦而言卻是無比困難的事。

AI發展到今天,接著要問的問題有:AI可以有真正的情感(emotion)嗎?AI會快樂、悲傷、忌妒、可以有意識地行動嗎?AI科學家認為,下階段的AI研究可能不是去了解成人做什麼,而是去掌握18個月至兩歲的嬰幼兒做什麼和如何做。同時,持續探索如何讓電腦思考趨近於人腦思考的創新模式,也是AI科學家努力的方向。

最知名的AI模擬人腦深度學習的例子,應該是在2016年AlphaGo以五戰四勝打敗南韓棋王李世乭。 今天,AlphaGo 已經透過無監督、強化學習(reinforcement learning)的方式升級為AlphaGo Zero

可以確認的是:會思考的機器的演化,是人類迄今最偉大的發明。

【註解】

[1] EBU News Report 2019 The Next Newsroom, https://www.amic.media/media/files/file_352_2172.pdf

[2] 關於「視覺動能」(visual energy)的簡單介紹可參照此網頁:https://wild-eye.com/understanding-visual-energy/

[3] 著作有《智力後裔:機器人和人類智能的未來》、《機器人:通向非凡思維的純粹機器》等書。