影視產業的人工智慧運用與管理

運用AI軟體創作的人臉圖像 創圖者@richy
運用AI軟體創作的人臉圖像 創圖者@richy

人工智慧具有為善和作惡的巨大潛力。 這就是為什麼我們同時發現它既迷人又可怕。AI透過某些原則,如: 可解釋性、信任、隱私、多元化,同時還有表達、創造力和創新的自由來影響著人類的社會和每日生活。 如果人類能夠設法將所有這些目標結合起來,人工智慧在很多方面都是人類的福氣。當然,除非有一天埃隆馬斯克(Elon Musk)最糟糕的噩夢變成現實 : 機器接管世界。 好在這種反烏托邦的未來並沒有出現。至少還沒有出現。

截至目前為止,人工智慧可以在下列領域應用。

1. 自動駕駛汽車。目前發展無人車輛的人工智慧公司有特斯拉、谷歌和蘋果。

2. 醫療保健領域,AI被用於支持醫生。 人工智慧系統可用於疾病診斷、分析治療和結果之間的關係、發現與劑量相關的問題、在手術過程中支持外科醫生、支持放射科醫生解釋圖像以及開發新藥。

3. 市場營銷、經濟和金融。 公司和金融機構是市場分析、流失預測、價格預測、股票監管、投資組合管理、演算法交易等人工智慧系統的第一批採用者。人工智慧也被有效地用於減少欺詐和金融犯罪。

4. 媒體。 特定的 AI 應用程序可以對電視節目、廣告、電影和視頻等媒體內容進行分析。 典型用法是指人臉或物體識別、自動字幕、相關場景識別、內容概括等。 另一個應用包括監控媒體內容的適用性或自動檢測與廣告相關的適當/不適當的標誌和產品。

5. 新聞和出版。如今,許多公司都在使用人工智慧技術來自動生成新聞和報導。通過人工智慧,公司還能夠編寫文本。應用程序的一個示例是生成體育賽事的回顧。 另一個知名的案例是華盛頓郵報的一套叫做 ”Arc” 的軟體,為出版業提供數據分析與行銷的功能,達到由資料驅動 (data-driven) 新聞的目的。運作方式則是透過A/B測試,同一則新聞以不同版本(不同標題、圖片、故事框架…等)發出,之後根據上線讀者瀏覽行為做成數據分析,後台的電腦便及時將新聞更換成最受歡迎的標題、圖片和故事框架。

5. 音樂。人工智慧在一定程度上允許模仿人類的作曲,並幫助人類演奏音樂或唱歌。 計算機伴奏技術能夠聆聽和跟隨人類表演者,以便他們可以同步演奏。交互式作曲技術使人工智慧能夠對現場音樂家的表演做出音樂作品的響應。最後,像 Google Magenta、Sony Flow Machines 或 IBM Watson Beat 這些軟體能夠在分析大型歌曲數據庫後以任何風格創作音樂。其他的音樂人工智慧應用還包括音樂營銷和聆聽服務。

6. 深度偽造 (Deepfake)是通過人工智慧技術創建的合成媒體內容。通常,它們是使用深度學習方法將一個人替換為其他人的圖像或影片。用於創建深度偽造的主要方法涉及生成方法的訓練,例如生成對抗網絡 (GAN)或自動編碼器。 儘管深度偽造可用於喜劇目的,但它們更廣為人知的是惡作劇、“假新聞”、名人色情影片和財務欺詐。因此,政府和企業都在努力開發人工智慧工具來檢測和限​​制它們。原因在於,在可預見的未來,人工智慧可能不僅可以創建逼真的圖像和影片,還可以創建完整的媒體內容,例如電影、電視劇以及真人秀和益智等電視節目。

AI如何應用於視聽行業?

視聽產業,傳統上是指電影、電視和互聯網視聽內容的生產和營銷。如今,傳遞消息的方式常常是混合的——這些方法甚至可以由數據驅動的人工智慧系統根據個人喜好自主選擇。 人工智慧的潛在應用範圍已經多種多樣,並且正在快速發展到我們甚至無法想像的領域。 然而,將相同的監管規則應用於自動翻譯、自動駕駛汽車、敏感的個人數據和先進的相機技術,僅舉幾個應用領域,既不明智也不有效。

那麼我們應該如何把握這個問題呢?首先,我們應該努力增加對人工智慧在視聽行業不同用途的後果的理解。由於它們差異很大,即使是粗略的分類也有助於理解應受監管保護的價值。如果沒有更好、更複雜的分類,我們可以在這裡使用歐洲廣播聯盟關於如何在公共服務新聞中使用人工智慧的報告中:“下一個新聞室”,所採用的分類,它可以作為一個基本框架來了解不同類型的人工智慧技術對視聽行業的戰略意義何在。

首先,人工智慧可以被視為越來越多的實用工具。這是純粹操作層面的人工智慧,主要在於自動化重複性任務並降低成本。例如,包括用於編輯和媒體管理任務的 AI 系統在內的解決方案眾多,並且它們的採用率正在以顯著的速度增加。在檔案中使用轉錄和翻譯語言以及檢測特定材料的工具,使材料的再利用更容易、更快,並改變生產中的價值創造邏輯。 例如,德國之音 (Deutsche Welle) 使用基於 AI 的語言處理,只是為了讓新聞編輯室在其多種語言的新聞操作中能及時了解正在發生的事情。 瑞士廣播公司 (Swiss Broadcasting)是開發先進系統以檢測存檔影片片段中的人和地點的公司之一。

愛爾蘭廣播公司 (RTE) 和半島電視台甚至合作創建了一個系統,該系統可以測量政治人物在競選期間的通話時間並標記可能存在監管問題的內容。該系統基於一種先進的方法,不僅可以檢測圖片中的物品和人物,還可以檢測它們的上下文。

人們可以合理地問:這些工具中有什麼特別之處需要特定的監管嗎?或者以負責任的方式使用這些工具就足夠了。畢竟,這些只是幫助完成工作的工具和技術。

其次,人工智慧允許創建精通數據的文化,這種文化依賴於定義和了解您的目標,並根據目標學習衡量和優化的方法。這也允許對 AI 進行非常戰略性的使用:根據個人客戶的偏好和行為來定位訊息並優化其價值。

相同類型的優化和個性化 AI 也用於優化視聽運營的財務結果,例如通過測試不同消息的有效性或識別有趣的市場集群和機會來提高營銷活動的效率。

在數位技術創造的豐富時代,一項基本挑戰是在雜亂無章中找到好的內容。因此,需要將內容與對此內容感興趣的閱聽眾聯繫起來。這種優化不僅限於在線產品。例如,西班牙的 RTVE 有一個相當具前瞻性的研究題目,即使用 AI 演算法設計電視調度。 他們問:在一天中的特定時間或一周中的特定日期,哪些電視節目適合那些觀眾的口味?這是不是就可以取代傳統的收視率調查?

從技術上講,連接所有使用者的設備已經成為可能,這些設備提供有關使用者的音樂偏好、觀看的電影、電視節目的資訊,甚至可以從他們的個人健康設備中檢測他們的情緒,然後將他們引導到最佳內容。 添加有關天氣、工作日曆和當地交通的信息,使用者就有了一個非常強大的個人助理,隨時隨地為他們提供現在可能有趣的資訊。所有這些服務都已經存在,而且大多數都基於視聽內容。實際上,一些全球科技巨頭已經在提供這樣的東西。想想谷歌助手或蘋果的服務組合能夠做什麼,以及所有這些功能結合在我們手機的操作系統上,而使用者正被這些公司所控制。

第三,人工智慧可用於獨特的流程,旨在創造更好、更獨特的內容。 這不僅涉及優化和重複已經完成的工作,還涉及創建全新的方法,而不受人類大腦的限制和偏見的影響。 這個領域帶來了有趣的挑戰,因為有時機器創造的好結果實際上並不比人類創造的好,或者根據我們的道德準則可能是不可接受的。 另一個有趣的角度是當計算機參與過程和工作時如何保持創造力和藝術動機以及身份的問題。

人工智慧具有為善和作惡的巨大潛力。 這就是為什麼我們同時發現它既迷人又可怕。 在這份報告中,沒有關於如何監管人工智慧的簡單願景,但在所有作者的腦海中似乎(以一種或另一種方式)某些原則:可解釋性、信任、隱私、多元化,同時還有表達、創造力和創新的自由。 如果我們設法將所有這些目標結合起來,人工智慧在很多方面都是人類的福氣。

當然,除非有一天埃隆馬斯克(Elon Musk)最糟糕的噩夢變成現實 : 機器接管世界。 但這種反烏托邦的未來並沒有出現。至少還沒有出現。

整理歐洲廣播聯盟(EBU)2019年的年度新聞報告《下一個新聞編輯室》

歐洲廣電聯盟( EBU)2019年的年度新聞報告《下一個新聞編輯室》( The Next Newsroom)提到AI是好用的新工具,新聞界應該好好運用 (AI is a handy new tool: use it!)。其中並介紹了BBC的一部影片(p.22) https://www.dailymotion.com/video/x6xwhs3

這部影片叫做 AI met the archive, 由數學家Dr. Hannah Fry和一位虛擬的主持人共同主持。影片內容主要講述BBC的AI研發團隊如何讓機器學習創造影片。首先,科學家們將影像(video)的模組找出來,共分為1. 發現對象(objection detection), 2. 旁白分析(Subtitle analysis), 3. 視覺動能(visual energy),和4. 機器學習 (Machine learning) 等四個步驟。然後讓機器透過BBC數量龐大的video archive的raw data來自我學習如何產製影片。

第1個步驟,發現對象

機器會以文字概念記錄下它所掃描過的影片,並記錄下來。例如: 穿黑衣的男人。這是運用影像辨識(image recognition) 和社會學習理論(social learning theory) 達到辨識和紀錄的功能。

第二個步驟,旁白分析是找出旁白中的重點單字(概念),例如: 人類,語言戰爭、數學戰爭、戰爭以及一些連接詞,例如: really, probably, 一些動詞,例如: tell等,是屬於語料分析。

第三個步驟,visual energy,則是記錄下影片的能量指數 (energy index) 和框架活動 ( frame activity)。

https://wild-eye.com/understanding-visual-energy/

上面這個連結是對於visual energy的簡單介紹。我們可以把這個概念譯為視覺動能,它受到影像亮度、色彩、形狀等的影響。在BBC的這個影片中,我們可以看到他們的團隊在讓AI自我學習的過程是提供影片中的「能量指數」和 「框架活動」兩組資料。

第四個步驟,機器學習

讓AI透過BBC數量龐大的video archive中儲存的raw data來自我學習,以發現資料的模式 (pattern)。

在影片中,我們尚未能看到BBC的AI小組能夠創造出任何有意義的影片。其理由,我們可以在另一支BBC的影片中找到答案,The Joy of AI 。簡單地說,截至目前為止,AI發展最大的困難是科學家們還無法找到讓機器可以學習到意識 ( conscious)、情感 (emotion),和產生意義 (making sense of)的方法。

https://www.dailymotion.com/video/x7takq4

這部影片是由Jim Al-Khalili教授主持的。他是伊拉克裔英國的理論物理學家,作家和主持人。他是薩里大學理論物理學教授,並擔任公眾參與科學的主席,也是BBC廣播和電視台科學節目的定期播音員和主持人,並且經常在其他英國媒體中評論科學議題。

Al-Khalili教授在影片中說明人類如何創造了可以模擬、強化,甚至超越人類心靈 ( the human mind) 的機器。本片細數了從政治理論家H.Simon 和數學家Allen Newell二人在1955年聖誕節前後聯合打造了第一台會思考的機器 (電腦 )開始,到目前科學家試圖透過機器人的研發,使AI能夠強化人類智慧,這期間AI研發理論的變化等,是所有想要理解AI是甚麼的人都應該看的影片。鏡電視的各位,更應該好好觀摩,除了可以吸取AI相關知識,更應該學習人家是怎麼能夠把一個如此複雜的問題用不到一小時的時間講述得如此清楚的。

AI發展的模式,基本上分為兩種

第一種是經典人工智慧 (classical AI),它的原理是透過人類教電腦,透過城市寫作給電腦規則,讓電腦去做模仿人類智慧的事。但是很快的,科學家就發現這種模式行不通。AI 無法解決甚至像過馬路這樣簡單的問題。

第二種模式是由電腦自己學習,也就是機器學習( machine learning)的模式。原理就是給電腦大量的資料 (data),讓電腦從資料中學習,自己發現資料的模型(pattern)。最簡單的例子,就是讓電腦區分正常郵件和垃圾郵件的資料模式,然後來減少垃圾郵件的數量。我們在前一支影片AI met the archives中看到的,就是BBC的AI團隊將電視影片區分為1. 發現對象(objection detection), 2. 旁白分析 (Subtitle analysis), 3. 視覺動能 (visual energy), 再讓AI透過大量的資料自己去找到資料類型(data pattern),進而可以沒有人類智慧的介入而製作出影片。

經典人工智慧模式是一種理性思考模式 (rational thinking),而機器學習模式是一種潛意識的學習模式 (subconscious learning)。

1988年,漢斯·莫拉維克(Hans Moravec) 卡內基梅隆大學移動機器人實驗室主任。著作有《智力後裔:機器人和人類智能的未來》、《機器人:通向非凡思維的純粹機器》,提出著名的Moraved 悖論: 大量的演算,對於電腦是容易的,對於人腦是困難的 ; 但是如何「看到意義」(making sense of what we see), 對於人腦是容易的,對於電腦卻是非常困難的。 例如,一個兩歲的幼童可以辨識的東西 (辨識媽媽是否真的在生氣),對於電腦而言卻是無比困難的事。

AlphaGo被譽為人工智慧研究的一項標誌性進展,在此之前,圍棋一直是機器學習領域的難題,甚至被認為是當代技術力所不及的範疇。但是棋局裁判托比·曼寧和國際圍棋聯盟的秘書長李夏辰都認為將來圍棋棋士會藉助電腦來提升棋藝,從錯誤中學習。

台灣大學電機系教授于天立認為,Google能夠成功結合深度神經網路、加強式學習和蒙地卡羅樹狀搜尋三種演算法,其成果值得喝采。他認為這種技術應該適用於一般連續性決策問題。因為AlphaGo可以在眾多可行的決策中,適當分配運算資源來探索此一決策所帶來的好處及壞處,並且可從探索中回饋修正錯誤。不過于天立也提到,即使AlphaGo所使用的學習模型比較具有一般性,它離真正完全通用的學習模型仍有一段距離。