雅虎科技新聞: [癮人物] 解放人工智慧影像分析與應用可能性的幕後推手，台大徐宏民教授

Chevelle.fu

更新時間： 2017年10月18日下午11:40

這幾年在人工智慧領域的分支當中，基於類神經網路的深度學習技術成為市場大熱門，而 NVIDIA 在台灣大學成立 AI Lab ，幕後的推手就是由過去在業界擁有豐厚影像技術經驗的資訊工程學系以及資訊網路與多媒體研究所徐宏民教授。

源自對影像分析與辨識技術的熱情由產轉學

徐教授是由業界轉向學界的代表性人物，他曾為台灣知名影音技術公司 CyberLink 的創始員工，熱愛軟體與影音技術，相信軟體技術為未來產業核心。同時也因為接觸 DVD 內容管理後，與影像分析結下不解之緣；當年他因為聽了一場影像辨識與搜尋相關的演講，毅然決然離開當初為當紅炸子雞的 CyberLink ，投入影像辨識技術的研究領域。

不過相較當時熱門的影像編解碼，影像辨識技術並沒有明確的市場和應用，在相機技術尚未成熟的時代，數位影像資料的數量與品質相對匱乏。

然而如同許多技術都是由美國軍方與政府機關應用開始，當時徐教授在紐約哥倫比亞大學攻讀博士學位，所處的實驗室從事跨語言新聞節目視訊分析與搜尋，對各國大量視訊內容所出現的人、事、物進行辨識。

在大約 2004 年時，徐教授的實驗室定義出 LSCOM 技術進行新聞事件中的重要物件與事件偵測，約可以辨識 400 項左右的物件、人物和事件等，在當時已經是相當先進的技術。

而為了提升運算效能，在只有 CPU 運算的時代，他們透過手動撰寫程式碼進行運算處理，其間接影響日後徐教授在進行平行運算研究與開發時，對於基礎理論有更深刻的認知。

學成歸國與 CUDA 結下不解之緣

徐教授在 2007 年回到台灣，當時數位影像隨著網路的普及已開始蓬勃發展，無論是傳統相機的數位化或是數位監控等，皆已產生大量且品質良好的影像數據，再加上網路相簿的出現，都對日後影像分析打下穩健的基礎。

談及與 GPU 平行運算的結緣就必須回溯到 2012 年年底他受邀到日本京都歐姆龍演講，會後一位日本老先生與他提及深度學習技術在影像辨識的應用似乎已經有所成果，不過當初他的認知仍停留在類神經網路是未能蓬勃發展且不被受關注的技術，但他後續仍找了許多相關資料，才得知當年 ImageNet 利用消費性 GPU 加速的系統結合深度學習架構，一舉突破數位影像辨識的門檻。

不過真正開始接觸影像辨識，則是在隔年的夏天，徐教授也不諱言的表示，當時的契機是因為美國微軟研究院舉辦了影像搜尋競賽，提供一萬美金的獎金，新穎的比賽方式與豐厚的獎賞驅使徐教授的學生們躍躍欲試，組團參加競賽。

比賽方式是由參賽隊伍訓練一套系統，此系統要在十秒以內針對由微軟提供的問題，判斷關鍵字與影像是否意義吻合。對此團隊中就有學生開始利用卷積網路的特徵值來增益搜尋品質，實驗成果不僅讓他們獲得全球比賽冠軍，更讓徐教授決心在 2013下半年開始投入研究深度學習的影像與視訊分析技術，如今豐碩的成果也證實當時的決定是正確的。

研究資源專注投入 GPU 與 NVIDIA 合作設立 AI Lab

徐教授明白要投入一項技術開發，需仰賴前人的智慧與豐富的生態圈，因此便注意到 NVIDIA 不僅供應硬體，也積極投入開發 CUDA 和深度學習加速套件。更重要的是，CUDA 技術的應用已有相當龐大的社群，能夠相互分享與探討各類應用與技術，並有許多具有經驗的開發者提供各類相關輔助套件。

徐教授與學生的研究多以大量的影像數據為基礎進行分析，系統需要龐大的資料吞吐量，若是以雲端架構進行光是在資料傳輸就需要耗費大量時間，此外，即便透過純 CPU 分散架構進行運算，除了運算能力不足的問題外，資料在系統間的傳輸也相當緩慢，尤其在單靠內部學術網路更是難以負擔，因此在台大架設高效能的 GPU 運算中心是當務之急，藉由導入 GPU 架構後，不僅能提升單一伺服器的運算效能，同時藉由高速匯流排連接各主機，大幅改善影像數據分析的大量需求。

徐教授與團隊從一開始選擇 Tesla K20 與 Tesla K40 搭配伺服器作為主要架構，並選用消費級 GPU 讓學生進行計畫初期的基礎試驗，後續的成果再移植到伺服器上。因為積極投入 GPU 與深度學習的開發，不知不覺徐教授與團隊購買了許多 GPU 產品，引起 NVIDIA 的注意並開始與徐教授接觸，想瞭解徐教授是何許人物、又把他們的 GPU 用在什麼領域。

NVIDIA 長期以來除了針對研究人員與機構提供軟硬體的支持外，同時也重視發展相關的產業生態圈，因此在去年推出基於 Pascal 架構的 DGX-1 人工智慧超級電腦後，便宣布提供一套DGX-1給徐教授並合作成立 NVIDIA AI Lab。同時在今年 NVIDIA 推出 Tesla V100 後，徐教授與團隊也獲贈兩張具備最新人工智慧與深度學習架構技術的 Tesla V100 GPU。

徐教授點出實驗室近期使用深度學習框架的趨勢，過往多半以 Caffe 為基礎，自去年起 TensorFlow 宛若後起之秀與 Caffe 平分秋色，今年 TensorFlow 則反超 Caffe 成為實驗室最主流的框架，其原因在於 Caffe 雖然具備較好的效率，但卻缺乏調整的彈性，而學生的研究需要自行設計學習網路結構，容易調整、更動的 TensorFlow 自然更為合適。

自詡不是做傳統 AI ，而是從事機器學習的影像技術分析與應用

由於當前深度學習趨勢以基於影像分析的混合訊號應用為主，不少人都會直覺認定徐教授所從事的是 AI 應用，但徐教授認為 AI 是一個廣泛的議題，他所做的是以機器學習為基礎，發散出創新的影像以及混合數據分析應用。

影像分析不僅只有商機，在從事過程中所面對的挑戰亦可化為樂趣，在新技術的導入及運算效能的提升時，也能夠有許多顛覆想像的創新應用，例如今年徐教授與團隊就挑戰透過無人機的鳥瞰角度拍攝並分析下方的車輛數量，乍看下似乎相當簡單，但鳥瞰角度相較平面角度更富挑戰，不像平面視角的車輛有立體層次，如何將影像中的車輛正確圈出、並進一步正確判斷停在樹蔭下的車輛，就是這次的研究課題，此項計畫花費近兩年的時間也終於做出成果，十月即將在頂尖電腦視覺會議 ICCV 發表。

其他應用的可能性舉凡醫療影像的分析、照片的管理與產線自動化檢測等，都是目前各產業正在著手的應用，徐教授也特別舉出關於太陽能管理相關創新應用，其藉由 Sky Camera 的影像進行分析，作為日照發電效率的評估使用，此外，還有透過手機拍攝 2D 物體照片後，從影像資料庫中找出符合形狀特徵的 3D 模型，其中牽涉複雜的運算處理，將 2D 物件分析後轉為 3D 模型的重建與對照，這項應用將對於工業生產與藝術設計有極大的幫助。

雖然徐教授現在身處學術單位，不過由於先前業界的經驗與豐碩的研究成果，徐教授的研究團隊也樂於與產業界交流與合作，目前包括與台灣 NAS 品牌群暉科技合作的照片辨識、光寶集團的視訊安全監控、與微軟合作透過影像辨識將照片寫成的詩集、聯發科的影像辨識相關合作、與 IBM 華生研究中心合作完成第一個 AI 自動剪輯的電影預告片等，都是目前徐教授與業界結合的實證。

他認為AI技術能夠應用領域很廣，如果能夠專注在「提升產能、效率和安全」的應用上，對於台灣整體產業發展，將帶來革命性的轉變。尤其是在於其將產出的大量資料與資料單位價值高的幾個領域，例如：製造、能源、健康醫療、交通和 IT 等，都是值得大量投資 AI 技術的領域。他也迫切指出，將 AI 技術透過產學合作轉移到這些產業類別是緩不濟急的，因此他也協助台大資工的系友們成立專注在工業界 IoT 混合訊號的 AI 新創公司慧景科技 (Thingnario)，希望這些前瞻技術可以盡快在台灣產業深耕發熱。

其他人也在看