NVIDIA輝達運用人工智慧與NVIDIA Omniverse打造出栩栩如生的《霹靂遊俠》KITT

NVIDIA Research正在開發一款全新的深度學習引擎,可以使用基本的2D影像來建立3D物件模型,並且能夠在NVIDIA Omniverse中將影集《霹靂遊俠》裡那輛AI人工智慧霹靂車KITT這類極為經典的車輛化為現實。

由位在多倫多的NVIDIA AIResearch Lab開發的GANverse3D應用程式,能將平面影像打造成逼真的3D模型,並且可以在虛擬環境中進行視覺化的呈現和控制。這項功能可以幫助建築師、創作者、遊戲開發者和設計師輕鬆地在他們的模型中加入新的物件,無需3D建模方面的專業知識,也不用花費大筆預算進行渲染。舉例來說,將一張汽車的照片變成一個3D模型,這個模型可以在虛擬場景中行駛,車上還配有逼真的頭燈、尾燈和方向燈。

為了產生訓練用的資料集,研究人員利用生成對抗網路(GAN)來合成從多個視角描繪同一物件的影像,就像攝影師圍繞一輛停放的車子走動,並從不同的角度進行拍攝。這些多視角影像被插入一個用於製作反影像的渲染框架中,這便是從2D影像推論出3D網格模型的過程。

使用多視角影像進行訓練後,GANverse3D只需要一張2D影像便能預測出一個3D網格模型。此模型可以搭配3D神經網路渲染器,讓開發人員可以控制自訂物件和背景交換。如果將GANverse3D當作NVIDIA Omniverse平台的擴充項目進行匯入,並且在NVIDIA RTX GPU上運行,便能透過GANverse3D把任何2D影像重新打造成3D物件,例如將1980年代熱門電影影集《霹靂遊俠》中,那輛深受觀眾喜愛、協助主角打擊犯罪的經典汽車KITT。

過去用於製作反影像的模型將3D形狀作為訓練資料

NVIDIA 研究科學家、同時也是這項研究的主要發起人Wenzheng Chen表示:「現在無需使用3D資產,我們便能將一個GAN模型變成一個超高效率的資料生成器,如此一來就能使用網路上的任何2D影像來建立3D物件。」NVIDIA 研究人員且同為這項研究的發起人Jun Gao表示:「由於我們訓練使用的是真實影像,而非依賴合成資料的一般訓練管道,因此,所打造出來的人工智慧模型更適用於實際的應用程式。」

NVIDIA 將在接下來的兩場會議上發表GANverse3D背後的研究成果,分別為五月的國際學習表徵會議(International Conference on Learning Representations;ICLR)與六月的國際電腦視覺與模式識別會議(Conference on Computer Vision and Pattern Recognition;CVPR)。

從平面影像到立體的KITT

遊戲、建築與設計領域的創作者,使用像NVIDIA Omniverse模擬與協作平台這樣的虛擬環境來測試新的想法,並且在打造最終產品前,以視覺化的方式呈現原型。開發人員透過Omniverse Connectors,便能在Omniverse中使用他們喜愛的3D應用程式,以即時光線追蹤技術來模擬複雜的虛擬世界。

不是每個創作者都有足夠的時間和資源為他們繪製的每個物體建立3D模型。渲染一台展示間裡的汽車或街道上的建築物,所需捕捉的多視角影像成本可能會令人望之卻步。這正是經過訓練的GANverse3D應用程式可以派上用場的地方,將一輛汽車、一棟建築物,甚至一匹馬的標準影像,變成可以在Omniverse中進行自訂及製作動畫的3D物件。

研究人員為了重建霹靂車KITT,將汽車影像丟進訓練好的模型,讓GANverse3D預測出相應的3D紋理網格,還有車輪和頭燈等各種車輛零件。他們接著使用NVIDIA Omniverse Kit和NVIDIA PhysX工具,將預測出的紋理變成高品質的材料,讓霹靂車KITT的外觀和感受更加真實,並將其置於動態的駕駛序列中。

NVIDIA 深度學習工程師Jean-Francois Lafleche表示:「Omniverse讓研究人員可以將令人興奮的先進研究成果,直接帶給創作者和終端用戶。在Omniverse中提供GANverse3D擴充項目,藝術家們將能為遊戲開發、城市規劃,甚至是訓練新的機器學習模型,創造更豐富的虛擬世界。」

GAN推動維度轉變

從不同角度捕捉同一物體的實體資料集實屬罕見,通常是使用ShapeNet等合成3D資料集來訓練大多數將影像從2D轉成3D的AI工具。為了從網路上的公開汽車影像等實體資料獲得多視角影像,NVIDIA的研究人員改為使用GAN模型,在神經網路層進行操作,將其變成一個資料生成器。研究團隊發現打開神經網路的前四層與凍結剩下的十二層,會使得GAN從不同視角渲染同一物體的影像。

凍結前四層和變動其它的十二層,神經網路會從同一個視角產生不同影像。研究人員手動分配標準視角,在特定高度和相機距離下拍攝車輛,便能從單個2D影像中快速產生出多視角資料集。最終使用GAN所產生出的55,000張汽車影像而訓練出的模型,表現優於使用熱門Pascal3D資料集所訓練出的反影像網路。

歡迎閱讀ICLR論文全文內容,報告作者為Wenzheng Chen、NVIDIA 研究員Jun Gao和HuanLing、NVIDIA多倫多研究實驗室主任Sanja Fidler、滑鐵盧大學(University of Waterloo)學生Yuxuan Zhang、史丹佛大學(Stanford)學生Yinan Zhang,以及麻省理工學院(MIT)教授Antonio Torralba。CVPR論文的其他共同研究人員包括Jean-Francois Lafleche、NVIDIA 研究員Kangxue Yin和Adela Barriuso。

NVIDIA Research團隊由全球超過兩百名科學家組成,專注於AI、電腦視覺、自動駕駛車、機器人和繪圖等領域。在本週GPU技術大會NVIDIA 執行長黃仁勳的主題演說中,可以取得更多關於NVIDIA 最新研究及產業突破的資訊。

4月23日前可以免費報名參加GTC大會,與會者可於5月11日前觀看喜歡的內容;《霹靂遊俠》內容由Universal Studios Licensing LLC.提供。

以上資料來自NVIDIA

延伸閱讀:
「Red Bull Bar Block無夜城」結合互動表演與調酒體驗!5/1限定登場、最後倒數售票中
精緻飲食融入酒吧餐食!噶瑪蘭威士忌攜手石本工作室推出華人年節餐酒組合

👉 最新上架汽車車款:https://autos.yahoo.com.tw/latest-cars

👉 最新上架機車車款:https://autos.yahoo.com.tw/latest-bikes

👉 搜尋更多新車規格:https://autos.yahoo.com.tw/new-cars/

👉 更多熱門新車排行:https://autos.yahoo.com.tw/popular-cars

👉 熱門中古車排行:https://autos.yahoo.com.tw/popular-used-cars/