Google Deepmind 的 Genie 2 模型可以創建虛擬的 3D 世界
但 Deepmind 並沒有打算開放一般大眾試用。
今天不知道是 AI 新聞的什麼黃道吉日,繼 Microsoft 的網頁分析機器人 Copilot Vision 開始測試,以及 OpenAI 推出新的 ChatGPT Pro 訂閱位階之後,Google Deepmind 這邊也發表了新一代的 Genie 2「世界模型」,可以生成一個虛擬的 3D 世界,讓你在裡面跑動並改變視角。
這類的模型並不是真的生成一個 3D 的世界,而是一種擴散模型,可以持續由當前的畫面,去建構如果視角轉動或移動後,玩家可能看到的畫面。這類系統的優點是一切都是模型「幻想」出來的,因此光影效果、煙霧、水、物理效果等都不會多花什麼運算力;但缺點就是它常常會一轉頭就「忘了」之前生成過的物件,當你再轉回先前的視角時,可能畫面上的東西就都和之前不一樣了。
這類系統最著名的例子大概就是 Decart 的 Oasis 模型,可以生成一個虛擬的 Minecraft 世界來遊玩,不過雖然 Minecraft 的世界已經偏簡單了,但 Oasis 依然經常記性不佳。Deepmind 號稱 Genie 2 在這方面有極大的進步,可以記得已經離開畫面的物件,並生成長達 60 秒「一致」的世界。但可惜的是,Google 分享的範例都只有幾秒長而已,而且除了第一個太空船的範例外,並沒有太多真的看向別的地方再看回來的例子。
DeepMind 沒有詳細說明它是如何訓練 Genie 2 的,僅聲稱它依靠「大規模的影片資料集」。DeepMind 也沒有計畫在近期開放大眾使用 Genie 2,目前該模型主要是用於訓練和評估其他 AI 代理(包括其自己的 SIMA 演算法)的工具,並且讓藝術家和設計師可以快速將想法轉為視覺上的概念。至於更遠的未來,DeepMind 認為像 Genie 2 這樣的世界模型,可能會在通往通用人工智慧的道路上,發揮重要作用。
Introducing Genie 2: our AI model that can create an endless variety of playable 3D worlds - all from a single image. 🖼️
These types of large-scale foundation world models could enable future agents to be trained and evaluated in an endless number of virtual environments. →… pic.twitter.com/qHCT6jqb1W— Google DeepMind (@GoogleDeepMind) December 4, 2024