圖靈獎得主堅稱「Sora根本不懂物理世界」一文看懂「4大技術步驟」如何做到3D一致性!核心研發團隊全員曝

OpenAI影音生成式AI模型「Sora」,甫推出即造成轟動,除了其逼真成品已讓許多科學家和學者基於「Sora是否搞懂了真實物理世界一事」爭論不休,Sora研究的核心團隊也被挖出,其中包含一位00後、年僅21歲!本文將以更白話的方式帶您瞭解Sora運作4步驟,理解它是如何呈現出畫面的「3D一致性」,同時掌握不同專家的觀點,也帶您深入認識這支傑出團隊成員!

Sora是怎麼運作的?

OpenAI指出,有鑑於大型語言模型(LLMs)的成功演進,Sora是一個「擴散型轉換器模型」,得以將各種類型的視覺數據(包含不同型式規格、時間或格式比例的影音或圖像)轉換成統一展現的形式。

步驟1.將視覺數據壓縮且分解為補丁(patches)

Sora首先會在網絡中將影片(一系列圖像所組成)壓縮為低維度的潛在空間表現狀態,而這個生成的潛在空間也能映射回像素空間。

接續這些「表現狀態」會被進一步分解成時空補丁(spacetime patches),而這些補丁即為模型訓練的基礎單元。

步驟2.擴散過程

在此過程中,Sora接收噪聲補丁,會再逐步「預測」原始(隨機初始化)的「乾淨」補丁。

對比來說,就像是ChatGPT生成文字時,也近似一種模型的預測過程。

<cite>OpenAI詳細圖解Sora運作技術步驟。(圖/翻攝自OpenAI官網)</cite>
OpenAI詳細圖解Sora運作技術步驟。(圖/翻攝自OpenAI官網)

步驟3.轉換器

Sora的核心運作採用了轉換器架構(Transformer architecture)概念,此階段主要為處理序列數據,Sora能有效排列補丁、建立關聯性,進而將文字、圖片生成具高度連貫性和細節豐富的影音。

步驟4.生成

最後,Sora可以在適當的網絡大小中,來控制補丁的排列和尺寸,以生成不同分辨率和不同時間長度的影音,就成了60秒的成果影片。

Sora的成品格式和解析度為何?

Sora生成的影片,最佳解析度為1920x1080或1080x1920,時長最長達60秒,同時也可以輸出2048x2048解析度圖像。

輸出大小優於ChatGPT,相對等於內部伺服器和GPU(顯卡,Graphics Processing Unit)也都比ChatGPT更好,流量更大。

此外,除了光影、液體流動、皮膚粗糙紋路得以細緻呈現以外,畫面亦給人「多鏡頭於三維(3D)空間轉換」的真實感與一致性,或呈現特定物體的不同視角型態。

Sora可以幫你做什麼?

⏹︎ 生成逼真且具個人獨特風格的影片

⏹︎ 為你的影片提升豐富度、增加內容和長度,且保持視覺風格一致性

⏹︎ 可將靜態圖片轉換為完整影片

<cite>Sora生成影像即為逼真且具細膩光影變化。(圖/翻攝自OpenAI官網)</cite>
Sora生成影像即為逼真且具細膩光影變化。(圖/翻攝自OpenAI官網)

Sora到底懂不懂物理世界嗎?

▼ 贊同派:

自OpenAI曝光的Sora60秒成品中,外界看到它對於液體流動和光影變化都處理地極為逼真,這讓輝達AI科學家Jim Fan都忍不住讚嘆且斷言:「Sora是一個數據驅動的物理引擎。」

<cite>Jim Fan也稱Sora是可持續學習的模擬器、是「世界模型」認為它會持續學習瞭解物理世界。(圖/翻攝自推特)</cite>
Jim Fan也稱Sora是可持續學習的模擬器、是「世界模型」認為它會持續學習瞭解物理世界。(圖/翻攝自推特)

▼ 反對派:

不過,這番說法讓圖靈獎得主Yann LeCun感到相當不以為然,針對同議題嚴正指出,他認為「Sora理解物理世界」的看法是錯誤的:「讓我在這裡澄清一個極大的誤解,看起來寫實的影片並不表示系統理解物理世界,生成和『從世界模型中對因果關係進行預測』是完全不同的事。」

<cite>Yann LeCun亦分析說道:「一個『編造東西』的工具在創意輔助方面非常棒,但作為幫助你採取行動的心智模型,它完全不適用。」(圖/翻攝自推特)</cite>
Yann LeCun亦分析說道:「一個『編造東西』的工具在創意輔助方面非常棒,但作為幫助你採取行動的心智模型,它完全不適用。」(圖/翻攝自推特)

Keras函式庫的創始人François Chollet也提出質疑說道:「這些系統能夠對特定物理情況可能的演變做出下一幀的視覺預測。因此,它們確實具有物理模型。但真正的問題是,這個模型是否準確?它能否推廣到新穎的實際情況,而不僅僅是在該模型已經訓練過的內定情況上?

<cite>François Chollet認為Sora並不懂真實世界的物理情況,生成內容也不一定準確。(圖/翻攝自推特)</cite>
François Chollet認為Sora並不懂真實世界的物理情況,生成內容也不一定準確。(圖/翻攝自推特)

科技智能企業家Chomba Bupe也發文直呼,把Sora形容為「數據驅動的物理引擎」的說法相當「愚蠢」,他舉愛因斯坦的例子表示,愛因斯坦花了非常多年的時間才提出重力理論,若如今有人認為Sora的技術和運行過程可以用來和愛因斯坦年輕時在模型訓練期間所獲得的感悟做對比,這是一個值得質疑的事情。

<cite>Chomba Bupe認為,認定Sora理解物理的觀點,是一大錯誤。(圖/翻攝自推特)</cite>
Chomba Bupe認為,認定Sora理解物理的觀點,是一大錯誤。(圖/翻攝自推特)

Sora核心團隊有何來頭?

Sora的團隊成立未滿一年,整個團隊共計有13名成員,其中較特別的是,主要領導人有兩位,分別是Bill Peebles和Tim Brooks,兩人皆相當年輕,為應屆博士!

<cite>(圖/翻攝自OpenAI官網)</cite>
(圖/翻攝自OpenAI官網)

Bill Peebles是於去(2023)年上半年獲取加州大學柏克萊分校博士學位後才成為OpenAI的職員,相當年輕,在輝達和Adobe都有過實習經歷,向來專注研究影像生成、研發模擬技術。

<cite>(圖/翻攝自X/@billpeeb)</cite>
(圖/翻攝自X/@billpeeb)

巧的是,Tim Brooks與他即是師出同門、也同樣在拿到同校博士學位後加入OpenAI,而在研發Sora之前,他已經是DALL·E 3圖片生成模型的主要研究員之一。

<cite>(圖/翻攝自X/@_tim_brooks)</cite>
(圖/翻攝自X/@_tim_brooks)

而除了上述2名主要領導人以外,團隊中另有一位備受矚目的「00後」,名為Will DePue,他出生於2003年、現年21歲,自密西根大學電腦學系畢業後即加入OpenAI。

大學時他曾創立一間顧問公司,這間公司後續還被資訊網路公司「Commsor」看中且收購。

<cite>(圖/翻攝自YT/THE DOCK with Omar Waseem)</cite>
(圖/翻攝自YT/THE DOCK with Omar Waseem)

此外,團隊中還有3位華人,分別是Li Jing、Yufei Guo和Ricky Wang。

Li Jing於2014年自北京大學物理系畢業、2019年獲取美國麻省理工學院物理博士學位,於2022年加入OpenAI;Ricky Wang則是在今年1月才離開Meta、加入OpenAI;至於Yufei Guo則無太多公開背景資訊。

有趣的是,Sora推出後在中國也掀起熱議,曾與Bill Peebles一同發表過論文、畢業於上海交通大學的中國研究學者謝賽寧(Saining Xie)還一度被中國網友誤以為是Sora團隊成員之一。

後續他立即跳出來澄清,說自己並不在Sora團隊裡,不過他透露,Bill Peebles曾說團隊成員基本上不睡覺「高強度」工作了一整年。

<cite>(圖/翻攝自微博)</cite>
(圖/翻攝自微博)

Sora問世後有何隱憂?

1.導致加密貨幣詐騙案變多

國外財經資深記者Martin Young示警,若往後Sora使用率變得普及,可能會被加密貨幣詐騙犯濫用,他們可藉由低成本又快速地方式、來製造深偽影片冒充真實人物和公司,推廣詐騙加密專案。

詐騙犯也可使用Sora來製作虛假名人代言web3和加密專案的合成影音,進行詐欺活動,或是大量製作詐騙影片來宣傳加密幣市場操縱計畫。

2.大選期間遭濫用

史丹佛大學研究員Basile Simon則以「令人恐懼」來描述Sora的問世和AI發展速度,它認為看似逼真的虛假生成內容可以如此高速產出,這樣的成品恐怕也會在大選期間被有心人士濫用,讓大眾不知未來還能相信什麼。

3.部分產業被迫改變

法國OTTA數位內容策略公司創始人Stephanie Laporte則表示,她相信Sora會讓影像製作或廣告等產業被迫發生改變,且促使部分公司傾好使用Sora或其他AI工具,來節省人力預算。

更多風傳媒報導