生成式AI再進化!打段文字就能產出超細膩影片,OpenAI發表全新AI模型「Sora」

在人工智慧領域持續引領風騷的OpenAI,這回又帥了一把。

在聊天AI機器人、AI繪師之後,OpenAI又推出了一項新科技,只要使用者給出一段文字描述,就能產出細節豐富的(OpenAI的說法是「現實且富有想像的場景」)的高品質AI影片。在昭告天下Sora橫空出世的說明中,OpenAI特地強調「本頁面的所有影片都由Sora直接生成,未經修改」(All videos on this page were generated directly by Sora without modification)。

OpenAI在15日發表的公告中表示,該公司正在教授人工智慧「理解和模擬運動中的物理世界」,希望訓練模型幫助人們解決需要現實世界互動的問題。目前OpenAI推出的解決方案,就是文字轉化視訊的人工智慧模型Sora:目前Sora已經可以根據用戶的文字提示,產生長達一分鐘的高品質影片。

OpenAI已經發表9段Sora影片,包括走在熱鬧東京街頭的時尚女性、踏著白雪皚皚奔跑的猛獁象、無人機視角的海浪拍擊大蘇爾加雷角懸崖、在白雲之下閱讀的年輕男性。OpenAI指出,Sora對語言有深入的理解,能夠準確地解釋用戶提示、產生充滿情感的影片,也能夠在一支影片中創建多個鏡頭,準確地保留角色和視覺風格。目前Sora尚未正式對所有用戶開放,OpenAI指出,Sora主要提供視覺藝術家、設計師和電影製作人訪問權限,希望從中獲取如何改進Sora的有效反饋。

不過OpenAI也承認,目前的Sora仍有一些缺點需要改進,包括難以準確模擬複雜場景的物理現象、無法理解因果關係的具體實例。舉例來說,影片中的角色可能咬了一口餅乾,但是他咬過的餅乾卻沒有咬痕。目前Sora對於空間還掌握的不準確(比方說分辨左右),也還做不到精確描述隨著時間推移發生的事件(比方說鏡頭的推移)。目前OpenAI也正在跟「錯誤訊息、仇恨內容和偏見等領域的專家」合作,希望強化偵測誤導性內容、也找出Sora被濫用的風險。目前Sora能夠拒絕違反使用政策的文字提示(像是極端暴力、性內容、仇恨圖像、名人肖像等),也能對已經產出的AI影片進行二次檢查、並且分辨該影片是何時由Sora生成的。

《華爾街日報》指出,除了OpenAI,包括Alphabet(Google母公司)以及Meta Platforms也在開發新的AI影片技術。這次Sora所生成的AI影片,事實上是OpenAI執行長阿特曼(Sam Altman)上週在社群媒體公開徵求網友的文字描述,然後再向世人展示Sora的真本事。阿特曼當時在X上寫道:我們想向你們展示Sora能做什麼,不用擔心你的要求太細,或是難度太大!

由於美國總統大選年底即將登場,OpenAI也正在設法避免深度偽造(Deep Fake)跟假訊息的風險。雖然將AI生成影片加上浮水印可能有幫助,但水牛城大學的資工系教授呂思偉(Siwei Lyu)表示,其實浮水印也有可能被有心人移除,並且對當前社會帶來更多挑戰;卡內基國際事務倫理委員會(Carnegie Council for Ethics in International Affairs)的AI研究員亞瑟・米歇爾(Arthur Michel)則表示:「每當有功能更強大的產品發布時,被濫用的方式也會越來越多。」

更多風傳媒報導