生成式 AI 湧入影像賽道!OpenAI、Google 陸續投入,它們各自強在哪?

自生成式 AI 發展以來,從文字、圖片到音樂,它幾乎能夠生成所有類型的內容,先前《麻省理工科技評論》曾預測,生成式 AI 的第二波熱潮將再度襲來,而在風口浪尖上的,是影片生成工具。

OpenAI Sora 粉墨登場

2 月 16 日,OpenAI 發布了幾個生動、擬真的短影片,內容包括幾頭長毛猛獁象在雪地中前行、海浪拍打著懸崖邊緣,也有人們的日常生活,比如讀書或走在城市街道上的畫面。這些影像是由 Oepn AI 執行長艾特曼(Sam Altman)上週在 X 上蒐集網友的文字提示後,透過旗下影像生成模型「Sora」製作而成。
OpenAI 指出,Sora 對語言有深入的理解,能夠準確地解釋用戶提示、產生充滿情感的影片,也能夠在一支影片中創建多個鏡頭,準確地保留角色和視覺風格。

不過 Sora 目前對複雜場景的描繪,以及特定因果關係的理解還有待加強。例如影片中有人咬了餅乾,可是後面場景出現的餅乾卻還是完好如初;或者影片中的人物沒有跟著鏡頭的軌跡移動;偶爾也會搞錯文字提示的細節,像是左右方向之類的。

各大巨頭都投入 AI 生成影片,它們各自強在哪?

不只 Open AI,各家科技巨頭,像是 Google 等公司都在尋求新 AI 影片生成技術的發展機會。

Google 日前發表了全新生成式 AI 模型「Lumiere」,同樣主推影片生成,除了可以用文字敘述來產生影片外,也可將圖片轉換成影片。

《The Verge》指出,Lumiere 甚至可以做到將影片轉換成不同的視覺風格,如果不知道該如何形容所希望的風格,也能附上參考圖片,讓 AI 去仿造出有著相似元素的影片,此外它也可以局部替換元件,比方說使用者想要改變影片中人物的服裝,或者做小範圍的修改,只要將想替換的區域圈選出來、輸入關鍵字,AI 就會自動修改。

去年年底,Meta 公開影片生成模型「Emu Video」,讓用戶能夠根據文字和圖像輸入來生成影片剪輯,未來打算將這個技術結合到旗下 Facebook 和 Instagram 產品中,對此,卡內基美隆大學研究生成人工智慧的教授朱俊元(Jun-Yan Zhu,音譯)表示,AI 影片生成的高可近性將使產製 TikTok 或 Reels 短影片變得更加容易。

一位從事影像編輯的工作者,看了 AI 生成的影片之後表示:「你可以看出這不是真實的影片,但如果沒人告訴我這是 AI,我會覺得是 CGI。」可見 AI 生成影片的真實程度雖不到百分之百,但確實已經進步到難以分辨機器還是人製作的階段。

AI 生成影片的隱憂:Deepfake、仇恨內容

美國水牛城大學(University at Buffalo)Media Forensic Lab 主任劉思緯(Siwei Lyu,音譯)認為,隨著像 Sora 這樣的 AI 程式不斷湧現,除了要面對影像和音檔深度偽造的現有挑戰之外,也要防範不肖份子濫用科技製作仇恨、歧視等內容。

對此,Open AI 表示:「我們也在開發有助於檢測誤導性內容的工具,比如檢測分類器,它可以分辨影片是何時由 Sora 生成的。」Google 在 Lumiere 的聲明稿中,也提出同樣的看法。

卡內基國際事務倫理委員會(Carnegie Council for Ethics in International Affairs)研究 AI 和監控技術的資深研究員米歇爾(Arthur Holland Michel)認同,使用檢測分類器是積極的做法,可以在影片發布前對影片進行分析,以標記裸露或暴力等有問題的內容。

「每當有功能更強大的產品發布時,被濫用的方式也會愈來愈多。」米歇爾說,這也是所有科技公司在推進新科技時,必須關注的課題。

資料來源:The VergeMetaWall Street Journal

更多報導
AI 世代來襲!面對未來工作挑戰,你最須具備的十種關鍵能力
訓練 ChatGPT 循序思考!以「思維鏈」概念設計提示詞,回答更深入
2024 職場趨勢:AI 題材夯!每月釋 2.4 萬個工作機會,含金量大增 38%