2022,Google、抖音和百度湧向AIGC

就在本月,WSJ 引述知情人士稱,作為 2022 年爆紅的聊天機器人 ChatGPT 背後的公司,OpenAI 正在談判以收購要約的形式出售現有股份, 這起交易對 OpenAI 的估值達到 290 億美元左右。在 2021 年的一場交易中,OpenAI 的估值還只是在 140 億美元左右。

估值高漲的背後不只是因為 ChatGPT,OpenAI 旗下另一個 AI 生成圖像模型——DALL-E 2 同樣展現了生成式 AI 的能力可以有多高。2022 年,從 Stable Diffusion 以開源形式引爆 AI 創作,到 GPTChat 一週內就突破了百萬級使用者註冊,全球出現了無數生成式 AI 的產品和創業公司,文字、圖像乃至視訊,掀起了巨大的 AIGC(人工智慧生成內容)浪潮。

AI 繪畫,圖/抖音

基於 Stable Diffusion 開源模型,位元組也推出 2022 抖音年度爆款「AI 繪畫」,統計顯示有 2758.3 萬人使用過這款特效。 抖音和快手都看到了 AIGC 技術在圖像應用上的巨大價值,快手對 AIGC 的佈局也證實了這一點。快手在 11 月聯合百度 AI 數字人希加加、度曉曉等發佈短影片,進行 24 小時 AI 直播,還通過 AIGC 技術進行作畫、寫詩、寫歌詞等。

6 月,一位Google高級軟體工程師甚至聲稱,Google開發的對話式 AI LaMDA「有意識、有靈魂」,但隨後很快被Google否認。而在一個月前,Google剛剛在 2022 年 I/O 大會上公佈了 LaMDA2,稱其為Google有史以來最先進的對話式 AI,與年底紅遍全球的 ChatGPT 有著相同的語言模型技術和原生應用場景。

12 月 16 日,知名學術期刊《科學》雜誌公佈了 2022 年十大科學突破, 記錄一年裡最重大的科學發現、進展和趨勢,其中一項就是「AI 具備創造力」。用我們更熟悉的詞就是:AIGC,即基於 AI 能力的內容創作。

當 AI 開始擁有大規模創造內容的能力,很多事情都可能被顛覆。

AI作畫開始大眾化

圖/OpenAI

2022 年 4 月,人工智慧研究公司 OpenAI 發佈了新版本的文字生成圖像程序——DALL-E 2,隨後一張由 DALL-E 2 生成的「宇航員在太空騎馬」圖片開始躥紅社交網路。

相比前代,DALL-E 2 生成圖像有了更高的解析度和更低的延遲,同樣基於使用者描述文字進行生成。不過和之前 OpenAI 推出的產品一樣,DALL-E 2 開始並不對外開放,僅限部分研究人員註冊使用該程序,一直到 9 月才宣佈向公眾開放使用,每月僅限 15 個免費圖像。

這也為下半年 Stable Diffusion 的爆火和流行提供了機會。 如果說上半年最火的「AI 畫師」當屬 DALL-E 2 和 Midjourney,8 月 22 日 Stable Diffusion 發佈之後基本就成了「AI 畫師」的代名詞。

在目前的三大 AI 圖像模型中,Stable Diffusion 誕生得最晚,但由於發展良好的開源社區,它的使用者關注度和使用範圍都超越了 Midjourney 和 DALL-E。任何人都可以免費使用,任何公司也可以基於開放原始碼專案定製自己的 AI 生成圖像程序。

「一個不在乎人工智慧爭論的老藝術家」 ,圖/DrMacabre68

「我們已經看到 3 歲到 90 歲的人第一次開始創作。」StabilityAI CEO Emad Mostaque 在一次採訪中說,該公司資助了 Stable Diffusion 的開發。在海外知名論壇 Reddit 的「StableDiffusion」 板塊 下,每天都有使用者分享通過 Stable Diffusion 生成新的圖像作品。

到現在「AI 畫師」已經可以走入千家萬戶。 使用者可以在本地部署,普通消費級顯示卡就能滿足硬體要求,也可以直接輸入一串網址,直接輸入描述文字開始創作,這是 2021 年 DALL-E 初代發佈的時候不敢想的。

不僅如此,「AI 畫師」出現和流行也在 2022 年挑戰人類的美術和圖片產業。

9 月,全球最大圖庫蓋蒂圖片社(Getty Images)宣佈禁止上傳和銷售使用 DALL-E、Midjourney 和 Stable Diffusion 等 AI 藝術工具生成的插圖。蓋蒂認為 AI 產生的圖片並非是一種人類創造性的藝術品。

《太空歌劇院》,圖/Jason Allen

同月,遊戲公司 CEO 兼遊戲設計師 Jason Allen 通過 Midjourney 生成的《太空歌劇院》,在美國科羅拉多州博覽會舉辦的藝術展中一舉奪得數字藝術組大獎。

但這次獲獎也引起了廣泛的爭論,有人認為這對其他自己創作的人不公平,「這就跟為什麼我們不讓機器人參加奧運會的原因完全一樣。」參加評審的藝術家杜蘭(Cal Duran)甚至表示,他在評分的時候根本沒意識到這幅畫由 AI 生成。

相比之下,百度更加務實,一開始就確定了自己「輔助」定位。8 月,百度基於自身的文心大模型也推出了AI 繪畫平台「文心一格」,更明確定位為面向有設計需求和創意的人群,基於文心大模型智能生成多樣化AI創意圖片,輔助創作者的創意設計。

在技術之外,AI 生成圖像還在探索如何解決版權等一系列問題。

用嘴做視訊?還要再等等

作為 AI 大廠,Meta 和Google實際上沒有缺席任何一個重要的 AI 技術,在 AI 視訊生成上更是獨領風騷。

Meta 在 9 月率先推出了 Make-A-Video,言簡意賅地表達了它的作用:做視訊。更具體地說,Make-A-Video 可以通過文字、圖片或者視訊來生成一個全新的視訊內容,尤其是文字直接生成視訊,直接讓視訊創作的門檻大大降低,比如輸入「機器人在時代廣場跳舞」:

圖/Meta

僅僅一週後,Google 也發佈了自己的 AI 視訊擴散模型 Imagen Video。與 Make-A-Video 相比,Imagen Video 最直接的感受就是清晰度更高——畫面解析度可以達到 1280×768,影格率也能到 24 fps 了。

不過,兩者實際上都還存在畫面不正常抖動、主體畸形、動作不夠流暢等問題,而且與之前推出文字生成圖像程序一樣,Google和 Meta 都沒有選擇對外開放,這也是為什麼相比 AI 畫畫的流行,AI 生成視訊領域更多還是處在看熱鬧的階段——就像 2021 年的 AI 生成圖像。

位元組也看好 AI 視訊模型的未來,在抖音內就支援了「圖文成片」功能,輸入一段文字,軟體智能匹配圖片素材、新增字幕、旁白和音樂,自動生成視訊。從一些創作者的反饋來看, 目前「圖文成片」的實現還很初級,智能匹配和生成視訊兩個環節都很難真正在視訊生產環節中使用。

當下 AI 生成視訊在技術上顯然還不夠成熟,但最近幾年 AI 進化速度在肉眼可見地加快,很難想像今年 AI 視訊模型又會發生什麼樣的質變。

不管 AI 視訊模型是否能在今年再度質變,就如百度移動生態負責人何俊傑在 9 月的 2022 百度萬象大會上所說, 「未來十年,AIGC 將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,創造出有獨特價值和獨立視角的內容。」

可以預期,AIGC 將是 UGC 使用者生成內容出現之後,又一個內容生產的大變革,最直接的應用就是大大降低視訊製作的成本和門檻,這也意味著為視訊內容在供給側的大爆發提供了技術基礎。

那場萬象大會上,百度就推出了基於文心 AI 大模型的「創作者 AI 助理團」,由 AI 文案、AI 畫師和 AI 視訊製作人組成。理想狀態下,借助「創作者 AI 助理團」,一個人就可以是一支視訊團隊。

但顯然,現實是 AI 視訊生成還需要一些時間。

ChatGPT,屬於AI的「初代iPhone」

12 月初,OpenAI 發佈了 ChatGPT——一個對話式 AI,發佈後很快就在小範圍內流行起來,隨後持續發酵並風靡全網。從敲程式碼、寫稿、寫詩、推薦到教你學英語、寫小說,甚至是一場類似人類之間的對談,ChatGPT 都表現出了驚人的語言對話能力。

ChatGPT 甚至一度拉響了Google搜尋的紅色警報。

用 ChatGPT 修 bug,圖/ @amasad

與 OpenAI 之前發佈的產品不同,ChatGPT 選擇面向公眾大範圍公測,短短 5 天,其使用者註冊量就突破了百萬級, 這在網際網路增長集體放緩的 2022 年多少有些不可思議。 即便到了歲末年初,很多使用者依然在使用 ChatGPT 做報告、寫年終總結等事務,可見其表現帶來的使用者粘性。

ChatGPT 之所以脫穎而出,普遍認為很大程度上是因為它採用了很自然的措辭進行對話,有網友評價其使用體驗「就像平常聊天」。而 ChatGPT 背後的核心之一是使用 GPT-3 的新版本 GPT-3.5 來進行對話,該版本擁有 1750 億個模型參數。

事實上,從 GPT-3 引發全球範圍 AI 大模型的軍備競賽開始,這件事一定程度上就是巨頭之間的比拚。Google在 2021 年推出了萬億級參數的 AI 大模型——Switch Transformer,微軟和輝達燒壞了 4480 塊 GPU 後,才開發出 5300 億參數的自然語言生成模型 MT-NLG(威震天-圖靈)。

「錢」,圖/輝達

根據媒體報導,GPT-3 訓練的僅是硬體和電力成本就高達 1200 萬美元(約 7500 萬人民幣),GPT-3.5 應該只高不少。目前 ChatGPT 仍然是免費使用,但顯然 OpenAI 不可能一直免費開放下去。

另一個對話式 AI 的問題在於——自以為是。大量的使用者對話已經證明,ChatGPT 的回答並不可靠,但它又經常以令人信服的方式「胡說八道」。 OpenAI 也承認,儘管 ChatGPT 生成的回答從語氣上已經非常逼近真人,但有時仍會給出完全錯誤的答案。

這不是在否認 ChatGPT 帶來的驚豔。Box CEO 亞倫·萊維認為,「當一種新技術已經到了改變你對電腦的看法時,你會有一種特定的感覺。Google做到了,火狐做到了,AWS(亞馬遜)做到了,iPhone 做到了,OpenAI 正在通過 ChatGPT 做到這一點。」

寫在最後

過去十年,可以說網際網路和智慧型手機徹底改變了內容的分發和消費環節,但在內容生產領域本質上沒有過多的變化。而在過去一年,AIGC 已經帶來了太多的變化,Stable Diffusion、Imagen Video 和 ChatGPT 分別對應了最主要的內容形式——圖像、視訊和文字。

當然,AIGC 還在面對很多挑戰,包括版權、生成質量不穩定、創作主體爭論等,甚至 AI 生成視訊還沒有經過大眾使用驗證。但現如今 AIGC 開始「飛入尋常百姓家」,已經具備了成為一項大眾化技術的基礎,未來很可能極大地提高內容的生產效率和豐富度。

從《太空歌劇院》獲得藝術大獎到今天,AI 的爭論依然沒有停止,但就如 Jason Allen 為自己的事件所做的總結:AI 作畫程序已經誕生,人們能做的只有承認並接受這件事。

題圖來自 StabilityAI

本文來自微信公眾號 “雷科技”(ID:leitech),作者:雷科技網際網路組,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪