從ChatGPT到Midjourney,回顧AI生成大爆發的一年!未來還有哪些應用?

今年AI席捲全球,從生成圖像的Midjourney和Stable Diffusion,再到本月竄紅的ChatGPT,不論是圖像還是文字,都突破了我們的想像,也引發了不少人的擔憂。

本週,開發ChatGPT的研究組織OpenAI又推出了一個開源3D模型生成AI「Point-E」,儘管生成結果相較陽春,主要是許多點狀生成的「點雲」模型仍有諸多限制,但生成速度已經相當快,一個模型只需一到兩分鐘。

延伸閱讀:ChatGPT崛起,Google發布紅色警戒!一款聊天機器人,怎麼嚇到搜尋龍頭?

「AI起飛」的2022年

今年4月,OpenAI推出了AI製圖模型DALL-E升級後的版本「DALL-E 2」,主打輸入敘述文字,就能產生與文字內容相應的圖片;但此模型當時並沒有開放大眾使用,只有開發人員能夠「有限制的使用」,主要是因為OpenAI意識到深偽(Deepfake)與散播暴力、虛假內容等風險。

 圖/OpenAI
圖/OpenAI

除此之外,還有分別在7、8月開放Beta版供大眾使用的Midjourney和Stable Diffusion,也在網路社群掀起了浪潮,讓人人都能成為「藝術家」。甚至在8月底美國的科羅拉多州博覽會美術大賽,一張由Midjourney「輔助」創作的作品奪得大獎,更是掀起了大眾輿論及正反聲浪。

 圖/維基百科
圖/維基百科

爾後,在10月Meta又推出了短片生成系統Make-A-Video,儘管明顯是假的,甚至模糊扭曲,但這不可否認地又是一項突破。

此外,線上生產力工具Canva、微軟旗下的Office也都在近期接連宣布,將把AI圖像生成模型引入自家平台,讓使用者製作出更有創意的文件。雖然圖片版權來源仍是許多使用者撻伐的緣由,但這也展現了科技巨頭擁抱AI的趨勢。

只不過,在社會或法律得到一個共識之前,惡意使用的問題仍頻傳,大數據也赤裸裸地反映文化或性別偏見,甚至可以被使用者很輕易地繞過限制,生成暴力或不適當的影像。

延伸閱讀:有文字就能做圖!Canva也導入AI生成圖像功能,如何讓簡報更漂亮?

AI核心技術:「擴散」,原理是什麼?

視覺藝術家與設計師們今年連連受到挑戰,地位似乎搖搖欲墜,但生成式AI所使用的核心技術「擴散(Diffusion)」,究竟是怎麼一回事?

「擴散」一詞源自於物理學當中,氣體或液體均勻分布到一個空間。但在物理學中,擴散是自然發生的且不可逆的,例如擴散到咖啡中的方糖無法恢復為立方體形式。但是機器學習中的擴散,是重組這些被破壞的數據(即訓練AI的資料內容),從而獲得從雜訊中「恢復」數據、重組出一塊方糖的能力。

更詳細的說,AI擴散運作的方式,就是透過添加雜訊慢慢破壞數據結構,然後再從這些被「拆解」的數據中,透過篩選、「降噪」與隨機採樣等步驟,就可以獲得一張全新的圖。

而想要從文字敘述中獲得圖像,還得再經過一個模型叫做「CLIP」。擴散這項技術其實已經行之有年,但OpenAI創新的CLIP讓擴散變得更實用、精準。

CLIP會在擴散的階段,根據給定的文字內容對生成的數據(例如圖像)「評分」。在訓練AI的一開始,生成的CLIP評分會非常低,因為在訓練初期AI能生成的主要只有雜訊。但隨著擴散系統不斷從雜訊中重建數據,會慢慢接近匹配提示,這就像一個未雕刻的大理石,雕刻大師會告訴新手在哪裡雕刻,而CLIP會在不斷重複的過程當中引導擴散系統,到更高分數的圖像結果。

AI發展,不只在影像

那麼由CLIP引導的擴散模型能做什麼呢?除了創作圖像,研究人員還嘗試使用引導擴散模型來創作新音樂。

Harmonai是一家獲得Stability AI資金支持的組織,而Stability AI是Stable Diffusion背後的倫敦新創公司。Harmonai發布了一個利用擴散、以數百小時的現有歌曲進行訓練來輸出音樂片段的模型。

在創造內容之外,甚至可以用來合成 DNA 序列、發現新藥,或是發現新的疾病治療方法。正如《麻省理工學院技術評論》本月早些時候報導的那樣,新創公司Generate Biomedicines和華盛頓大學的一個團隊研發了一個擴散模型,以生成具有特定特性和功能的蛋白質設計。

Generate Biomedicines透過解開構成蛋白質的氨基酸鏈來製造「雜訊」,然後在研究人員指定的限制條件下,將隨機的「氨基酸鏈」放在一起,來形成新的蛋白質。另一方面,華盛頓大學的模型則研究有關蛋白質片段應如何組合在一起的資料數據,而這些資料數據來自於一個經過訓練以預測蛋白質結構的AI。目前他們已經藉此找到一種可以附著在副甲狀腺激素(控制血液中鈣水平的激素)上的蛋白質,效果比現有藥物更好。

AI的未來將會走向哪裡?強大而快速的機器學習不免會讓人擔憂許多工作、甚至人類藝術的可取代性。不過不管是圖像生成AI與ChatGPT要走上提高專業度、甚至商業化,仍有一段路要走;在科學研究方面,AI作為輔助,也將可以提高研發的效率。

資料來源:TechCrunch(1)TechCrunch(2)AI Summer

責任編輯:錢玉紘

更多報導
ChatGPT崛起,Google發布紅色警戒!一款聊天機器人,怎麼嚇到搜尋龍頭?
有文字就能做圖!Canva也導入AI生成圖像功能,如何讓簡報更漂亮?
靠AI繪圖卻收費300元,合理嗎?Midjourney是藝術界的新工具還是隱憂?