從第一性原理出發,分析AI會如何改變視覺內容的創作和分發

作者 | 圖形起源CEO史海天

編輯 | 石亞瓊

今年AI生成圖像能力進步得非常快。快到什麼程度呢?三四月份的時候,AI還很難畫出一個正常的人臉,到九月份的時候,AI已經可以把人臉畫的惟妙惟肖了。

要知道,我們對人臉的觀察是非常敏銳的,很容易能察覺到哪怕很細微的錯誤。

而下面這幾張圖都是使用者使用今天的AI在30s的時間裡畫出來的圖:

使用者在Draft.art上創作的人像作品

可見,今天的AI對“人應該長什麼樣”的理解已經非常準確了。

AI和人不同的是,一旦它畫出了一張漂亮的人臉,它就可以持續地畫。而且隨著從更多的資料中學習,水平還能不斷提高。

因此也難怪周圍美術行業的朋友感慨要失業了。

那麼,AI“畫”一張圖的原理是什麼?它的學習方式是什麼?未來AI作畫會以多快的速度進步?AI作畫會如何影響創作者們的利益?

我們可以從第一性原理出發,來逐個分析這幾個問題:

AI作圖的原理

AI創作能力的根源來自神經網路這項技術。

我們爭取用最簡單的方法給沒有知識背景的同學講清楚什麼是神經網路,為什麼神經網路可以在30s的時間裡把一張精美的圖像畫出來。

人的神經元長這樣:

人的神經元

科學家受人類神經元啟發,設計出的人工神經網路長下面這樣:

人工神經網路

一般講神經網路就是指這種人工的網路。

其實實際的神經網路都是用數學公式表示的,沒有實體結構,圖裡面的這些圈和連線是對神經網路的一種可視化呈現。

這些圓圈起什麼作用呢,我們想像每個圓圈裡都有一個計數器,當這個計數器接收到左邊連線傳來的數時,會進行一次簡單的計算,然後把計算結果(也是一個數)輸出,通過連線傳給右邊的圓圈,繼續重複類似的過程,直到數字從最右側的圓圈輸出。

我們腦子裡的不同神經元之間連接的強度是不一樣的,有些粗一點,有些細一點。正是這些連接強度,讓我們產生了記憶和知識。

對於電腦神經網路來說,也有相似的規律:圓圈和圓圈之間的連線的“權重”不同。權重是連線的一個屬性,當數字在一條連線上傳遞的時候,要乘上這個連線代表的“權重”。因此,當數字經過這些連線以後,會因為乘過了不同的權重,導致輸出結果的改變。

因此,對於整張神經網路而言,其中的各個圓圈之間的連接權重,決定了神經網路的輸出!

神經網路連線

神經網路運行的過程是:

我們給神經網路左邊輸入一系列數字,神經網路會按照圓圈裡的計算規則,和連線上的權重,把數字從左到右計算和傳遞,最終,從最右側的圓圈輸出一系列數字。輸入一組數、輸出另一組數,這就是神經網路的運行過程。

為什麼這樣一個網路可以“生成圖片”呢?

我們看看圖片是什麼:

電腦裡的圖片是由像素組成的,每個像素代表一個顏色,當像素排列的足夠多、足夠密集的時候,一張有內容有顏色的圖片就出現了。

我們知道,眼睛看到的顏色是由光的三原色組成的,相似地,電腦裡的顏色也是由3種基本色組合成的。

每個像素的顏色都可以用三種基本色(紅、綠、藍)疊加出來。

像素顏色

那麼,如果用數字來記錄每個像素中紅、綠、藍的比例,我們就可以把一張圖片表達成一張由數字組成的表格了:

圖片的像素表格

當我們把這堆數字展開,按特定順序排成一排的時候,圖片就變成了一串數字。

反之,我們把一串符合長度要求的數字堆在一起,再從裡面按照紅、綠、藍的比例還原出色彩的時候,我們就把一串數變成了一張“圖片”。

而文字又是什麼呢?

假設電腦共儲存了10w個漢字,我們把十萬個數字“0”從左到右排列起來,讓每個漢字對應一個位置並記錄其對應關係。

當我們想表達某個字的時候,我們找到這串數里對應這個字的位置,然後把這個位置的0改為1,其餘位置仍然是0。這樣,我們就可以把一個漢字轉化成這樣 0,0,0, ..., 1, ...,0,0 的一串數。

當我們用多串這樣的數連在一起的時候,我們就可以表達一個包含多個漢字的句子了。

當句子可以被轉化成一串數以後,就可以被輸入“神經網路”了。

比如我們把 1, 5, 4, 9, 3 這串數輸入神經網路,意思就是,讓電腦把 1、5、4、9、3 分別加到第一排的這些圓圈上,並按照規則繼續往後傳遞。

數字輸入神經網路

數字們在神經網路的圓圈和連線之間不斷傳遞,最後通過最右側的圓圈輸出:

神經網路運算

輸出的結果也是一串數字。

此時,我們按照數字轉圖片的規則把輸出的這串數轉換成一張圖片,那麼從原理上我們就實現了“通過句子生成圖片”的目標。

只不過,當我們沒有對神經網路進行訓練的時候,其輸出的數字是很隨機的,因此轉換出來的圖片內容也是完全混亂的。

為了讓神經網路輸出“正確”的圖片,我們需要對神經網路進行“訓練”。

按照前面的知識,我們知道影響神經網路輸出的是神經網路的權重。

那麼如何改變神經網路裡的連接權重,來讓神經網路輸出我們希望輸出的內容呢?

比如我們想讓神經網路生成一隻貓的圖片。

第一步,讓沒有訓練過的(也就是隨機權重的)神經網路接收到“貓”這個詞,直接進行計算。按照我們上面的知識,代表“貓”的一串數經過從左到右的傳遞後,出來的這串數可以轉化成一張圖片。

但此時因為沒有訓練,得到的這個圖片是一堆亂碼,和貓沒有關係。

神經網路生成貓圖

我們粗略認為,如果神經網路輸出的圖像和貓的圖像比較接近的話,說明神經網路“更理解”貓長什麼樣,說明神經網路更會畫“貓”;如果和貓的圖像差距很大的話,證明神經網路不太會畫“貓”。

有知識背景的同學知道這裡面存在很多隱含假設,但是通俗來講,訓練神經網路的基本思路就是希望就是通過改變神經網路的權重,使得神經網路輸出的圖片和正確圖片之間的差距變小。

如何量化兩張圖片之間的差距呢?

方法就是用代表兩張圖片的那兩串數直接做減法,相減後結果越接近0,說明兩張圖片“越像”。

訓練後神經網路生成貓圖過程

那麼我們如何讓神經網路的權重朝著這種“結果差距變小”的方向改變呢?

這裡用到了一個“反向傳播”的方法。“反向傳播”就是我們可以讓輸出結果之間的“差距”,去返回去改變神經網路的權重,讓代表結果的差距的訊號在神經網路中“反向”傳播。感受一下這個過程:

訓練過程

怎麼用結果的差距改變權重呢?

最簡單的理解是,你讓一個權重增大一點,試試結果如何,如果結果的“差距”變小了,說明權重增大是正確的,那麼你就真的增加這個權重;如果“差距”反而變大了,那就說明權重增大是錯誤的,你就減小這個權重。以此類推,在固定住其他權重的情況下,把每個權重都按這種方法最佳化一下。經過漫長的很多次循環之後,理想情況下,整個神經網路的權重分佈就會讓輸出的結果越來越接近“正確”結果了!

訓練結果反向訓練

比如當這樣最佳化500輪之後,神經網路輸出的數字轉化成的圖片已經很接近“正確”的貓的圖片了,那我們就可以認為,這個神經網路已經學會畫“貓”啦!

那麼,理解了最基本的神經網路原理以後。我們看看今天最先進的AI生成技術是什麼樣的。

它其實就是幾個不同神經網路的組合!大概長這個樣子:

(右圖是簡化版本)

裡面有三個神經網路在起作用。

【句子轉換網路】的作用就是把輸入的提示語轉化成一個後面網路更好理解的數串。

【生成網路】的作用是接收到代表提示語的數串和處理後的參考圖後,輸出一張圖像。

【放大網路】的作用是把生成網路輸出的圖像進一步放大,提高解析度和清晰度。

根據上面的原理,其實一個網路經過大量訓練,理論上就可以完成詞語轉換和生成圖片的全部任務。為什麼要設計多個網路分工的結構呢,是因為經過大量科學家的探索,發現這樣的結構,在訓練成本上和出圖效果上都比較理想。

未來可能會出現更複雜的生成式AI模型設計,但神經網路的這種基本原理不會有太大的變化。

AI創作能力會如何變化?

明白了AI作圖的原理後,我們想知道未來AI創作會如何變化呢?

我們來做一個小實驗:

打開Draft.art,輸入提示語:“精靈寶可夢照片”

Draft官網

等待30s,得到的結果如下:

訓練結果

可以發現,AI畫出來的寶可夢不夠理想。

為什麼AI有時候能畫出讓人驚喜的完美作品,比如前面的人臉;有時候又不夠理想?

這和AI學習到(用於訓練)的資料有關。

我們找到今天知名的AI生成模型Stable Diffusion所用的真實訓練資料看一看:

Stable Diffusion訓練資料

可以發現,Stable Diffusion主要學習的是真實照片,還有一少部分美術作品。

使用什麼樣的資料訓練AI,AI就會掌握這種資料代表的知識。因此如果資料裡面缺少比如“寶可夢”等元素的時候,輸入“寶可夢”等關鍵詞,AI當然就很難生成理想的結果。

我們進一步來驗證以上觀點:

我們試著對模型進行單獨地訓練,增加一些我們希望學習的資料。

蒐集一組寶可夢的圖片,我們讓AI針對這26張圖片進行新的一輪訓練,

AI針對模型訓練

訓練約半個小時後,再次運行AI模型,輸入:“精靈寶可夢照片”

得到了下面一組截然不同的結果:

AI針對模型訓練後生成結果

能看出來,訓練後的AI明顯學習到了寶可夢的線條、配色、動物的特徵和調皮的風格。甚至能有機地把不同小精靈的特徵結合在一起了。

而實現以上過程,我們只用了26張圖和20分鐘的訓練時間。

可見,AI目前最大的問題不是“不夠聰明”,而是“書讀得太少”。

如果我們使用大規模的、精準整理、完善標註過的圖片資料,供AI學習,在特定領域下,AI生成的能力將會大幅度提高。

AI創作能力在未來短時間內的進步速度,也將取決於各行各業收集和訓練行業優質資料的工作。

AI會引發創作行為的範式轉移

首先說結論:

從2022年開始,AI生成會對視覺內容的創作和分髮帶來一次巨大的範式轉移。

範式轉移是托馬斯·庫恩在《科學革命的結構》中提出的一個概念。

蒸汽機、電話、火車、電腦、網際網路行業的出現都是範式轉移的典型代表。

想像一下,在這些產業出現之前,人們已經有了一整套成熟的辦法去解決生產、通訊、交通等問題。

但當這些新技術出現之後,此前的解決方案和相關產業在短時間內就被徹底顛覆了;同時,圍繞新技術路線產生的產品快速接管了人們的需求。比如網際網路上出現的各種網站和智慧型手機上出現的各類app,分別替代了網際網路出現之前的各類線下服務——這就是範式轉移的力量。

為什麼AI會帶來一次視覺創作的範式轉移呢?

我們從第一性原理出發,看一看今天的視覺創作流程長什麼樣:

以概念設計師為例,今天一位概念設計師的工作流程是:

接到需求——蒐集參考——構思——出圖——和甲方溝通修改

設計師理解需求後,一般會先找一找相關的作品,獲取思路。

概念設計師會在哪裡找作品:

概念設計師常用官網

搜尋引擎、Pinterest這樣的推薦引擎、Artstation這樣的原創作品網站。

設計師在搜尋引擎上找到的圖片來自更上游的原創作品網站,比如artstation、behance等。

比如我們在Pinterest和A站上搜尋“機器人”,能看到大量機器人的設計方案。

Pinterest和A站

設計師從這些作品中獲得什麼?

獲得創意和想法。

比如,機器人的體型怎麼設計好看;有哪些好看的配色方案;應該選取圓潤還是銳利的線條特徵;畫面中應該有哪些機械元素;機器人的表情應該長什麼樣;有哪些材質;什麼樣的光影更有表現力...

設計師人腦思考

這些創意由知名的設計師或藝術家,根據自己的生活觀察、天賦和行業經驗創作出來,以圖片的形式發佈在各個網站上,受到版權的保護,獲取收益。

而設計師為了獲取創意,通過搜尋引擎、推薦系統、付費購買等辦法來蒐集這些作品。

這些作品給設計師提供的創意,是設計師用來構思方案的重要“原材料”。設計師用這些原材料結合自己的想法,圍繞設計需求,反覆組合、探討、篩選,最終產生了新的方案。

AI創作帶來了什麼改變呢?

AI因為能夠直接從網際網路上學習幾乎所有的圖片作品,並具有強大的抽象能力,因此AI幾乎可以把設計師需要的配色、構圖、筆觸、線條、光影等細節都學習到。

AI擁有了這些視覺知識後,當使用者給出一段提示語時,就能夠立刻在自己高達數百維的高維知識空間中尋找匹配的特徵,快速進行排列組合,然後畫出一張組合了多個藝術家風格和創意的作品。

AI模型創作

整個過程都是在1分鐘以內完成的。

比如之前舉的機器人和仙人掌怪物的例子:

AI生成圖片效果

設計師的目標是要設計一款致敬某個遊戲畫風的、方塊形態的仙人掌怪物角色。

雖然荒野亂鬥、方塊形態、仙人掌、怪物,都不是生僻的概念,但是想在網際網路上直接找到一張同時結合了以上特徵的方案,很難,很少。

而AI生成就不一樣了,這種多個特徵的有機組合對AI來說非常容易

只要AI通過資料分別學習到了什麼是荒野亂鬥、什麼是方塊、什麼是仙人掌、什麼是怪物角色,AI就可以毫不費力地把這些概唸完美地融合在一起,真的像一個設計師一樣想出來一個靠譜的方案給你。

這是今天的網際網路圖片網站不具有的能力。

這顯然是非常鮮明的“新範式”特徵——過去的解決方案望塵莫及。

“新範式”特徵

這種範式帶來的核心變化是:

建立了一個可以不通過圖像傳遞創意的通路。

新範式核心變化

當AI從源頭學習到藝術家的創意和情緒,並在終端按照具體需求畫出來的時候,中間大部分的圖片檔案儲存、傳輸、分發和交易環節,就失去了其價值。

所以我想AI創作最大的價值並不是畫圖本身,而是它帶來了一種全新的創意流通方式,在“創意—圖片—網站—圖片—創意”之間建立了一個更短的:

“創意—AI—創意” 通路。

對創作者的影響

那麼,這種新範式下,上游的創作者會受什麼影響呢?

自AI創作逐漸走入公眾視野後,大量反對的聲音來自上游的藝術家。原因是AI對原有的圖片版權造成了巨大的破壞。

我們看下面這張圖:

500px上攝影作品

這是一張500px上的攝影作品。

500px是一個版權保護很好的攝影網站,當你在這個圖片上點選右鍵想保存的時候,他會提醒你這是某位藝術家的原創作品。

而電腦會怎麼獲取這張圖片呢?

進入開發者模式,逐個檢查網頁元素,直到找到這張圖片所在的元素:

開發者模式對該照片的分析

點選其來源連結:

https://drscdn.500px.org/photo/1054244408/q%3D80_m%3D2000/v2?sig=a7273d918c7482ba81dae3be9c139849e29ad29e442e8e8480eb7e17d8687b50

我們就直接得到了這張圖片的高畫質原始檔案。

原始圖片

因此,電腦用指令碼拿到一張圖片比人容易很多。哪怕圖片網站做了層層保護,讓我們無法用指令碼獲取原圖,從原理上說,只要是人能看到的圖片,從技術上都變成被AI學習的資料。

因為可以截圖。

對於AI來說,裁掉一些邊角、有水印,都不是問題,你把截圖交給AI,它仍然能學習到圖片特徵。

所以AI從原理上確實會對今天網際網路圖片版權產生影響。

如果AI會影響版權生意,那麼過去以版權作為收入的藝術家們該怎麼辦呢?

其實藝術家反而可以利用這個變數為自己獲得新的收益。

藝術家的貢獻在於能夠產生優質的“創意”,而下游創作者需要的正是“創意”本身。

創意是比圖片更本質的價值載體,是這些圖片背後的價值。

因此如果能夠把藝術家在“創意”交易中的貢獻進行定價,那麼理論上我們就可以為藝術家帶來一種適應AI創作的新型收益模式。

我們能不能量化藝術家在AI創作中的貢獻呢?

可以。

研究生成式AI的演算法會發現,在生成圖像的過程中引入一種“注意力機制”,就可以精準定位詞語對畫面的影響。

比如我們用AI生成“一隻熊和一隻鳥的照片”,得到以下結果:

AI生成“一隻熊和一隻鳥的照片”

在生成過程中,如果我們對“熊”這個詞引入注意力機制,就可以把“熊”這個詞對畫面的貢獻記錄下來:

同理,也可以把“鳥”這個詞對畫面的貢獻記錄下來:

我們可以清楚地看出“熊”和“鳥”兩個關鍵詞分別在不同的區域,以不同的強度對最終的圖像產生了影響。通過計算每個關鍵詞影響的區域面積和強度,我們就可以量化各個關鍵詞的貢獻了。

對神經網路來說,“熊”“鳥”等詞,和一位藝術家的名字是沒有差別的,可以使用同樣的方法量化它們的貢獻。

如果我們將藝術家關鍵詞對生成圖像的貢獻視為藝術家本人的貢獻,我們從原理上就可以為藝術家的創意價值定價了。

如何具體計算藝術家應得的收益呢?

一次的生成費用乘以本次生成過程中某位藝術家的貢獻比例,就是這位藝術家在這次生成任務中產生的價值。

產生的價值扣除平台的分成,就是藝術家理論上因貢獻創意產生的收益。

假設一個月內,平台共生成1000w張作品,涉及該藝術家關鍵詞的作品有50w張,平均每張貢獻為0.2,每張的平均生成費用為1元,平台分成20%,那麼藝術家本月在平台上的稅前收入為:50w×0.2×1元×80%=8萬元。

如果藝術家的關鍵詞出圖效果很好,被足夠多的使用者反覆使用的時候,他的收入很快會超過傳統的版權收入。

需要注意的一點是,在AI新範式下創作,要考慮什麼樣的內容更利於AI學習和AI生成使用。

因為AI學習的是圖片內容和提示詞的對應關係,因此與其花大量時間創作一張包含很多內容、畫面特徵複雜、很難用一句畫描述清楚的作品,不如創作很多小作品。

比如,用統一的尺寸和構圖、最好是三檢視,創作出一個角色後,更換不同的裝備、髮色、身材,出一整套圖。然後清晰、詳細地用語言描述每個圖的特點,用的什麼裝備、代表哪種身材、髮色是什麼、角度是什麼。

創作的時候就想像使用者在進行AI生成的時候,會對AI提出哪些要求,按照這些維度去創作圖像和提示語。這樣的資料會更容易被AI學習,更利於使用者使用和付費。

AI新範式下創作

經常使用AI創作的朋友會發現,國外AI創作論壇裡公開的提示語中經常會包含一些特定的人名,他們很多是CG領域的知名藝術家。

比如上圖的這位greg rutkowski,就是A站上的一位波蘭藝術家。

A站上的一位波蘭藝術家

他的作品估計被收錄進了訓練資料當中,所以可以被AI生成出來。

因為他的畫面風格鮮明,類似油畫的厚重筆觸和有史詩感的配色風格,放在提示語中會大大提高最終的畫面效果,因此今天很多使用者都把他的名字作為提示語的一部分。

藝術家的風格分析

如果greg rutkowski在一個根據關鍵詞計算貢獻給他分成的平台上入駐,為這個平台提供自己作品的高畫質資料集,號召使用者使用其關鍵詞生成作品,按照他今天可能每天上百萬次的關鍵詞引用頻率,也許已經實現日入數萬甚至數十萬的收益了。

總結

最後放一些作者的思考。

一直以來,藝術創作和設計都是少數人的工作。

雖然大多數人都有審美,能判斷好的內容,但兩個因素限制了普通人創作它們:一個是創意,普通人不可能每天在海量的作品中學習積累創意;另一個是表達,就算腦子裡有一個畫面,要做成圖像,總得借助些技能。比如素描、油畫、水彩,包括3D建模,對普通人來講都有很高的門檻。

今天的AI解決兩個問題:一個是學習創意,它比以往的模型都能更準確地學習畫面中的創意,而且學習的範圍是整個網際網路當中的圖像,沒有任何一個勤奮的畫家能夠學這麼多作品。二是視覺表達,AI在理解創意的基礎上,生產出一張圖像的速度遠遠高於人類畫師。同時邊際成本也很低,畫一張畫,也就是正向傳播一次神經網路的算力成本,大約在幾分錢到幾毛錢之間。也就是說今天的AI從底層改變了遊戲規則,接下來會看到以下變化:

1)不會畫畫的人用AI生產高品質視覺作品

2)網際網路上難以估量的圖像資料被重新組織起來,圍繞模型訓練和資料標註產生新的生意

3)圖片版權名存實亡,參與建立AI資料整合為藝術家的主要收益

4)傳統圖像處理軟體、3D建模軟體被圍繞AI範式建立的新工具取代

10年後再往回看,這可能會成為一個歷史節點。

新的節點

“鐵匠在啤酒中灑下眼淚,悲嘆自己沒有辦法在鐵路時代賣馬掌,但是這並不會使他們的馬掌更受歡迎。那些學習變成機械師的鐵匠才會保住自己的飯碗。”

本文由「36氪To B產業報導」原創出品, 轉載或內容合作請點選 轉載說明 ;違規轉載必究。

尋求報導 。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪