【于思專欄】為什麼人工智慧不會創造藝術

藝術中有什麼東西讓我們認為它不能像達爾想像的那樣透過按下按鈕來創造嗎?目前,像ChatGPT這樣的大型語言模型生成的虛構內容很糟糕,但可以想像,這類程式將來可能會有所改進。他們能有多好?他們能否比人類更擅長寫小說、繪畫或電影,就像計算機更擅長加法和減法一樣?特德·蔣Ted Chiang發表在最新一期《紐約客》(New Yorker) 的<什麼人工智慧不會創造藝術>( Why A.I. Isn’t Going to Make Art)說,為了創作小說或繪畫,藝術家做出了與人工智慧根本不同的選擇。(To create a novel or a painting, an artist makes choices that are fundamentally alien to artificial intelligence.)
藝術很難定義,好藝術和壞藝術之間的區別也是如此
1953 年,羅爾德·達爾出版了《偉大的自動語法化器》,這是一篇關於電氣工程師秘密渴望成為作家的短篇小說。有一天,在完成世界上最快的計算機的建造後,工程師意識到“英語語法是受嚴格的數學規則支配的。”他建造了一台小說寫作機器,可以在三十秒內寫出五千字的短篇小說;一部小說需要十五分鐘,需要操作者操縱手把和腳踏板,就像他在駕駛汽車或演奏風琴一樣,以調節幽默和悲傷的程度。由此產生的小說非常受歡迎,以至於一年之內,以英語出版的小說有一半都是工程師發明的產物。
眾所周知,藝術很難定義,好藝術和壞藝術之間的區別也是如此。但讓我概括一下:藝術是做出很多選擇的結果。如果我們以小說寫作為例,這可能是最容易解釋的。當你寫小說時,你會有意或無意地對你輸入的幾乎每一個單字做出選擇;簡單地說,我們可以想像一個一萬字的短篇小說需要一萬個選擇。當你給生成式人工智慧程式一個提示時,你所做的選擇很少;如果你提供一百個字的提示,你就做了大約一百個選擇。


同樣的基本原則也適用於視覺藝術
如果人工智慧根據你的提示產生一個萬字的故事,它必須填寫你沒有做出的所有選擇。有多種方法可以做到這一點。一是取其他作家所做選擇的平均值,以網路上找到的文本為代表;這個平均值相當於最不有趣的選擇,這就是為什麼人工智慧生成的文字通常非常平淡。另一種方法是指示程式進行風格模仿,模仿特定作家所做的選擇,從而產生高度衍生的故事。在這兩種情況下,它都沒有創造有趣的藝術。
我認為同樣的基本原則也適用於視覺藝術,儘管很難量化畫家可能做出的選擇。真正的繪畫帶有大量決定的印記。相比之下,使用DALL-E等文字到圖像程式的人輸入諸如「穿著盔甲的騎士與噴火龍戰鬥」之類的提示,然後讓程式完成其餘的工作。 (最新版本的DALL-E接受最多 4000 個字符的提示,即數百個單詞,但不足以描述場景的每個細節。)生成的圖像中的大多數選擇都必須借鑒在線找到的類似繪畫;圖像可能被精美地渲染,但輸入提示的人不能為此聲稱功勞。
藝術家在創作繪畫的過程遠多於文本提示
一些評論家認為圖像生成器將像攝影的出現一樣影響視覺文化。儘管這表面上看起來似乎合理,但攝影與生成人工智慧相似的想法值得更仔細的檢驗。當攝影最初發展起來時,我懷疑它看起來不像是一種藝術媒介,因為沒有明顯的證據表明有很多選擇可供選擇;您只需設定相機並開始曝光。但隨著時間的推移,人們意識到相機可以做很多事情,而藝術性就在於攝影師所做的多種選擇。闡明選擇是什麼可能並不總是那麼容易,但是當您將業餘愛好者的照片與專業人士的照片進行比較時,您可以看到差異。那麼問題就變成了:是否有類似的機會使用文字到圖像生成器做出大量選擇?我想答案是否定的。藝術家——無論是數位創作還是繪畫——在創作繪畫的過程中隱含地做出的決定遠多於幾百字的文本提示。
我們可以想像一個文字到圖像生成器,一些評論家認為圖像生成器將像攝影的出現一樣影響視覺文化。儘管這表面上看起來似乎合理,但攝影與生成人工智慧相似的想法值得更仔細的檢驗。當攝影最初發展起來時,我懷疑它看起來不像是一種藝術媒介,因為沒有明顯的證據表明有很多選擇可供選擇;您只需設定相機並開始曝光。但隨著時間的推移,人們意識到相機可以做很多事情,而藝術性就在於攝影師所做的多種選擇。闡明選擇是什麼可能並不總是那麼容易,但是當您將業餘愛好者的照片與專業人士的照片進行比較時,您可以看到差異。那麼問題就變成了:是否有類似的機會使用文字到圖像生成器做出大量選擇?我想答案是否定的。藝術家——無論是數位創作還是繪畫——在創作繪畫的過程中隱含地做出的決定遠多於幾百字的文本提示。
OpenAI希望提供一種可以輕鬆生成圖像的產品
我們可以想像一個文字到圖像生成器,在許多會話的過程中,您可以在其文字方塊中輸入數萬個單詞,以便對您正在生成的圖像進行極其細粒度的控制;這類似於具有純文字介面的 Photoshop。我想說,一個人可以使用這樣的程序,並且仍然值得被稱為藝術家。電影導演 Bennett Miller 使用DALL-E 2 生成了一些非常引人注目的圖像,這些圖像已在高古軒畫廊展出;為了創建它們,他精心製作了詳細的文字提示,然後指示DALL-E一次又一次地修改和操作生成的圖像。他生成了超過十萬張圖像,最後得到了展覽中的二十張圖像。但他表示,他無法在DALL-E的後續版本中獲得可比較的結果。我懷疑這可能是因為 Miller 將DALL-E用於一些它不打算做的事情;就好像他對 Microsoft Paint 進行了駭客攻擊,使其表現得像 Photoshop,但一旦新版本的 Paint 發布,他的駭客攻擊就停止了。 OpenAI 可能不會嘗試建立一款產品來為 Miller 這樣的用戶提供服務,因為一款需要用戶花費數月時間來創建圖像的產品不會吸引廣泛的受眾。該公司希望提供一種可以輕鬆生成圖像的產品。
大尺度和小尺度的相互關係就是藝術性所在
很難想像有一個程式可以在多次會話後幫助您寫出一本好小說。這個假設的寫作程式可能需要您輸入十萬個單字的提示,以便它產生完全不同的十萬個單字來組成您所設想的小說。我不清楚這樣的程序會是什麼樣子。理論上,如果存在這樣的程序,那麼使用者也許可以被稱為作者。但是,我再次強調,我不認為像 OpenAI 這樣的公司想要創建像從頭開始寫小說一樣需要用戶付出同樣多努力的 ChatGPT 版本。生成式人工智慧的賣點是,這些程式產生的內容遠遠多於你投入的內容,而這正是阻止它們成為藝術家有效工具的原因。
推廣生成式人工智慧專案的公司聲稱它們將釋放創造力。從本質上講,他們是說藝術可以全是靈感,而不是汗水——但這些東西不能輕易分開。我並不是說藝術必須乏味。我的意思是,藝術需要在各個層面上做出選擇;實施過程中所做出的無數小規模選擇對於最終產品來說與構想過程中所做的少數大規模選擇一樣重要。在藝術創作的選擇上,將「大規模」等同於「重要」是錯誤的;大尺度和小尺度的相互關係就是藝術性所在。
人們常常低估娛樂所需的努力
我懷疑,相信靈感勝過其他一切,這表明有人不熟悉這種媒介。我認為即使一個人的目標是創造娛樂而不是高雅藝術,這也是事實。人們常常低估娛樂所需的努力;驚悚小說可能達不到卡夫卡理想中的一本書——「一把斧頭劈開我們內心冰凍的海洋」——但它仍然可以像瑞士手錶一樣製作精良。一部有效的驚悚片不僅僅在於它的前提或情節。我懷疑你能否用語義上相同的句子替換驚悚小說中的每一個句子,並使最終的小說同樣有趣。這意味著它的句子以及它們所代表的小規模選擇有助於確定驚悚片的有效性。
許多小說家都有過這樣的經驗:有人找到他們,確信他們對小說有個好主意,並願意與他們分享,以換取五、五十的收益分成。這樣的人無意間透露出,他們認為造句是一件麻煩事,而不是散文說故事的基本部分。生成式人工智慧吸引了那些認為自己可以在某種媒介中表達自己而無需實際在該媒介中工作的人。但傳統小說、繪畫和電影的創作者被這些藝術形式所吸引,因為他們看到了每種媒材所提供的獨特的表達潛力。正是他們渴望充分利用這些潛力,使他們的工作令人滿意,無論是作為娛樂還是作為藝術。
並不是所有的寫作都需要有創意,或真誠,甚至特別好
當然,大多數文章,無論是文章、報告或電子郵件,都不會包含數千種選擇。在這種情況下,自動化任務有什麼壞處嗎?讓我提供另一個概括:任何值得讀者關注的作品都是作者努力的結果。寫作過程中的努力並不能保證最終產品值得一讀,但沒有它就無法做出有價值的工作。閱讀個人電子郵件時所付出的注意力與閱讀商業報告時所付出的注意力不同,但在這兩種情況下,只有當作者深思熟慮時才值得關注。
如語言學家艾米麗·M·本德(Emily M. Bender)所指出的那樣,老師不會要求學生寫論文,因為世界需要更多的學生論文。寫論文的目的是加強學生的批判性思考能力;就像無論運動員從事什麼運動舉重都是有用的一樣,寫論文可以培養大學生最終找到的任何工作所需的技能。使用ChatGPT完成作業就像把堆高機開進舉重室;這樣你永遠無法提升你的認知能力。
並不是所有的寫作都需要有創意,或真誠,甚至特別好;有時它只是需要存在。此類寫作可能支持其他目標,例如吸引廣告觀點或滿足官僚要求。當人們被要求產生這樣的文字時,我們很難責怪他們使用任何可用的工具來加速這個過程。但是,如果有更多的文件,而這些文件卻花了最少的努力,世界會變得更好嗎?聲稱如果我們拒絕使用大型語言模型,那麼創建低品質文字的要求就會消失,這是不切實際的。然而,我認為不可避免的是,我們越多地使用大型語言模型來滿足這些要求,這些要求最終就會變得越大。我們正在進入一個時代,有人可能會使用大型語言模型從項目符號列表中生成文檔,並將其發送給使用大型語言模型將該文檔壓縮為項目符號列表的人。有人能認真地說這是一種改進嗎?
人工智慧程式也存在著深刻的局限性
有一天,我們擁有可以做人類能做的任何事情的電腦程式並非不可能,但是,與推廣人工智慧的公司的說法相反,我們在未來幾年內不會看到這種情況。即使在與創造力完全無關的領域,目前的人工智慧程式也存在著深刻的局限性,這讓我們有充分的理由質疑它們是否值得被稱為智慧。
電腦科學家 François Chollet)提出了以下差異:技能是指你在任務中的表現如何,而智力是指你獲得新技能的效率。我認為這很好地反映了我們對人類的直覺。大多數人經過充分的練習都可以學習一項新技能,但是一個人掌握該技能的速度越快,我們認為這個人就越聰明。這個定義有趣的地方在於,與智商測驗不同,它也適用於非人類實體。當狗狗快速學會新技巧時,我們認為這是智力的標誌。
2019 年,研究人員進行了一項實驗,教導老鼠如何開車。他們將老鼠放入裝有三根銅線棒的小塑膠容器中。當小鼠將爪子放在其中一根桿上時,容器要么向前移動,要么向左轉或向右轉。老鼠可以看到房間另一邊有一盤食物,並試圖讓他們的車輛駛向那裡。研究人員每次訓練老鼠五分鐘,經過二十四次練習,老鼠已經能熟練駕駛。二十四次試驗足以完成這項任務,而在該物種的演化史上,老鼠可能從未遇到過這樣的任務。我認為這是智慧的一個很好的體現。
應對陌生情況的能力也是我們認為人類聰明的部分
現在考慮一下目前因其性能而廣受好評的人工智慧程式。 AlphaZero 是GoogleDeepMind 開發的程序,它的西洋棋比任何人類棋手都好,但在訓練過程中,它下了四千四百萬盤棋,遠遠超過了任何人類一生所能下的棋數。為了掌握新遊戲,它必須接受同樣大量的訓練。根據 Chollet 的定義,像 AlphaZero 這樣的程式技能很高,但它們並不是特別聰明,因為它們在獲得新技能方面效率不高。如果事先沒有向程式設計師提供有關該任務的信息,那麼目前不可能編寫出能夠在僅二十四次試驗中學習甚至是簡單任務的計算機程式。
經過數百萬英里駕駛訓練的自動駕駛汽車仍然可能會撞上翻倒的拖車,因為這種情況在他們的訓練數據中並不常見,而人類第一次參加駕駛課程時就會知道停下來。除了我們解決代數方程式的能力之外,我們應對陌生情況的能力也是我們認為人類聰明的基本部分。電腦在獲得這種能力之前將無法取代人類,而這還有很長的路要走。目前,我們只是在尋找可以透過渦輪增壓自動完成來完成的工作。
Gen AI:花費太多,收益太少?
儘管經過多年的炒作,生成式人工智慧大幅提高經濟生產力的能力仍停留在理論上。 (今年早些時候,高盛發布了一份題為「Gen AI:花費太多,收益太少?」的報告)生成式人工智慧最成功的任務是降低我們的期望,無論是我們閱讀的內容還是我們自己的期望我們寫任何東西供別人閱讀。這是一種從根本上非人性化的技術,因為它把我們視為低於我們本來面目的:意義的創造者和理解者。它減少了世界上的意圖。
有些人為大型語言模型辯護,稱人類所說或所寫的大部分內容並不是特別原創。這是事實,但也無關緊要。當有人對你說「對不起」時,其他人過去也說過對不起並不重要;重要的是。 「對不起」是一串在統計上不起眼的文本,但這並不重要。如果有人是真誠的,他們的道歉就是有價值和有意義的,即使之前已經說過道歉。同樣,當你告訴某人你很高興見到他們時,你就是在說一些有意義的事情,即使它缺乏新意。
不一定要與人類歷史上每一件藝術品都完全不同才有價值
類似的情況也適用於藝術。無論您是在創作小說、繪畫或電影,您都在進行與觀眾之間的溝通行為。你所創造的東西不一定要與人類歷史上以前的每一件藝術品都完全不同才有價值;事實上,你是說這句話的人,事實上它源自於你獨特的生活經歷,並且出現在任何看到你作品的人生命中的特定時刻,這才是它的新穎之處。我們都是前人的產物,但正是透過與他人互動的生活,我們為世界帶來了意義。這是自動完成演算法永遠無法做到的事情,並且不要讓任何人告訴您其他情況。
語言是一種溝通系統,並且需要有溝通的意圖
最近,Google在巴黎奧運期間播放了 Gemini 的廣告,Gemini 是OpenAI 的 GPT-4的競爭對手。廣告中,一位父親利用雙子座寫了一封粉絲信,他的女兒將把這封信寄給一位激勵她的奧運運動員。在觀眾普遍強烈反對後,谷歌撤下了廣告;一位媒體教授稱其為「我見過的最令人不安的廣告之一」。值得注意的是,儘管藝術創造力並不是被取代的屬性,但人們卻做出了這樣的反應。沒有人會期望孩子寫給運動員的粉絲信會是非凡的;如果這封信是少女自己寫的,很可能與無數其他人沒有什麼不同。孩子的粉絲信的意義——無論是對寫這封信的孩子還是對收到這封信的運動員來說——都來自於它的真誠,而不是它的雄辯。
我們中的許多人都曾寄過從商店購買的賀卡,因為我們知道收件人會清楚這些賀卡不是我們自己寫的。我們不會親手抄寫霍爾馬克卡片上的文字,因為那會讓人覺得不誠實。程式設計師西蒙·威利森(Simon Willison) 將大型語言模型的訓練描述為“為受版權保護的資料洗錢”,我發現這是一種思考生成式人工智慧程式吸引力的有用方法:它們讓你從事諸如剽竊之類的事情,但沒有與此相關的內疚感是因為連你自己都不清楚自己在抄襲。
有些人聲稱,大型語言模型並不是在洗白它們所訓練的文本,而是從中學習,就像人類作家從他們讀過的書中學習一樣。但大型語言模型不是作家,而是作家。它甚至不是語言的使用者。根據定義,語言是一種溝通系統,並且需要有溝通的意圖。您手機的自動完成功能可能會提供好的建議或壞的建議,但在任何一種情況下,它都不會試圖對您或您發送簡訊的人說任何話。事實上,ChatGPT 可以產生連貫的句子,這讓我們想像它以手機自動完成功能無法理解的方式理解語言,但它不再有溝通的意圖。
蝴蝶並不真正關心為什麼它不被吃掉,只要它能活下去
讓 ChatGPT 很容易發出一系列單詞,例如「我很高興見到你」。關於大型語言模型如何運作,我們還有很多不明白的地方,但我們可以確定的一件事是,ChatGPT 不高興見到你。狗可以表達它很高興見到你,語言前的孩子也可以表達,儘管他們都缺乏使用語言的能力。 ChatGPT 沒有任何感覺,也沒有任何慾望,而這種缺乏意圖就是 ChatGPT 實際上沒有使用語言的原因。 「我很高興見到你」這句話之所以成為一種語言表達,並不是因為它所組成的文本標記序列結構良好;而是因為它是由文本標記組成的。使其成為語言話語的是交流某事的意圖。
因為語言對我們來說是如此容易,所以很容易忘記它位於主觀感受和想要傳達這種感受的其他體驗之上。當一個大型語言模型發出連貫的句子時,我們很想將這些經驗投射到它上,但這樣做就會成為模仿的犧牲品;這與蝴蝶翅膀上進化出大黑斑的現像是一樣的,這些黑斑可以欺騙鳥類,讓它們誤以為它們是長著大眼睛的掠食者。有一個上下文,其中黑點就足夠了;鳥類不太可能吃掉擁有它們的蝴蝶,而蝴蝶並不真正關心為什麼它不被吃掉,只要它能活下去。但蝴蝶和對鳥類構成威脅的捕食者之間存在很大差異。
使用生成式人工智慧來幫助寫作的人可能會聲稱他們從模型訓練的文本中汲取靈感,但我再次認為,這與我們通常所說的作家從另一位作家那裡汲取靈感時的含義不同。假設一名大學生提交了一篇論文,該論文僅由一本書中的五頁引文組成,並表示該引文準確地表達了她想說的內容,比她自己說的還要好。即使學生對老師完全坦誠地講述了她所做的事情,也不能準確地說她是從她引用的書中汲取靈感的。大型語言模型可以對引文進行足夠的改寫,以至於無法識別來源,這一事實並不會改變正在發生的事情的基本性質。