ChatGPT火遍全球,AIGC要統治人類知識圈了嗎?

最近,OpenAI發佈了免費機器人對話模型ChatGPT,一時間火爆全球,成為科技圈第一大熱潮,短短一週吸粉便超過百萬。ChatGPT也稱為科技圈的必聊話題。

如此智能的機器人對話模型,彷彿與我們記憶中略顯“笨拙”的機械式AI對話已經完全不同。在這些年裡,人工智慧創作內容(AIGC)已經飛速成長,甚至在很多領域大大超越了專家學者的精準性和博識水準。

圖:與ChatGPT對話

同樣在2022年,AIGC已經出圈過一次。

AI繪畫憑藉其獨特的創意與便捷的創作工具迅速走紅,甚至出現使用AI作畫參賽獲獎的新聞;同時,許多AIGC方面的公司正在飛速的成長,獲取一筆筆的融資,成為獨角獸公司。

但是,在如火如荼的AIGC技術發展中,有一個問題卻始終沒有得到明確的解答,那就是AIGC雖然這麼新穎、好玩,但是它的商業化價值到底如何,又能應用於哪些具體的場景呢?

本文就AIGC相關資訊、落地應用與目前行業面臨的問題進行解讀,為那些對AIGC感興趣的讀者與投資人展現目前人工智慧生成內容的發展圖景。

1 2022: AIGC元年

2022年,深度學習模型Diffusion擴散化模型的出現,直接推動了AIGC技術的突破性發展,許多基於StableDiffusion模型的應用紛紛入局。也正因如此,2022年被稱為AIGC元年。

但在各類使用AIGC技術的應用大規模“井噴”之前,AIGC也曾經歷了幾十年的發展。

1950年,圖靈提出了著名的“圖靈測試”,給出了判定機器是否具有“智能”的方法,即機器是否能夠模仿人類的思維方式來“生成”內容繼而與人互動。

經過半個多世紀的發展,今天的人工智慧不僅能夠與人類進行互動,還可以進行寫作、編曲、繪畫、視訊製作等創意工作。隨著人工智慧越來越多地被應用於內容創作,人工智慧生成內容悄然興起。

目前,對於AIGC這一概念的界定,尚無統一規範的定義。而國內產學研各界對於AIGC的理解是“繼專業生成內容和使用者生成內容之後,利用人工智慧技術自動生成內容的新型生產方式”。

而結合人工智慧的演進沿革,AIGC的發展歷程大致可以分為三個階段:

早期萌芽階段(1950s-1990s),受限於當時的科技水平,AIGC僅限於小範圍實驗。1957 年,萊杰倫·希勒和倫納德·艾薩克森完成歷史第一支由電腦創作的絃樂四重奏《伊利亞克組曲》。1966年,約瑟夫·魏岑鮑姆和肯尼斯·科爾比開發了世界第一款可人機對話的機器人Eliza。80年代中期,IBM創造了語音控制打字機Tangora。

沉澱積累階段(1990s-2010s),AIGC從實驗性向實用性逐漸轉變。2006年,深度學習演算法、圖形處理器、張量處理器等都取得了重大突破。2007年,世界第一部完全由人工智慧創作的小說《1 The Road》問世。2012年,微軟公開展示了一個全自動同聲傳譯系統,可以自動將英文演講者的內容通過語音識別、語言翻譯、語音合成等技術生成中文語音。

快速發展階段(2010s至今),深度學習模型不斷迭代,AIGC突破性發展。2014年,對抗生產網路GAN出現。2021年,CLIP模型出現;OpenAI推出DALL-E,主要應用於文字與圖像互動生成內容。2022年,深度學習模型Diffusion擴散化模型的出現。

2 新模型下的AIGC所向披靡

過去,網際網路的內容都是由使用者生成、上傳,AI只能協助人類完成一部分最簡單、最基礎的工作,無法獨立生成內容,更不用提優質內容了。

但這一狀況也因Diffusion擴散化模型的開源應用而被打破,AIGC成為了繼UGC之後的又一大內容生成方式。

相較於UGC,AIGC的最大不同是新技術驅動了機器智能創作內容,這使得AIGC具有獨特的技術特徵,包括資料據量化、內容創造力、跨模態融合、認知互動力等,也正是這些獨有的技術能力,讓AIGC成為“不可替代”的新一代內容生成方式。

(1)資料巨量化:

AIGC豐富的“想像力”和驚為天人的“創作能力”,是在海量資料的基礎上由電腦學習和模擬生成的,每一幅AI畫作的背後都是無數的標註資料與訓練。摺積神經網路和Transformer大模型的流行成功使深度學習模型參數量躍升至億級,由此帶來的資料巨量化推動了AIGC發展的處理程序。

如知名的電腦視覺項目ImageNet在眾包任務中有超過25000人參與,標準圖片超過1400萬張;而OpenAI更是收集了4億個文字圖像配對資料進行預訓練。在零樣本學習成熟之前,AIGC通過巨量資料實現內容創作的發展路線仍難以撼動。

(2)內容創造力:

正是有了海量資料的加成,AIGC在創作方面有著無限的“靈感”,也成為了AIGC最吸引使用者的特色。借助海量的語料庫,AI工具彷彿超級畫手或作曲家一樣生成指定風格的圖像、音樂或視訊。

同時,例如神經風格遷移演算法利用摺積神經網路識別圖像內容表徵和風格表徵並在特定神經網路層對圖像進行重構,也使得AI畫作能夠模仿特定風格的藝術作品。

與人類創作過程相比,AI創作擁有時間短、規模大、風格多等特點,在藝術創作、插畫、影視編輯等領域正在產生變革效應,人們甚至開始擔心AIGC會不會衝擊傳統藝術創作者的工作崗位。

(3)跨模態融合:

跨模態融合是AIGC區別於傳統UGC和PGC的顯著特徵。AI能夠分別提取文字特徵和圖片特徵進行相似度對比,通過特徵相似度計算文字與圖像的匹配關係,從而實現跨模態的相互理解。

2022年9月,百度發佈“2022十大科技前沿發明”,位列第一的就是“跨模態通用可控AIGC”,跨模態生成的本質是文字、視覺、聽覺乃至腦電等不同模態的知識融合,覆蓋圖文、視訊、數字人、機器人等更多場景。

在未來,隨著國內外多家科技公司發佈多模態AI大模型,AIGC的跨模態融合趨勢將進一步加強。

(4)認知互動力:

擁有一定程度的認知和互動能力,是AIGC發展的重要趨勢。

對於開發者而言,程式碼的輸入輸出是人與電腦互動的底層邏輯;對於使用者而言,人們使用智能終端和網路平台實現人機互動和互聯通訊。在人工智慧場景中,通常利用自動問答、視覺識別、姿態識別等實現人機互動,而AIGC的出現則為人與機器的溝通帶來了更多可能,擁有人與人類溝通的媒介,在感知和互動上具備其獨有的特色。

3 AIGC既是畫家又是主播還是翻譯

在不知不覺中,AIGC已經滲入了我們的生活中的每個角落,從導航軟體中的“人聲”指路,到直播賣貨中的“虛擬主播”,都隱藏著它的身影。目前,AIGC技術已經率先在傳媒、電商、娛樂等領域實現大規模落地。

在最簡單直接的落地領域裡,傳媒行業首當其衝。人機協同,能大幅提高傳媒行業一些基礎工作效率。

AIGC作為當前最新的內容生產方式,與傳媒工作者協作,為媒體內容生產全面賦能。寫稿機器人、採訪助手、字幕生成、語音播報等相關應用不斷湧現,深刻地改變了媒體生產內容的方式,大大提升了行業生產效率。

在採編環節中,語音轉寫技術大大提升了傳媒人的工作效率。借助語音識別技術,可以將一段採訪稿快速以文字的形式進行輸出,同時兼顧了準確性與時效性。2022年冬奧會期間,科大訊飛的智能錄音筆便可完成跨語種的語音轉寫,助力記者快速出稿。

科大訊飛智能錄音筆

智能視訊的剪輯,提升了視訊內容的價值。通過使用視訊字幕生成、視訊錦集等視訊智能化剪輯工具,可高效節省人力時間成本,最大化版權價值。2022年冬奧會期間,央視視訊通過使用AI智能內容生產剪輯系統,高效生產與發佈冬奧冰雪項目的視訊集錦內容,為深度開發體育媒體版權內容價值,創造了更多的可能性。

在傳播環節,AIGC技術為社區生態注入了新的活力。以百度為例,“創作者AI助理團”已在百家號平台上線,作為百度移動生態AIGC應用的“先遣部隊”,除AI作畫、圖文轉視訊技術外,還推出了數字主持人,為創作者實現更多場景的應用體驗,給予使用者全新的瀏覽體驗。

中國青年報和中國青年網官方短影片品牌“青蜂俠”,就依託百家號平台推出了數字主持人“青小霞”,率先實現了“數字主持人自由”。“青小霞”能高度復刻真人主播的聲音及表情動作,實現高質多量的內容生產和播報,降低媒體運作和內容生產成本,為內容傳播形式注入科技創新力。

在當前,AIGC已經在電商行業中成熟落地,尤其是虛擬主播等應用產品,已經為不少消費者提供即時服務。

隨著數位技術的不斷髮展與消費的升級,良好的購物體驗成為消費者越來越看重的地方。而利用AIGC技術,可通過快速、精準響應消費者需求與建構沉浸式購物場景的方式來提升消費者的購物體驗。

在建構沉浸式購物場景中,打造虛擬主播是必不可少的環節。這裡的虛擬主播並非是過去我們認為的“皮套人”,而是可以為觀眾提供24小時不間斷貨品推薦介紹的“數字人”。虛擬主播有著以下三大優勢:

一是可以代替真人直播,為使用者提供更靈活的觀看時間和更方便的購物體驗,也在為合作商家節省成本的同時創造更大的流量。如歐萊雅、飛利浦等品牌的虛擬主播會在0點到9點之間進行直播,與真人主播相互配合,提供24小時無縫對接的直播服務。

二是虛擬主播可塑造店舖形象,拉近與年輕消費者的距離。如彩妝品牌“卡姿蘭”推出自己的品牌虛擬形象,並將其引入直播間作為其天貓旗艦店日常的虛擬主播導購。

三是虛擬主播穩定可控,不會出現“人設崩塌”的情況。虛擬主播人設、言行舉止等均可由品牌方掌握,對於真人帶貨安全性、可控性更強。品牌方無需擔心虛擬形像人設崩塌,為品牌帶來負面新聞。

目前,由AI驅動的虛擬主播擁有多變的形象、媲美真人的聲音和多種直播場景。以京東雲言犀為例,通過自研的3DNeuralRender神經渲染器,可以高保真地合成主播面部細節,在互動中,2D及超寫實、高精度3D數字員工驅動方案,實現了音唇精準同步。目前言犀擁有100+的數字人形象,在2022年雙11期間,在近200百家付費品牌店舖中開播,累計帶來數百萬GMV的轉化。

京東數字人:靈小播

對話式AI技術主導的智能服務,助力品牌快速響應消費者需求。每年購物節期間,店舖中的客服數量在面對消費者的海量問題時總會顯得“捉襟見肘”,而任務型對話AI則可以扮演客服的角色。

對話式AI產品可替代人類對話完成重複性、規則性對話任務,最佳化重構對話服務的工作流與職能重點,還可為對話服務提供智能調度、坐席助手、對話洞察等輔助功能,與人工坐席並肩作戰,建構輔助培訓、營運管理、指導洞察的良性循環。

在京東言犀平台,依靠領域性大模型K-PLUG,實現了短文字和長文字的自動生成。目前已經覆蓋了京東的3000多個三級品類,累計生成文案30億字,應用於京東發現好貨頻道、搭配購、AI直播帶貨等,累計帶來超過3億元GMV。

在今年雙11期間,智能客服累計接待了超4.5億次的諮詢服務,迎接了年終最大的流量洪峰,並完成任務。

此外,AIGC也已經娛樂行業落地開花,拓展了娛樂邊界。

在數字時代,娛樂不僅僅再是遊戲,更是與樂趣的尋找與現代人對歸屬感的渴望。借助AIGC技術,通過趣味性圖像、音視訊、虛擬偶像等方式,娛樂行業快速擴展邊界,以另一種面貌獲得全新的發展動能。

趣味性圖像、音視訊生成,激發使用者使用熱情。在圖像生成方面,AI換臉、一鍵構圖等應用極大地滿足了使用者獵奇地需求。在國外,FaceAPP一經推出,就立刻病毒式在網路上引發熱潮,登上App Store下載榜首。而在國內,百度文心一格也一度帶起了AI作畫的熱潮,以使用便捷、畫作精美、善於東方元素等多個特點,受到了使用者的一致好評。

文心一格作圖——聖墟

在音視訊生成方面,語音模仿、變聲器等功能,增加了互動娛樂性。騰訊旗下多款遊戲均已整合變聲、語音模仿、自動生產短影片等功能,讓溝通本身也成為了一種樂此不疲的遊戲。

打造虛擬偶像,釋放IP價值。在娛樂賽道中最經典的虛擬偶像群體非初音、洛天依為代表的“虛擬歌姬”莫屬,而其都是基於VOCALOID 語音合成引擎軟體為基礎創造出來的虛擬人物,由真人提供聲源,再由軟體合成人聲。

自2012年7月12日洛天依出道,在十年的時間內,音樂人以及粉絲已為洛天依創作了超過一萬首作品,洛天依在為使用者提供更多想像和創作空間的同時,也與粉絲建立了更深刻聯絡。

除與粉絲共同創作外,AI合成視訊、音訊,也幫助虛擬偶像快速出圈,實現變現場景的多元化,目前可通過演唱會、音樂專輯、廣告代言、直播、周邊衍生產品等方式進行變現。

同時隨著虛擬偶像商業價值被不斷髮掘,品牌方與虛擬 IP 的聯動意願隨之提升。如由魔琺科技次世文化共同打造的網紅翎Ling於2020年5月出道至現在已先後與VOGUE、特斯拉、GUCCI 等品牌展開合作。

除傳媒、電商、娛樂行業外,金融、工業、醫療等各行各業的AIGC技術也都在蓬勃發展、加速落地。從整體來看,AIGC技術已經開始深入融合到我們生活中的每個角落,其相關應用正加速滲透到經濟社會的方方面面。

4 AI無所不能了嗎?

在相關應用大量落地,AIGC技術快速發展的當下,彷彿未來一切都很美好。但我們需要認清的是,目前AIGC還處在發展的初期。關鍵技術、企業核心能力和相關法律法規都尚未完善,圍繞著公平、安全、責任的爭議日益增多,也引發了一系列亟待解決的問題。

當前,AIGC關鍵技術不夠成熟,大規模落地仍存在痛點。

隨著AIGC 技術不斷升級,進一步釋放內容生產力,但其在人工智慧關鍵技術方面尚存在侷限,掣肘產業發展處理程序。

具體來看,一是人工智慧演算法方面仍有缺陷,在透明度、魯棒性、偏見與歧視方面仍存在尚未克服的及資料線,導致演算法應用問題重重。二是AIGC內容編輯與創作技術不夠完善,人工智慧技術加持的內容編輯與創作技術仍然受短板制約,導致產業發展存在技術門檻。

大量AIGC 企業噴湧而出,但是核心能力參差不齊,威脅網路內容生態健康安全發展。

隨著數位技術的開源開放,AIGC 技術研發門檻、製作成本等不斷降低,致使市場上的平台企業泥沙俱下,企業核心能力不足對良好網路生態建構造成嚴重障礙。

具體來看,一是內容稽核能力有待提升,目前基本稽核方式為“機審+人審”,機審誤報率偏高,而人審也沒有形成統一標準。稽核能力的缺失導致了包含虛假、不良資訊的違法違規內容流出,影響產業甚至整個網路生態環境。

二是是企業技術管理能力建設不足。由於AIGC技術複雜,且具有高動態性等特點,便要求企業具備相應的技術管理能力。但企業具有商業屬性,決定了在資源有限的情況下其往往傾向於自身利益,而對技術安全和制度保障投入不足。

三是是企業風險治理能力尚未完善。當前AIGC技術仍處於發展初期,其風險具有未知性和複雜性等特點,很多企業對於對風險的預測、防範和應急處置能力均尚未完善,風險治理理念也未落實到工程技術實踐中。

當前,有關AIGC相關規範指引尚需完善,發展與治理之間存在匹配問題。

近年來,人工智慧產業規範指引不斷推出,治理體系初顯格局,但隨著科技進步加快,制度建設亦步亦趨也未必嚴絲合縫,這又引發了技術創新發展與政策支援、法律規制的匹配問題。

具體來看,一是產業發展需落實支援政策。未來,各地、各部門政策的支援力度、推進落實和動態調整情況將決定著技術與社會的相互建構程度,將對AIGC技術在社會情境中的落地與發展起到重要作用。

二是AIGC可版權性有待釐清。法律概念的模糊引發司法裁判的不確定,導致 AIGC作品存在著著作權歸屬不清的現實困境。這一問題阻礙人工智慧技術發揮其創作價值,還有可能稀釋作品權利人的獨創性,威脅他人的合法權益。

三是新技術增加監管難度。是由於網際網路相關技術的發展,造假內容具有分散性、流動性、大規模性和隱蔽性的特點,導致追蹤難度和複雜性與日俱增,再加上規範指引的模糊和滯後,對內容監管行動造成了嚴重阻礙。

5 寫在最後

AIGC作為UGC後新一類創作方式,是數智時代的典型應用創新,它的快速發展不僅正在革新數字文化創作的生產範式,也在改變使用者與人工智慧的互動模式。目前,已經滲透到了傳媒、電商、娛樂等各個行業之中。

但在展望AIGC如此美好的未來之前,我們需要明確,現在其仍處於發展的初期,還是存在許多尚未觸達、解決的難題。面對生活中越來越多的人工智慧生成內容,如何安全、健康地使用,也將為人類帶來新的難題。

但無論如何,AIGC作為新一代創作方式,在技術進步的推動下,正處於萬億賽道的新起點。在未來通用人工智慧時代中,AIGC也將拓展出更多應用方式,更好地服務人們的生活。

如ChatGPT一樣的AIGC產品,終將越來越頻繁地出現在我們的社會場景之中,成為常態。

參考資料:

1.《人工智慧生成內容(AIGC)白皮書》,中國資訊通訊研究院和京東2.探索研究院;

3.《AIGC——打開元宇宙大門的新魔法棒》,招商證券;

4.《AIGC/AI生成內容產業展望報告》,量子位科技;

5.《人工智慧發生了方向性改變,重點關注 AIGC》,中信建投;

6.《人工智慧生成內容(AIGC)的技術特徵與形態演進》,李白楊,白雲,詹希旎,李綱。

本文來自微信公眾號“奇偶派”(ID:jioupai),作者:葉子,編輯:釗,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪