龍頭三天兩板,ChatGPT是如何獲得理解力的?前景又如何?

能夠“理解”輸入資訊的含義並輸出內容,這類AI模型,在一定程度上擁有和人腦同樣的能力——創造力。

近期大火的AIGC(AI-generated content)和ChatGPT都屬於這類模型,即生成式AI。從廣義上看,ChatGPT是文字模態的AIGC應用,負責生成自然語言,能夠和使用者進行問答式對話。

其他形式還包括AI寫詩、AI作曲、AI繪畫、AI換臉……甚至有人認為,遊戲中匯入圖片生成模型的“捏臉系統”都是AIGC。相關熱門應用也層出不窮,包括Stable Diffusion、QQ小世界AI畫匠/異次元的我、盜夢師、玩句等。

其中,ChatGPT被稱為AI里程碑式應用,它是明星公司Open AI在2020年推出的自然語言生成式模型——GPT 3的衍生產品。此前也不是沒有這類應用,AI客服、聊天機器人、語音工作助手、小說衍生器等都屬於此類。

ChatGPT的智能化遠遠超出了這些“前輩”。與此前的模型相比,ChatGPT亮點主要包括:

(1)新增程式碼理解和生成能力,對輸入的理解能力和包容度高,能在絕大部分知識領域給出專業回答。(2)加入道德原則。即ChatGPT能夠識別惡意資訊,識別後拒絕給出有效回答。(3)支援連續對話。ChatGPT具有記憶能力,提高了模型的互動體驗。

上線5天,ChatGPT的使用者突破100萬。連特斯拉創始人馬斯克也稱:“許多人陷入了該死的瘋狂ChatGPT循環中。”

那麼,作為生成式AI的代表,ChatGPT是如何獲得理解力的呢?

這一過程離不開大模型、巨量資料、大算力。整體技術路線上,ChatGPT在效果強大的GPT 3.5大規模語言模型(LLM,Large Language Model)基礎上,引入“人工標註資料+強化學習”來不斷訓練語言模型,主要目的是讓GPT模型學會理解人類的命令指令的含義。

簡單來說,就是基於優秀的機器學習演算法和強勁的算力,通過海量的資料訓練,讓AI學會“思考”。Open AI在2020年從微軟取得GPT 3的獨家授權後,一直在Azure AI超算基礎設施(由V100GPU組成的高頻寬叢集)上訓練該模型,主要使用的公共爬蟲資料集有著超過萬億單詞的人類語言資料集。

國盛證券進一步認為,生成演算法、NLP(自然語言處理)與算力決定AIGC能否運行,而高品質的資料集決定了AIGC質量與商業模式。相關公司包括

另外,AI需要利用大量的標註語料進行訓練和學習,標註資料的數量和質量對於模型的輸出結果至關重要,資料標註/ AI訓練資料因此也被視作增量需求。

漢王科技的自由書寫文稿識別技術即依託於海量資料訓練,本週一至今,該股三天內收穫兩個漲停板(分別為12月5日、12月7日)。

漢王科技K線圖

A股公司中,從事資料訓練業務的還有海天瑞聲四維圖新等。在A股公司互動易上,已有投資者向AI 訓練資料提供商海天瑞聲提問:ChatGPT方面應用方向?是否為人工智慧+訓練資料業務?

不過,海天瑞聲的回覆並沒有提及ChatGPT,僅表示將持續關注大模型領域新趨勢,並根據客戶的需求變化,適時推進公司產品創新、技術創新,滿足更多客戶、更新領域的AI訓練資料需求。

下一目標:大規模商業化

對於這些AI工具的創造者們來說,下一步要考慮的是大規模商業化。

從GPT進化到GPT 3的過程相當燒錢——參數量從1.17億增加到1750億,預訓練資料量從5GB增加到45TB,其中GPT 3訓練一次的費用是460萬美元,總訓練成本達1200萬美。高額投入使得B端變現更具可行性。

如今很多C端應用均為免費版,國泰君安表示,當前AI繪畫的使用者付費意願不強,60%的使用者從未在AI繪畫相關方面付費,在C端付費形式刺激度較低的情況下,未來B端或將成為AI繪畫軟體的核心客戶。

並非沒有願意掏錢的消費者。ChatGPT不限於普通聊天,還可解決具體難題,比如協助寫程式碼等,部分使用者在社交媒體上表達了對ChatGPT的付費意願,AI繪畫小程序“盜夢師”從10月1號開始商業化後,已經有很多使用者付費,該產品負責人表示,目前次日留存率大概40%,七日留存率接近30%。

另外,版權問題是生成式AI繞不開的一道檻,絕大多數原創作品的版權擁有者會介意AI提取自身作品的部分元素。

本文來自微信公眾號“科創板日報”(ID:chinastarmarket),作者:宋子喬,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪