2023年第一天,請查收ChatGPT的年終總結

【新智元導讀】去年,剛剛發佈就火遍全球的ChatGPT,新的一年可能遇見了對手,完全開放原始碼的那種。

ChatGPT的橫空出世,可能是2022年下半年最引人注目的AI突破,雖然可能不是技術含量最高的。

前不久,在新奧爾良舉行的2022 NeurIPS上,關於GPT-4的傳言不絕於耳,與此同時,OpenAI也成為全場新聞媒體的焦點。

OpenAI宣佈了GPT-3系列AI大型語言模型中的一個新模型:text-davinci-003,這是其「GPT-3.5系列」的一部分,可以通過處理更複雜的指令和產生更高品質、更長形式的內容來改進性能。

新模型建立在InstructGPT的基礎上,使用帶有人類反饋的強化學習,使語言模型與人類指令更好地保持一致。

達文西-003是一個真正的帶有人類反饋的強化學習(RLHF)模型,它在人類的演示和高分的模型樣本上使用監督微調來提高生成質量。"

而作為「GPT-3.5系列」的另一部分,OpenAI發佈了ChatGPT的早期演示,該公司宣稱,這個互動式的對話模型,不僅可以回答大量的後續問題,還會承認錯誤,對不正確的提問前提提出質疑,拒絕不適當的提問請求。

OpenAI在部落格中表示,ChatGPT的研究發佈是「OpenAI迭代部署越來越安全和有用的AI系統的最新步驟。它吸取了從GPT-3和Codex等早期模型部署中的許多經驗教訓,在利用人類反饋的強化學習(RLHF)時,有害和不真實的輸出結果大幅減少。

另外,ChatGPT在訓練中強調,它是一個機器學習模型,這可能是出於避免前不久Google的聊天機器人LaMDA引發的「AI是否有意識」的爭議。

當然,ChatGPT也有局限性。

在部落格文章中,OpenAI詳細介紹了它的侷限性,包括有時答案聽起來似乎很有道理,但實際上是不正確或無意義的事實。

「解決這個問題是很有挑戰性的,因為 (1) 在強化學習訓練期間,目前沒有保證一定有可靠的來源;(2) 訓練模型更加謹慎,會拒絕可能正確回答的問題;(3) 監督訓練可能誤導模型,因為理想的答案取決於模型知道什麼,而不是人類演示者知道什麼。」

Open AI表示,ChatGPT 「有時會對有害的指令做出反應或表現出有偏見的行為。我們正在使用API來警告或阻止某些類型的不安全內容,但預計目前會有一些錯誤的否定和肯定。我們非常願意收集使用者的反饋,幫助我們正在進行的工作,改善這個模型」。

雖然ChatGPT可能還有很多亟待改進的問題,但我們不可否認,在GPT-4登場前,ChatGPT仍然是目前大型語言模型的頂流。

不過,最近的社群中,又有一個新的模型點燃了大家的討論熱情。 最關鍵的是,它還是開放原始碼的。

本週, 負責對包括Meta的Make-A-Video在內的閉源 AI系統進行逆向工程的開發人員Philip Wang發佈了PaLM + RLHF,這是一種文字生成模型,其行為類似於ChatGPT。

程式碼地址:https://github.com/lucidrains/PaLM-rlhf-pytorch

該系統結合了Google的大型語言模型PaLM和強化學習與人類反饋(RLHF)技術,建立了一個幾乎可以完成ChatGPT任何任務的系統,包括起草電子郵件和建議電腦程式碼。

PaLm + RLHF的力量

自發佈以來,ChatGPT因能夠生成高畫質晰度的類人文字,並能以對話方式對使用者問題做出回應,因此在科技界掀起了一場風暴。

這雖然是聊天機器人發展初期的重大進步,但人工智慧領域的許多擁躉對ChatGPT的封閉性表示擔憂。

時至今日,ChatGPT模型仍然是專有的,這意味著公眾無法查看其底層程式碼。只有OpenAI真正知道它的工作原理以及它處理的資料。這種缺乏透明度可能會產生深遠的影響,並可能長期影響使用者的信任。

許多開發人員一直渴望建構一個開源替代方案,現在,它終於到來了。PaLM + RLHF是專門為Python語言建構的,可以為PyTorch實現。

開發人員可以像訓練自回歸transformer一樣輕鬆訓練 PaLM,然後使用人類反饋訓練獎勵模型。

和ChatGPT一樣,PaLM + RLHF本質上是一種預測單詞的統計工具。當從訓練資料中輸入大量示例時——如來自Reddit的帖子、新聞文章和電子書——PaLM + RLHF會根據諸如周圍文字的語義上下文等模式,學習單詞出現的可能性。

真有這麼完美?

當然,理想和現實之間還存在著不小的差距。PaLM + RLHF看似完美,卻也存在各種問題。其中最大的問題就是,人們現在還不能使用它。

要啟動PaLM + RLHF,使用者需要編譯從部落格、社交媒體、新聞文章、電子書等各種來源獲取的千兆位元組文字。

這些資料被提供給經過微調的PaLm模型,該模型將生成幾個回應。例如,如果詢問模型「經濟學的基礎知識是什麼」,PaLm會給出諸如「經濟學是研究……的社會科學」之類的回答。

之後,開發者會請人對模型生成的回答從好到差進行排名,並建立一個獎勵模型。最後,排名用於訓練「獎勵模型」,該模型採用原始模型的回應並按偏好順序對它們進行排序,過濾出給定提示的最佳答案。

然而,這是一個昂貴的過程。收集訓練資料和訓練模型本身並不便宜。PaLM有5400億個參數,即語言模型從訓練資料中學習到的部分。2020年的一項研究表明,開發一個只有15億個參數的文字生成模型的費用高達160萬美元。

今年7月,為了訓練擁有1760億個參數的開源模型Bloom,Hugging Face的研究人員耗時三個月,使用了384個輝達A100 GPU。每個A100的價格高達數千美元,這不是任何普通使用者所能承受的成本。

此外,即使完成了對模型的訓練,運行PaLM + RLHF大小的模型也不是件易事。Bloom配備了八個A100 GPU的專用PC,而OpenAI的文字生成GPT-3(具有大約 1750 億個參數)的運行成本約為每年87,000美元。

AI研究人員Sebastian Raschka在一篇關於PaLM + RLHF的文章中指出,擴大必要的開發工作流程也可能是一個挑戰。

「即使有人為你提供500個GPU來訓練這個模型,你仍然需要處理基礎設施並擁有可以處理的軟體框架,」他說。「這雖然可行,但目前來看,需要付出很大的努力。」

下一個開源ChatGPT

高昂的費用和龐大的規模都表明,如果沒有資金雄厚的企業或個人不厭其煩地訓練模型,PaLM + RLHF目前還沒有取代ChatGPT的能力。

到目前為止,沒有任何關於PaLM + RLHF確切的發佈日期。作為參照,Hugging Face訓練Bloom花了三個月的時間。相比之下,擁有5400億參數的PaLM + RLHF可能需要等待6-8 個月的時間才能誕生一個有意義的版本。

好消息是,到目前為止,我們有三個已知的玩家在開發這個開源版ChatGPT的替代方案:

CarperAI

LAION

Yannic Kilcher

CarperAI計畫與EleutherAI和初創公司Scale AI和Hugging Face合作,發佈第一個可立即運行的、類似ChatGPT的AI模型,該模型經過人類反饋訓練。

程式碼地址:https://github.com/CarperAI/trlx

LAION是為Stable Diffusion提供初始資料集的非營利組織,它還率先開展了一個使用最新機器學習技術複製ChatGPT的項目。

程式碼地址:https://github.com/LAION-AI/Open-Assistant

LAION旨在打造一個「未來助手」,不僅能寫電子郵件和求職信,還能「做有意義的工作、使用 API、動態研究資訊等」。它處於早期階段,但是幾週前,一個包含相關資源的項目已在GitHub上線。

而由油管網紅、AI研究人員Yannic Kilcher建立的GPT-4chan,更像是「出淤泥而全染」的嘴臭達人。

該模型中的「4chan」是一個美國線上匿名論壇,因網友身份皆為匿名,很多人便無所畏懼,發表各種政治不正確的言論。而Kilcher正式用4chan上的帖子對模型進行訓練,其結果可想而知。

與論壇總基調類似,GPT-4chan的回答充斥著種族歧視、性別歧視和反猶太主義。不僅如此,Kilcher還將其底層模型發佈到Hugging Face供他人下載。不過在很多AI研究人員的聲討下,官方很快限制了網友對該模型的訪問。

在我們期待更多開源語言模型出現的同時,現在我們能做的只有等待。當然,繼續免費使用ChatGPT 也是個好主意。

值得注意的是,在任何開源版本正式登場之前,OpenAI在開發方面仍遙遙領先。而2023年,GPT-4無疑是全世界AI愛好者翹首以盼的對象。

無數AI大佬都對其做出了自己的預測,這些預測或好或壞,但就像OpenAI首席營運官Sam Altman所言:「通用人工智慧的建成會比大多數人想像得更快,並且它會改變大多數人想像中的一切。」

參考資料:

https://www.wired.com/story/large-language-models-artificial-intelligence/

https://techcrunch.com/2022/12/30/theres-now-an-open-source-alternative-to-chatgpt-but-good-luck-running-it/

https://metaroids.com/news/an-open-source-version-of-chatgpt-is-coming/

https://venturebeat.com/ai/what-10-top-ai-stories-in-2022-reveal-about-2023/

本文來自微信公眾號“新智元”(ID:AI_era),作者:David 昕朋,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪