OpenAI 的新 o1 模型可以「慢慢想」答案
以拉長回應時間為代價,提供更合理、更有邏輯性的答案,並且附帶自我檢查答案的能力。
OpenAI 發表了其最新的 AI 模型,名為「o1」,一般認為就是早先報導過,代號為「Strawberry(草莓)」的祕密計畫。據 OpenAI 稱,該模型可以比過去的模型花更多的時間思考、推敲問題;嘗試不同的策略來解題;並認識錯誤並修正答案,來提高答案的準確度,「就像真人一樣」。
如果稍微注意一下的話,就會發現新的模型名稱不僅重新回到「1」開始,而且也拿掉了「GPT」。這意味著 o1 和 GPT 系列採取了不同的策略,不再是靠統計預測的方式,去「猜」下一個字應該是什麼,而是會整體的考慮問題和答案的邏輯性。OpenAI 表示,它在物理、化學和生物學的困難問題解題方面,與該領域的博士生表現相似,而在數學和編程等方面表現還更加出色。OpenAI 目前的旗艦模型 GPT-4o 在國際數學奧林匹克競賽的資格考試中,僅能正確回答 13% 的問題,而 o1 則解決了高達 83%。
o1 的另一個「創舉」,就是開啟了「思考時間」做為另一個加強 AI 結果的維度。現有的 AI 模型中,絕大部份時間都是花在模型的訓練上,一旦模型推出後,每一次的使用耗費的運算資源相對的是低的。但 o1 的出現,證實了在使用階段投入更多的運算資源,也是可以針對各別的問題來強化答案的。和 GPT 一般強調快速不同,o1 目前的運算時間可以花上十秒,乃至於數十秒,因此會更加適合要求答覆的品質高於速度的應用。
此外,o1 模型不具備網路瀏覽、文件上傳或圖像的能力,在文字生成上相對於 GPT-4o 也沒有明顯的進步,再加上速度緩慢,對於大部份人的一般應用和商務應用來說,GPT-4o 可能還是更加合適的選擇,目前 OpenAI 更多還是瞄準了學術界,特別是理論物理學之類有複雜數學運算需求的領域。不過,儘管有更長時間考慮其輸出,o1 也尚未完全解決「幻覺」的問題,因此最終還是要人類來做最後的檢查了。
o1 的發展仍處於起步階段,初步推出 o1-preview 和 o1-mini 兩個模型。前者是完整 o1 的「預覽版」,在能力上略有折扣;而 o1-mini 則是輕量化的模型,會更快、更便宜一些,並且特別會寫程式。由於 o1 的運算力需求大幅提升,目前僅開放付費用戶試用,而且有非常嚴格的用量限制 —— o1-preview 是每週僅能送出少少的 30 個訊息,o1-mini 也只有 50 個。
相關文章: