科技圈驚嘆!陸製AI大模型DeepSeek-V3只花588萬美元 性能直追GPT-4o
[周刊王CTWANT] 中國大陸AI公司深度求索(DeepSeek)26日推出了具6710億參數的大型AI模型「DeepSeek-V3」。據其官方的數據,DeepSeek-V3在性能上已可匹敵世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet。
由於中國受美國出口限制缺乏高階晶片,但是DeepSeek-V3在多項技術指標上仍顯示其在人工智慧領域的技術。科技圈驚嘆DeepSeek-V3在於,用2個月訓練2048個GPU,只花費588萬美元,預算卻非常的低。相較之下,GPT-4o等模型的訓練成本約1億美元,至少在上萬個GPU量級的計算集群上訓練。
根據技術文件顯示,DeepSeek-V3是一個具有6710億總參數的MoE(混合專家)模型,每Token(推論)只會啟動370億參數,大幅降低推論成本並提升效能。
同時,透過全新的多Token預測訓練目標(Multi-token Prediction Training Objective),DeepSeek-V3在語言生成與推論能力方面有所突破,也能在穩定性與效能間取得平衡。
不過DeepSeek—V3作為中國廠商主導開發的語言模型,其訓練過程與內容生成機制可能受到審查系統的影響。尤其在回應涉及敏感議題或特定政治立場時,模型可能呈現經過篩選或規範化的回覆,這可能對其應用範圍產生一定限制。
看更多 CTWANT 文章
買婚戒準備結婚…未來婆婆要求「只能生兒子」薪水全上繳 準人妻秒分手
別搭濟州航空!早在2月網路就有警示文 職場匿名社群多名員工爆料警告
濟州航空爆重大空難!失事客機「昨天才飛桃園機場」今奪上百命