中國AI灰天鵝DeepSeek暗襲要害!只花5%成本「抄」越算力障礙、趁熱催生R2模型
盤點,是一種對未來想像的策展。遍布全球的AI 100、立足台灣的AI 50當中,可以拼湊出關鍵趨勢。從這一次封面故事的報導和專訪中,我們試圖勾勒出AI產業的當下與未來。
2024年秋季,微軟的安全人員注意到有不知名外部人士,未經授權的透過API大量造訪OpenAI,並可能從其模型竊取大量資料,作為OpenAI主要技術投資者,微軟當時把這一異常活動舉報給OpenAI,請其多加留意。
現在回想,這也許就是灰天鵝降臨的前兆。
2025年1月20日,中國新興AI公司DeepSeek(深度求索)發布了大型語言模型DeepSeek-R1。
7天後,該模型重創美股約1兆美元市值,其中光是輝達(NVIDIA)1支就蒸發近6,000億美元,創下美股歷史單日最大市值跌幅。震撼市場的1大原因來自R1的輕巧、低成本。
2023年才成立的DeepSeek,徹底改寫這幾年以「算力至上」作為天條的生成式AI市場。
據DeepSeek指出,開發R1的成本不到600萬美元,相對目前市面上主流的大語言模型,其開發成本大多在1至10億美元不等,這個數字等於只有對手的5%成本,卻做到媲美OpenAI的o1正式版表現。
這也意味著,即使在美國晶片禁運政策下,腳踩草鞋的DeepSeek,仍成功用更少量的次等貨,打翻一票手握精銳軍火的美國AI巨擘。儘管開發成本備受質疑,外界多半認為DeepSeek沒有將許多成本因素納入,但R1能以更簡便的建置成本達到頂尖模型的表現,卻是無庸置疑。
據DeepSeek的研究論文顯示,R1模型在預訓練(pre-train)時只用了約2,000塊輝達晶片,而同等效能的模型通常需要至少16,000顆。這還不提R1採用的是輝達H800晶片,該晶片可說是頂尖晶片H100的降速版,是2022年美國政府頒布對中國的AI晶片禁令後,輝達對該市場量身打造的閹割版本,H800雖與H100有同等算力,但在多顆GPU相連時,協作速度較慢,也就是說在大規模訓練AI模型時,其效率表現仍有差別。
量化交易DNA發功,只用1成晶片預訓練
其實,DeepSeek並沒有阿里巴巴、百度或其他中國科技巨頭作為富爸爸金援。DeepSeek創辦人梁文鋒2015年與友人成立幻方量化基金公司,致力於推出量化交易相關的金融產品。
由於量化交易是一種透過數學模型與數據分析,得出的一套自動化執行買賣指令,其開發過程與大型語言模型有類似的know-how,只是前者是用於解析金融數據,後者則用於理解、推理自然語言。
有了量化交易背景加上中國企業擅於擰毛巾、壓成本的精神,DeepSeek將大語言模型的每顆螺絲釘拆開攤平,不放過任何還可以更有效率的細節。像是DeepSeek會依輸入數據的屬性、種類,呼叫對應的運算網路,而不是面對任何問題都動用到模型運算。另外,DeepSeek也優化出獨特算式,能去除重複、不必要的運算,光靠這些精修,就讓訓練模型的運算資源節省30至50%。
靠蒸餾+開源解放AGI,OpenAI仍追查剽竊
除了一道道微調手工活,蒸餾(distillation)是DeepSeek另一個高效祕訣。蒸餾是種加速模型訓練過程的技術,其原理是讓輕量、結構精簡的學生模型(小模型)造訪、使用其他更為複雜、扎實的教師模型(大模型)。
白話來說,就像是讓學生去補習,好在應考時,雖沒有老師經年累月的淵博知識庫,但手上也算握有足以從容應答的小抄、講義。不過該手法就像開頭提及的,有偷竊、抄襲其他模型成果之嫌,被視為一種爭議手段,直到今年3月中,OpenAI仍在調查DeepSeek是否有剽竊公司資料的行為。
無論如何,DeepSeek的誕生,不僅解放生成式AI原先高算力高資本的門檻,其開源特性也有望打破目前通用人工智慧(AGI)發展緩慢的瓶頸。
自R1模型今年1月開源後,輝達迅速在旗下AI服務平台上架、優化該模型,使它能以更快的速度運行。AWS也將它納入雲端平台,讓更多企業能以低成本部署。相較先前主流大語言模型多採封閉式模型,導致模型改進速度緩慢。
開源能促使全球AI社群協作,集眾人智慧,加速模型的迭代發展,也讓DeepSeek模型成為了盜火者,推動AGI的進步與創新,使最先進的AI模型不再局限於少數企業。
截至3月,DeepSeek仍堅持以研究為導向,拒絕其他科技公司、國家基金等任何外部投資,專注於AGI的開發。另外,即使官方尚未正式公布R2模型的發布日期,但路透社報導,由於R1掀起的迴響,DeepSeek正加速推出其更新一代的R2模型,預計會比原定的5月初還早。DeepSeek表示,R2模型預期能有更好的程式編碼能力,以及中文以外的外語推理能力更強。
DeepSeek異軍突起,被外媒封為AI版「珍珠港行動」。不過1941年12月的珍珠港事變,雖然讓日軍搶得先機,但全面動員起來的美國,陸續加大在太平洋戰爭投入,以及啟動研究原子彈的曼哈頓計畫,在1945年8月就讓日本投降。這次DeepSeek的逆襲,能帶給中國多久的上風?美國未來又會如何挾帶資本密集、技術人才等絕對優勢反攻?
DeepSeek
創辦人:梁文鋒
成績:發布18天内,下載量達1,600萬次,幾乎是OpenAI的ChatGPT首次發布時的2倍
投資人:除梁文鋒、幻方量化外,尚未引入外部資金
責任編輯:謝宗穎
更多報導
2故事+5圖表看兆元AI錢坑!從OpenAI到支線任務DeepSeek,急尋「下個賈伯斯」變現
OpenAI引爆語言模型激戰!每周4億人泡在ChatGPT,AI始祖巨人下一步往哪進擊?