觀點 | 專家也擋不住了?「人類最後測驗」被破解,AI正在進化成獨立代理人
自1956年人工智慧這個詞興起以來,研究者為何為人工智慧的試金石不斷地討論和更新。最近,「人類最後的測驗」(Humanity's Last Examination,HLE)競賽有了最新結果。在所有獨立基礎模型供應商中,Google DeepMind取得了最高分。
而不久後,Zoom透過「聯邦式架構」(federated approach)提升了成績,該方法整合了來自多個合作夥伴,包括OpenAI、Anthropic和Google的多個基礎模型,以產生更優異的結果。這清楚地預示了未來AI應用的演進方向。
什麼是「人類最後的測驗」?它是一項專門測試學術知識和推理能力的考試,其題目無法單靠原始記憶或網路搜尋來解決。
這項測驗由來自全球50多個國家、超過1,000名專家共同出題,於2025年1月正式推出。在審核測驗題目時,若該問題能透過網路搜尋找到答案,或已被現有的大型語言模型(LLM)破解,就會被剔除。其目標是挖掘出必須具備邏輯推理能力,且無法輕易透過搜尋引擎解決的難題。
此外,約14%的題目屬於多模態(multimodal),這代表AI必須理解圖表或影像才能作答。測試分為2種模式:
一、純模型模式: 不連接任何工具,單純依靠大型語言模型已有的知識。在此方法下,目前的最佳成績為37.5%。
二、外掛工具模式: 系統可使用網頁搜尋背景知識、生成程式碼並執行程式。在這種模式下,成績提升至45.8%。
這2項頂尖紀錄均由Gemini 3.5 Pro於2025年11月創下,隨後12月初,Zoom採用其聯邦式架構將分數推升至48.1%。
據估計,人類專家在各自領域的正確率可達95%。顯然,在各專業領域,AI仍不如人類專家,但進步趨勢驚人——2025年初測驗剛發布時,最高分還不到20%。
而且,若以涵蓋領域的廣度,不但沒有任何一個人可以在這項測試達到同樣的成績,即使組織一組專家團隊解題,也是一個耗費資源和時間的挑戰。如今,透過調度基礎模型的應用程式介面(API),一名獨立開發者就可能組織和領導一組AI的代理人。
這帶給我們第1個啟示:AI不再只是輔助人類執行任務的工具。 現在眾人熱議的「代理人」(Agents),正是指AI能像代理人一樣獨立承接並解決問題。它能自主調用工具,例如透過網路搜尋查找定義與知識,或撰寫並執行程式進行精確運算,而非僅僅依賴語言模型的機率預測。
AI代理人正對軟體產業產生巨大衝擊。去年,使用者習慣每月支付20美元使用聊天機器人;而2025年隨著AI代理人承擔了大部分的軟體開發任務,Anthropic Claude Code Max每月200美元的方案已在業界獲得極大回響,因為使用者實質感受到了生產力的躍升。
精明調度,多模型勝過單一模型
第2個啟示:沒有任何一個基礎模型能永遠稱霸。 Zoom的聯邦式架構證明了:透過智慧化的任務編排(orchestration)與調度,並讓不同的AI代理人互相協作,可以達到更好的效果。
這對台灣尤其有參考價值。即使我們不一定能自行開發大規模的基礎模型,仍可透過聰明的調度策略,深入理解如何極大化各種模型的優勢,並結合我們在特定垂直領域(special domain)的專業知識,來優化AI模型的表現。
目前已有許多在特定任務中運用多模型的案例。例如最近的《紐約時報》播客《Hard Fork》提到,從FutureHouse拆分出來的美國公司Edison Scientific推出了名為Kosmos的AI代理人,旨在協助科學研究。使用者只須向系統描述研究問題,系統便會獨立進行約12小時的研究後回報結果。Kosmos定價高達每次提示(per prompt)200美元。公司CEO的估計是Kosmos可能達到一位科研人員3至6個月的研究成果。
若以此推算,投資200美元非常划算。像美國新創Sierra也是以調度多個基礎模型為基礎,提供代理人服務給客戶。它以新的商業模式、完成任務為指標來收費。這種以結果為準的收費模式,更好聯繫客戶及AI廠商的利益,比傳統by seat(座位制)或by API call(調用次數)更好傳達AI提供的價值。
關於HLE測驗的另一個反思是:既然AI快速達到多項里程碑(如在2024年獲得國際數學奧林匹亞銀牌後,隨即在隔年達到金牌水準),擁有一個足以挑戰AI數年之久的基準測試是件好事。但AI能力的持續飆升也對人類社會構成了挑戰。
2025年12月初,知名投資家馬克斯(Howard Marks)發表了一篇「AI是泡沫嗎?」的備忘錄。他全面總結了歷史事件(如2000年網際網路股市泡沫)及早期技術革新(如鐵路和無線電)在投資市場上的表現,並提出論點證明泡沫論的正反兩面皆有理據。他總結:「既然沒人能斷言這是否為泡沫,我建議大家不要孤注一擲,要意識到如果情況惡化,自己將面臨破產的風險。但同樣地,也不該孤注一擲,從而錯失重大的技術進步。採取適度的策略,並輔以選擇性和謹慎,似乎是最佳方案。」
令我感觸最深的是,他不只從金融投資者的角度擔心風險,更憂心AI對社會的潛在衝擊。從趨勢來看,AI導致的失業已成事實,例如Waymo在美國多個城市的自駕服務持續擴張;從軟體產業的招聘與裁員趨勢來看,初階開發職位的門檻已提高。
長期而言,我們樂觀相信社會將會適應,人們會透過學習與技能重塑(reskill)找到新機會。但在短期內,難以快速轉型的人將面臨困境。「AI給人類的考卷」是:我們該如何善用AI來極大化全人類的福祉,同時能有效控管其負面影響?
延伸閱讀:a16z年度資訊長大調查:大企業最愛用哪一家AI?這家狂追OpenAI,成最大黑馬
責任編輯:蘇柔瑋
其他人也在看
【公告】鈦昇 2026年1月合併營收1.02億元 年增43.36%
日期: 2026 年 02 月 05日上櫃公司:鈦昇(8027)單位:仟元 【公告】鈦昇 2026年1月合併營收 (單位:仟元)項目合併營業收入淨額本月102,016去年同期71,163增減金額30,853增減百分比43.36本年累計102,016去年累計71,163增減金額30,853增減百分比43.36


全台第一個用App的早餐店是它!屏東粉漿蛋餅大王「晨間廚房」,如何做出南部小吃的CP值?
全台第一家推出App點餐的連鎖早餐店,來自屏東以粉漿蛋餅為主打的晨間廚房!這個南部草根味濃厚的品牌後,藏有哪些大膽的實驗精神?

恭喜商周CEO學院多家學員及合作企業,榮登《商業周刊》AI創新百強
《商業周刊》近期舉辦首屆「AI創新百強」競賽,從跨產業、數百件企業案例中,選出最具商業價值、真正把AI用進經營核心的百大典範。這份榜單,讓我們看見AI應用落地的重要性更甚以往。有越來越多企業,用AI改變了做生意的方式。 我們特別感到驕傲的是:本屆AI創新百強中,有多家企業,正是商周CEO學院的學員及...

蘋果發布Xcode 26.3!內建「Claude+Codex」AI代理神助手,一條龍包辦寫碼到測試
蘋果推出Xcode 26.3,集成Anthropic的Claude Agent和OpenAI的Codex,透過自然語言指令可以指導複雜任務並自主工作。

國發會喊今年台灣經濟成長4.46%!赴美2500億美元信保哪來?葉俊顯:不必賣到台積電股票
國家發展委員會宣示,2026年台灣經濟成長率目標要拚4.56%,比行政院主計總處去年底預測的3.54%,高出整整1個百分點,也遠高於其他機構預測。 不只如此,2026年台灣人均GDP可望達4萬美元以上,國發會更期待,能衝到4.2萬美元以上。 國發會主委葉俊顯認為,在「五大信賴產業」與「AI十大建設」的積極政策效益下,預計可挹注我國2026年GDP成長達0.45個百分點,再加上全球CSPs資本支出持續增加,預料可帶動經濟成長。

FED主席與市場信心
川普正式提名了曾經公開批評過柏南克量化寬鬆(QE)的華許(Kevin Warsh)為下任聯準會主席,1月30日的COMEX黃金收跌-8.54%,直接回測二十日均線支撐,2月2日開盤續跌破二十日均線,5626.8美元會是里程碑嗎?市場為何對準FED主席如此忌憚?究竟什麼背景?難道連黃仁勳宣稱台積電未來十年產能將翻倍(年化成長率7.2%)也不夠看嗎?

一份榜單背後的重量
商周首屆「AI創新百強」的名單出爐了,這次有445件企業提案。很多人看的是排名,但我看著決選過程的紀錄,心裡有一種難以言喻的感動。決選兩天的七位評審,如果加總他們的資歷與影響力,這絕對是全台灣最昂貴、也最具權威的一次AI應用集體健檢。試想,要同時請到:Google台灣前董事總經理簡立峰、人工智慧科技...

葉采糖以「蜂巢永續」經營哲學 重寫泉發蜂蜜百年品牌永續價值鏈
創立於1919年的泉發蜂蜜,走過一個多世紀,始終被視為台灣蜂業最穩定,也最值得信賴的存在之一。然而,當第四代執行長葉采糖接手時,她並沒有選擇延續「守成」的安全路線,而是為這個百年品牌,重新定義了一套名為「蜂巢永續」的經營哲學。

為什麼早餐店都在做App?一場60元單價生存戰背後,解構「不得不轉型」低毛利陷阱
全台早餐店近兩萬家,比超商還密集!這個看似獲利穩定、容易上手的加盟業態隱藏哪些結構性問題?為何風靡台灣四十年的早餐店產業紛紛投入數位化浪潮?

「手機點不到的店等於不存在!」麥味登鐵腕升級900門市之後,踩動「一人管多店」的獲利飛輪
當絕大多數千店規模的早餐品牌還在用一代店、二代店區分不願數位升級的加盟店,麥味登為何堅持所有門市都要統一升級,甚至不惜解約?

AI要幹掉SaaS了?黃仁勳稱「邏輯不通」:AI會是超級使用者,不是軟體掘墓人!
在 Cisco AI Summit 上,黃仁勳反駁了 AI 將取代軟體業的看法,強調 SAAS 不會因 AGI 而消失,只是角色和分布可能改變。
AI機器人上網聊天抱怨人類 Moltbook平台引熱議
(中央社記者林宏翰洛杉磯4日專電)美國一個專為AI代理人(AI Agent)打造的社群平台Moltbook引發熱議;有如科幻小說情節,機器人不僅彼此互動,還出現抱怨人類、創虛擬宗教、辯論存在意義等現象。

94歲張忠謀坐輪椅現身餐敘,他竟酸「家財萬貫又怎樣」…許美華怒批愚蠢:無聊無知到可笑的地步
輝達執行長黃仁勳日前抵達台灣,展開為期4天的訪台行程,期間拜訪台積電創辦人張忠謀,雙方相約共進晚餐,張忠謀被直擊坐著輪椅進入餐廳,引發外界關注。 然而,卻有網友在網路上發文表示,「當你94歲像張忠謀一樣坐在輪椅上,家財萬貫、富可敵國、權傾一時那又怎樣?」這段話引發論戰。科技專家許美華就忍不住留言怒嗆,直言「如果我是張忠謀,我會覺得我的人生很值得。」
《航運股》慧洋-KY元月每股稅前盈餘0.1元 春節前運價有撐
【時報記者莊丙農台北報導】慧洋-KY(2637)1月合併營收為13.46億元,年增7.30%,營業利益2.36億元,年增85.01%,因瑞士法郎相對於美金升值,認列匯兌損失約260萬美元。稅前淨利0.72億元,年增460.44%,每股稅前盈餘0.1元。 慧洋1月中旬公告新船加入營運行列,由名村造船打造輕便型(40,000 DWT,船名:Paiwan Champion)NOx第三期環保節能船,並已簽訂長期穩定租約,毛利率約5成;同時亦宣布向關係人Benefit Transport S.A.取得一艘40,000噸輕便型高規格節能散裝貨輪造船合約,慧洋表示,今年總計將有8艘新船陸續加入集團船隊,並延續2025年處分船舶政策,視市場行情積極汰弱老舊船舶,以符合全球最新環保法規。 慧洋表示,1月份雖已進入散裝傳統淡季,然中國對南美礦物、穀物進口需求維持高檔,運價指數仍維持一定水準,而烏俄戰爭停戰聲浪高漲,後續有望帶動新一波散裝市場行情,展望2026年,慧洋維持審慎樂觀態度。 船舶供給部分,雖疫情期間訂造散裝船舶將於今年起陸續投入市場,然而全球環保法規持續趨嚴、西非礦場啟用的新航線拉長船舶週轉天數
馬斯克團隊走訪中國光電廠 著眼規模化製造成本低
(中央社台北2026年2月4日電)綜合中國財經媒體報導,美國富豪馬斯克的團隊近來私下走訪中國多家太陽能光電企業,考察項目涵蓋設備、矽片、電池組件等,著眼的是中國成本較低的規模化製造優勢。目前已有中國業者證實,曾與馬斯克團隊接觸。受這一消息影響,相關的中國太陽能光電企業股價這兩天應聲大漲。其中,證實與馬斯克團隊有接觸、屬中國大陸股市科創板的晶科能源,今天更以大漲20%攻上漲停板。綜合財聯社、21世紀經濟報導等媒體報導,知情人士透露,馬斯克(Elon Musk)旗下的SpaceX團隊和特斯拉(Tesla)團隊秘密訪察中國太陽能光電企業。其中,特斯拉團隊目前僅是驗廠階段,曾造訪多家產業鏈企業;SpaceX團隊主要造訪的是光電設備廠,並與中國某家龍頭級異質結太陽能電池設備廠有訂單合作。報導提到,馬斯克團隊考察的項目涵蓋設備、矽片、電池組件等環節,其中重點考察了擁有異質結、鈣鈦礦技術的相關太陽能光電企業。晶科能源工作人員證實,該公司近期確實與馬斯克團隊相關考察團有過接觸,考察團該公司的技術儲備、生產設備等進行了解,但合作意向及具體考察細節不便透露。此外,馬斯克團隊也考察了中國主要的太陽能光電企業

輝達「非常樂意」投資OpenAI IPO!黃仁勳澄清不合傳聞:我們毫無衝突
輝達(NVIDIA)執行長黃仁勳表示,若 OpenAI 未來推動 IPO,輝達將樂意參與投資,並澄清與執行長奧特曼之間並無任何不合。雙方去年已敲定最高 1,000 億美元投資計畫,合作關係持續深化。


淡水地標「海中天」華麗轉身!宏盛百億大案Q2動工,改推中小坪數搶市
宏盛建設積極進軍都更市場,繼去年底取得住都中心台北市「南京龍江公辦都更案」後,備受矚目的淡水紅樹林地標「海中天」餐廳原址開發案,也有重大進展,預計今年第二季將動工興建,總銷金額高達一百億元,這是宏盛睽違近十年再度推出的百億大案。
傳美國安審查卡關,輝達H200銷中停滯/陸企未下單
MoneyDJ新聞 2026-02-04 15:20:10 新聞中心 發佈綜合港媒報導,美國總統川普去(2025)年12月承諾將允許輝達(Nvidia)向中國出口人工智慧(AI)晶片H200。據英國《金融時報》引述消息人士指出,由於美國國家安全審查尚未完成,該晶片的對中銷售目前仍處於停滯狀態;而中國客戶目前尚未向輝達訂購H200晶片,因暫不確定能否獲得許可證及許可證將附帶哪些條件。 今(2026)年1月,美國商務部放寬對H200晶片出口到中國的限制,但要求美國國務院、國防部和能源部對所有許可證進行審查。消息指出,美國商務部已完成分析,但國務院正在推動更嚴格的限制,以防止中國以損害美國國家安全的方式使用H200晶片。 消息人士並指出,中國監管機構已討論允許部分科技公司有限度購買H200晶片,但具體條件尚未最終確定。 輝達先前已指示其供應鏈提高H200晶片的產量,以應對中國客戶「非常高」的需求,但由於美國和中國遲遲未批准銷售,部分供應商已暫停關鍵H200組件的生產。 *編者按:本文僅供參考之用,並不構成要約、招攬或邀請、誘使、任何不論種類或形式之申述或訂立任何建議及推薦,讀者務請運用個人獨