Anthropic 用《寶可夢紅版》來比較旗下模型有多聰明

最新的 Claude 3.7 Sonnet 可以用推理模式打敗三個道館館主呢。

2025年2月25日上午2:32

Anthropic 今天稍早發表其最新的 Claude 3.7 Sonnet 模型時有說過，他們在開發時採取了不同的訓練策略，降低在數學和電腦科學競賽問題方面的特化程度。那如果不用這些題庫的話，要如何才能展現 Claude 3.7 Sonnet 的「思考」能力呢？答案就是寶可夢了。

不，這不是開玩笑。Anthropic 表示，他們為模型配備了基本的記憶體、螢幕讀取等能力，並且可以透過特定的程序「操縱」遊戲的按鍵，並且在螢幕上導航，讓它具備遊玩寶可夢的能力。Anthropic 用來測試的「標桿」，是第一代的《寶可夢紅版》，從附圖上來看，最早的 3.0 Sonnet 連自家的大門都出不了，3.5 Sonnet 可以到常青森林，而 3.7 Sonnet 不僅跑得更遠，而且還能打贏三個神奇寶貝道館的館主。

Anthropic 提供的是總「動作數」，例如 3.7 Sonnet 一共花了 35,000 個「動作」才打敗馬志士，但這其實無法看出它一共花費了多少運算量，又或者中間有多少次嘗試失敗。而且，因為只有 Anthropic 在使用這個方式進行測定，因此也無法和其他模型進行比較。不過，現在 Anthropic 開了這個先河之後，推理模型可以在寶可夢紅版裡跑多遠，用多快的速度跑完，大概未來有機會變成一個挑戰項目了吧？

Yahoo Tech·
Anthropic 最新的 Claude 模型可以快速回應，也可以慢慢「思考」
Anthropic 推出了其新一代的 Claude 3.7 Sonnet 模型，Anthropic 將其描述為市面上第一個「混合推理模型」，這意味著新版本的 Claude 同時具備即時回答問題，以及慢慢思考、逐步解決問題的能力。
Yahoo Tech·
特斯拉在中國推出「FSD 功能」，但目前僅向 HW4.0 開放
特斯拉果然如約在 2025 年第一季內為中國車主推送了「FSD 功能」，首個更新包括城市道路 Autopilot 自動輔助駕駛、駕駛室相機和全新地圖包，但目前僅向 HW4.0 開放。
Reactions1
Yahoo Tech·
Apple Intelligence 四月更新，加入簡體中文、登陸 Apple Vision Pro
Apple 將在 4 月釋出多個重要的 AI 軟件更新，最重要的當然是中文版本的 Apple Intelligence 將會在屆時隨 iOS 18.4 一同推出，讓大家在編寫中文文章、摘要中文網站時也可以獲得 iPhone、iPad、Mac 的原生 AI 協助，不過首波只有支援簡體中文，香港和台灣讀者比較習慣的繁體中文就有待再更新。同批更新的 Apple AI 語言還有日文和韓文，會多國語言的大家也可以試試看。
Reactions1
TVBS新聞網·
中階機戰AI！陸vivo補光去背　PK蘋果i16e混音
搶攻中階手機市場，各大品牌出招！像是大陸品牌vivo，新機搭載過去只有高階手機，才有的AI功能，拍照不但能自動補光和去背，還搭載5000萬畫素和6000豪安培大電量，而另外蘋果手機中階新機「iPhone16e」，則有AI混音功能和最新A18晶片，至於三星A55也不遑多讓，有6.6吋大螢幕，和5000萬畫素三鏡頭組合。
數位時代·
「算力就是實力」主旋律變調？微軟大砍資料中心租約背後：AI熱潮冷卻了嗎？
微軟近日取消了資料中心數百千瓩的租約，讓外界擔憂AI運算能力可能「供過於求」，不過另一方面也引發微軟與OpenAI關係可能進一步變化的猜想。
Yahoo Tech·
AirTag 2 或於今年 5、6 月發表，智能家居新品也「近在咫尺」
根據之前的流言，Apple 可能會在「大約 2025 年中」發表 AirTag 2，如今 X 用戶 Kosutami 給出了更具體的時間，據稱新 AirTag 2 將在今年 5、6 月到來，而且智能家居新品也「近在咫尺」。
TVBS新聞網·
TVBS直擊「夸父」機器人！變深圳兩會記者助手　政協委員搶合照
大陸深圳兩會正在召開，TVBS特派記者在現場直擊，看到一款名為「夸父」的人形機器人，變身陸媒的採訪助理，甚至還能完成採訪政協委員的任務。深圳為了搶下新科技話語權，將全力發展AI和機器人產業，市區街頭也變成機器人的大型試驗場，帶您一起去看看。
Reactions2
匯流新聞網·
加速品牌搶進國際市場　台北市文創扶植計畫再升級
CNEWS匯流新聞網記者張夢珊 / 台北報導台北市文化創意產業扶植計畫自2011年成立以來，持續優化政策與資源整合系統，透過人才培育、產業媒合與國際拓銷，幫助品牌從在地發展到全球市場，2024年共有54家次品牌參與，其中超過11個品牌成功進駐香港、日本、馬來西亞市場，台北市產業發展局今年計畫進一步降低申請門檻、擴大補助規模，並採取「隨到隨審」機制，讓企業更...
三立新聞網 setn.com·
簡訊驗證碼不再安全！Google證實將以QR Code逐步取代
近日Google宣布將逐步捨棄以簡訊驗證碼進行Gmail帳戶身分驗證，並改以QR Code進行此項操作。此舉旨在提升帳戶安全性及減少對電信業者的依賴。Google指出，簡訊驗證碼存在多種安全隱患，容易被駭客釣魚攻擊，甚至可能被駭客從電信業者端取得用戶電話號碼，進而獲取簡訊驗證碼，對用戶造成安全風險。
商業周刊·
黃仁勳曾說量子電腦要等30年，這間美國新創憑什麼拚兩年後問世
過去一直被認為「還有五年才會成熟」的量子電腦技術，可能會在兩年後實現。美國新創PsiQuantum共同創辦人暨技術長沙德博爾特（Pete Shadbolt），二月中參加《華爾街日報》舉辦的資訊長峰會時表示，最快將在2027年推出具有商業價值的量子電腦。遠超宇宙原子數量的計算，量子電腦也可能辦到量子電...
Reactions2
Yahoo Tech·
蘋果計畫在未來四年內投資 5,000 億美元在美國本土
美國政府正對科技公司大力施壓，要求它們承諾擴大在美國國內的投資，而大型科技公司也紛紛響應。稍早 Apple 公佈了該公司的計畫，未來四年內將投資高達 5,000 億美元在美國，用於高端製造、工程和教育等領域，涵蓋人工智慧和晶片製造等技術。
Yahoo Tech·
M4 版 MacBook Air 據傳下個月就會到來
本週 Mark Gurman 在 Power On 時事通訊中報導，Apple 正準備升級款的 Macbook Air。
Yahoo Tech·
Apple 傳聞將在 macOS 15.4 中為 Mac 電腦加入近距離配對機能
9to5Mac 在 iOS 18.4 程式碼中發現了證據顯示，Mac 很快就有機會像 iPhone 和 iPad 一樣，獲得近距離配對的功能，主要應該會用於電腦轉移或設定新電腦的時候。
Reactions1
TVBS新聞網·
女行凶後竟閒逛市區　躲男友住處被逮痛哭
持續追蹤花蓮這起隨機攻擊事件，動手的41歲女嫌犯，和男友吵架，卻把氣出在不認識的路人身上。而且攻擊後，因為凌晨沒車搭，無法回秀林，女子還先在市區閒晃，到了傍晚，又回到男友住家。後來警方找上門，男友還想包庇，最後員警找到躲在浴室的女子，她當場哭了出來。
Yahoo Tech·
華碩推出可以填入精油的「香氛滑鼠」
華碩發表了一款新的「香氛滑鼠」，它內建一個專門的隔間，可以填充芳香精油。
Reactions2
Yahoo奇摩遊戲編輯部·
《吉伊卡哇》MLB聯名商品、價格公開！3月8日發售，線上商店也可入手
《吉伊卡哇》日前宣布與美國職棒大聯盟 MLB 合作，在 3 月 18、19 兩日於東京巨蛋舉辦的洛杉磯道奇與芝加哥小熊開幕戰推出聯名商品，今（25）日正式公布完整周邊，包含穿著道奇及小熊隊服的角色吊飾、貼紙、徽章等，並提供線上與實體店購買，預計 3 月 8 日正式開賣。
中央社·
台澎第3海纜故障中華電：不影響通信最遲5月修復
（中央社記者江明晏台北25日電）中華電信說明，台澎第3海纜於今天清晨3時3分發生異常故障，已自動由台澎第2海纜疏轉訊務，台澎用戶各項通信服務均不受影響，預計最遲於5月修復，也將對可疑船隻依法進行求償。
電玩宅速配·
《惡靈古堡9》里昂強勢回歸？全新REX引擎即將宣佈！？_電玩宅速配20250225
《惡靈古堡》系列最新作《惡靈古堡9》，雖然官方尚未正式宣佈任何遊戲有關的消息，但近年來網友的爆料與討論從來不曾間斷。就在最近，自稱曾參與9代封閉測試的LutusFix，又再次在Reddit上透漏最新消息啦。他表示《惡靈古堡9》已經進入開發後期，將成為系列史上規模最大的生存恐怖遊戲。里昂、吉兒即將回歸擔任主要角色，藍色保護傘也將登場，並擔任故事核心。此外，卡普空自家開發的RE引擎在9代已經達到極限，可能是最後一款使用該引擎的作品，並聲稱卡普空將推出全新的「REX引擎」。《惡靈古堡9》上市日期則從2025年延期到2026年，最快5月官方就會釋出更多資訊。8代上市至今已經過了3年多，是時候該推出9代了吧。大家對於這些消息有什麼看法呢，歡迎留言討論，《電玩宅速配》也會持續追蹤，為大家帶來第一手情報唷。 ©Capcom
鉅亨網·
台灣大與南韓電信業者SK電訊合作聚焦AI-RAN發展
台灣大 (3045-TW) 今 (25) 日宣布，與韓國電信業者 SK 電訊在 AI-RAN(人工智慧存取網路)領域合作，針對 AI-RAN 智慧節電，以及自動化網路等關鍵技術進行交流，期望優化網路效能，並降低營運成本。
中央社·
阿拉伯聯合大公國求助AI 想從天空榨出更多雨水
（中央社阿布達比25日綜合外電報導）頂尖專家討論如何幫助位處舉世最大沙漠之一的阿拉伯聯合大公國增加降雨，最新做法是利用人工智慧（AI）來改進「人工增雨」（Cloud seeding）。
Reactions1

其他人也在看