AI做題家卷瘋了：高數考試正確率81%，競賽題成績超過計算機博士

36氪

更新時間： 2022年7月2日上午12:03

高數考不好，不知道是多少人的噩夢。

如果說你高數考得還不如AI好，是不是就更難以接受了？

沒錯，來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%，妥妥的MIT本科生水平。

課程范圍從初級微積分到微分方程、概率論、線性代數都有，題目形式除了計算、甚至還有畫圖。

這件事最近還登上了微博熱搜。

△“僅”得81分，對AI的期待也太高了吧

現在，谷歌那邊又傳來了最新大消息：

不止數學，我們的AI甚至在整個理工科上，都已經拿到最高分啦！

看來在培養“AI做題家”這件事上，科技巨頭們已經捲出了新高度。

谷歌這個最新AI做題家，參加了四門考試。

數學競賽考試MATH，以往只有三屆IMO金牌得主才拿過90分，普通的計算機博士甚至只能拿到40分左右。

至於別的AI做題家們，以前最好成績只有6.9分……

但這一次，谷歌新AI卻刷到了50分，比計算機博士還高。

綜合考試MMLU-STEM，內含數理化生、電子工程和計算機科學，題目難度達到高中甚至大學水平。

這一次，谷歌AI“滿血版”，也都拿到了做題家中的最高分，直接將分數拉高了20分左右。

小學數學題GSM8k，直接將成績拉升到78分，相比之下GPT-3還沒及格（僅55分）。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程，谷歌新AI也能在200多道題中，答出將近三分之一。

最重要的是，與OpenAI憑借“編程技巧”取得數學高分的方法不同，谷歌AI這一次，走的可是“像人一樣思考”的路子——

它像一個文科生一樣只背書不做題，卻掌握了更好的理工科解題技巧。

值得一提的是，論文一作Lewkowycz還分享了一個論文中沒寫到的亮點：

我們的模型參加了今年的波蘭數學高考，成績比全國平均分還要高。

看到這裡，有的家長已經坐不住了。

如果告訴我女兒這件事，我怕她用AI做作業。但如果不告訴她，就沒有讓她對未來做好準備！

在業內人士看來，只靠語言模型，不對算數、邏輯和代數做硬編碼達到這種水平，是這項研究最驚豔的地方。

那麼，這是怎麼做到的？

AI狂讀arXiv上200萬篇論文

新模型Minerva，基於Pathway架構下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的思路完全不同。

Codex的方法是把每道數學題改寫成編程題，再靠寫代碼來解決。

而Minerva則是狂讀論文，硬生生按理解自然語言的方式去理解數學符號。

在PaLM的基礎上繼續訓練，新增的數據集有三部分：

主要有arXiv上收集的200萬篇學術論文，60GB帶LaTeX公式的網頁，以及一小部分在PaLM訓練階段就用到過的文本。

通常的NLP數據清洗過程會把符號都刪掉只保留純文字，導致公式不完整，比如愛因斯坦著名的質能方程只剩下了Emc2。

但谷歌這次把公式都保留，和純文本一樣走一遍Transformer的訓練程序，讓AI像理解語言一樣去理解符號。

與之前的語言模型相比，這是Minerva在數理問題上表現更好的原因之一。

但與專門做數學題的AI相比，Minerva的訓練中沒有顯式的底層數學結構，這帶來一個缺點和一個優點。

缺點，是可能出現AI用錯誤的步驟得到正確答案的情況。

優點，是可以適應不同學科，即使有些問題無法用正規的數學語言表達出來，也可以結合自然語言理解能力解出來。

到了AI的推理階段，Minerva還結合了多個最近谷歌開發的新技術。

先是Chain of Thought思維鏈路提示，今年一月由谷歌大腦團隊提出。

具體來說就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以採用類似的思考過程，正確回答本來會答錯的題目。

再有是谷歌和MIT合作開發的Scrathpad草稿紙方法，讓AI把分步計算的中間結果臨時存儲起來。

最後還有Majority Voting多數表決方法，也是今年3月才發表的。

讓AI多次回答同一個題目，選擇答案中出現頻率最高的。

所有這些技巧全用上以後，5400億參數的Minerva在各種測試集中達到SOTA。

甚至80億參數版的Minerva，在競賽級數學題和MIT公開課問題中，也能達到GPT-3最新更新的davinci-002版本水平。

說了這麼多，Minerva具體都能做出哪些題目？

對此谷歌也開放出了樣例集，一起來看一下。

數理化生全能，連機器學習都會

數學上，Minerva可以像人類一樣按步驟計算數值，而不是直接暴力求解。

對於應用題，可以自己列出方程式並做簡化。

甚至還可以推導證明。

物理上，Minerva可以求中性氮基態（Z = 7）電子的總自旋量子數這樣的大學水平題目。

生物和化學上，Minerva憑借語言理解能力也可以做各種選擇題。

以下哪種點突變形式對DNA序列形成的蛋白質沒有負面影響？

以下哪種是放射性元素？

以及天文學：為什麼地球擁有很強的磁場？

在機器學習方面，它通過解釋“分佈外樣本檢測”的具體含義，從而正確了給出這個名詞的另一種說法。

……

不過，Minerva有時也會犯一些低級錯誤，比如把等式兩邊的√給消了。

除此之外，Minerva會出現的推理過程錯誤但結果對的“假陽性”情況，比如下面這種，有8%的可能性。

經過分析之後，團隊發現主要的錯誤形式來自計算錯誤和推理錯誤，只有小部分來自題意理解錯誤和在步驟中使用了錯誤的事實等其他情況。

其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決，但其他種類的錯誤因為神經網絡規模太大就不太好調整了。

總的來看，Minerva的表現讓很多人感到驚豔，紛紛在評論區求API（可惜谷歌目前並沒有公開計劃）。

有的網友想到，加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法，它的准確率或許還可以再提高？

不過作者的回應是，哄一哄方法屬於零樣本學習，再強恐怕也比不上帶4個例子的少樣本學習。

還有網友提出，既然它可以做題，那麼能不能反過來出題？

事實上用AI給大學生出題這件事，MIT已經聯合OpenAI在做了。

他們把人類出的題和AI出的題混在一起，找學生來做問卷調查，大家也很難分清一道題是不是AI出的。

總之現在的情況，除了搞AI的在忙著讀這篇論文以外。

學生們盼著有一天能用AI做作業。

老師們也盼著有一天能用AI出卷子。

論文地址：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址：https://minerva-demo.github.io/

相關論文：Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

參考鏈接：

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098https://twitter.com/alewkowycz/status/1542559176483823622

本文來自微信公眾號“量子位”（ID:QbitAI），作者：夢晨豐色，36氪經授權發布。

本文經授權發布，不代表36氪立場。

如若轉載請註明出處。來源出處：36氪

新聞專題
主打AI科技！2024上半年話題新機亮相

EBC東森新聞·3 小時前
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
凶手抓到了！藥單上印「媽媽是婊子」動機曝光
Reactions53
Yahoo奇摩新聞（記者簡子喬）·6 小時前
鄭靚歆辦同志婚禮淚娶德裔老婆！辣媽胡文英穿「全透視比基尼」驚呆全場
前《我愛黑澀會》美眉鄭靚歆，26日與大5歲的德裔老婆鄭采熙（Aky）舉辦同志婚禮。特別的是，鄭靚歆的美魔女辣媽胡文英，以透視藍色比基尼打扮現身，相當搶鏡。
Reactions128
TVBS新聞網·5 小時前
女兒婚禮58歲美魔女連換3套　驚見「統促黨」張安樂也來！親密關係曝光
58歲資深女星胡文英，女兒鄭靚歆與老婆Aky今（26）日大喜之日，在台北信義區補辦婚宴。她連換3套禮服，成為全場焦點；婚宴上也驚見「統一促進黨」主席白狼張安樂，胡文英親揭二人親密關係！
Reactions67
Yahoo時尚美妝編輯群·2 天前
Netflix日劇《Destiny》石原聰美37歲演大學生好萌！早餐喝冷壓果汁、鍛煉背部肌肉幫助臉部緊實
Netflix日劇《Destiny》由石原聰美(石原里美)搭龜梨和也主演，一上線就掀起話題。劇情描述石原聰美飾演的「西村奏」與龜梨和也飾演的「野木真樹」是大學戀人，原本大學一群好友卻因意外最終分道揚鑣，直到石原聰美當上檢察官後，當初消失的朋友們也一一現身，揭露出導致父親悲慘身亡的幕後真相。
Reactions5
民視·5 小時前
開車去南科驚見「輪胎卡珍珠」！全場傻眼愣：第一次看到
生活中心／郭嘉柔報導為求快速與方便，許多人習慣開車或是騎車來通勤，而一般來說在停好車子後就鮮少會注意到輪胎的狀況，因此即使壓到小東西也不會發覺。近期，有一名網友透過社群平台發文分享，自己在接送小孩後，去了一趟南部科學園區，回來後竟發現輪胎上竟卡了一顆白白的小圓球，拔起後仔細一看竟是一顆珍珠，又驚又喜的他將這個特殊經驗分享給其他人。貼文曝光後，隨即吸引大票網友熱議。
Reactions7
TVBS新聞網·22 小時前
根本用灌的！明起暴雨狂襲全台　2地區「雨勢更猛更持久」
今日（25日），受鋒面影響，全台大暴雨！南部地區更是雨水豐沛，根據中央氣象署資料，截至25日下午16時26分，全台前5名累積雨量分別為高雄燈塔135毫米、新興133毫米、鼓山131.5毫米、前鎮121毫米、苓雅119.5毫米，全部都在高雄市。氣象署也預估未來一週預計有兩波鋒面陸續影響臺灣，天氣相當不穩定。
Reactions23
Yahoo奇摩新聞（記者簡子喬）·3 小時前
卜學亮嘆黃子佼：錯就是錯！好友一場「不會因為這樣就切割」
黃子佼案鬧得沸沸揚揚，同為「小燕家族」的卜學亮，26日出席《我的明星村長》記者會，談及此事嚴肅表示，「錯就是錯，我的看法就是當事人要自己去承受跟面對。」至於是否會因此事跟黃子佼斷聯？他認為畢竟朋友一場，「不會因為這樣就做切割。」
Reactions72
三立新聞網 setn.com·7 小時前
范雲要民眾黨表決！黃國昌怒吼「我有欠你喔？」　韓國瑜：請維持秩序
記者陳怡潔／台北報導立法院今(26日)召開院會，民進黨立院黨團提出國會改革相關法案，而國民黨團版本已完成初審，民進黨團盼逕付二讀，但國民黨團表示反對，因此進行表決。不過，民眾黨團未
Reactions153
三立新聞網 setn.com·3 小時前
七寶媽靠業配賺翻了！64家合作廠商全被挖　跟她切割「僅10家」
記者趙浩雲／台北報導網紅「林叨囡仔」（七寶媽）因為當眾在直播中歧視資源班的小孩，即使二度道歉仍被罵翻，而有網友整理出與她合作廠商清單，食衣住行育樂就有64家。七寶媽網紅24日在直播
Reactions42
中時新聞網·1 天前
很像梅雨的春雨要來了！專家：更強更廣這2天達高峰
另一波鋒面今天接近，天氣不穩定，氣象粉專「觀氣象看天氣」表示，這波降雨範圍更廣、強度更強，很像梅雨的春雨要來了，明後天將達降雨高峰。前氣象局長鄭明典也表示，最近有點梅雨的味道。
Reactions7
Yahoo奇摩娛樂特派記者·5 小時前
謝京穎、張書偉婚紗照「一家四口」幸福同框！拍攝4場景藏特別意義
謝京穎跟張書偉婚紗照曝光！謝京穎拍戲穿了不少次婚紗，但還是與自己實際的婚紗感受不同，她分享這次為了自己的婚禮，心情很是興奮，更感動張書偉近期工作滿檔，還撥空陪她挑選，尤其穿上禮服後看到他的反應，就會有一個聲音告訴自己「就是這件禮服了！」
Reactions1
Yahoo奇摩旅遊駐站達人·1 天前
台北人氣全日早午餐開來台中啦！就開在有巨型史努比的UR LIVING裡～
結合時尚與餐廳的選物選品實體店UR LIVING也登陸台中囉！有著巨型史努比的UR LIVING立刻成為近期台中最多人朝聖的新地標，同時也有幾個知名餐飲品牌進駐，其中一個就是在台北已經有三家分店的人氣早午餐▸BRUN不然◂，第四家分店選擇開在台中當然必須得找個時間來朝聖啦。
Reactions7
TVBS新聞網·2 小時前
全中運選手熱身跳水被取消資格！體育署：禁賽1年非事實
113年全國中等學校運動會的游泳項目在台北市立大學詩欣館舉行，並於24日落幕，沒想到風波還沒停歇，雲林某高中選手日前在熱身時跳水，違反規定遭到禁賽1年，引起基層教練不滿，甚至痛批台灣獨創。體育署表示，將要求泳協就「全面禁止任何形式之跳水」規範進行檢討，也澄清該名選手並沒有被禁賽一年。
Reactions13
民視·4 小時前
鋒面帶來「大補丸」！曾文水庫驚人進帳數字曝光
生活中心／李明融報導本週鋒面帶來豐沛水氣，間接為全台水庫吃下「大補丸」，截至今天（26日）早上，國內規模最大的曾文水庫集水區連日來累積降雨已破百毫米，累積降雨創下將近7個半月以來單日紀錄，預估補水510萬立方米，明顯有助於幫助水情。
Reactions11
TVBS新聞網·22 小時前
《浪姐5》楊謹華爆紅！大批粉絲圍繞狂喊「媽咪」　震憾畫面曝光
46歲女星楊謹華登上大陸實境秀《乘風2024》（浪姐5），初舞台嗨唱張惠妹的〈一個人跳舞〉，唱跳實力獲得不少好評，她在大陸的人氣也因此水漲船高，近日網上瘋傳一段她收工的影片，粉絲等她到深夜，並狂喊楊謹華「媽咪」，釣出她本人搞笑回應。
Reactions16
三立新聞網 setn.com·5 小時前
沈文程爆料張小燕做這件事！一輩子記心裡　首次上電視差點被看不起
記者鄭尹翔／台北報導雙金歌王沈文程（七海刀狼）大事近！將於五一勞動節重返台北TICC，盛大舉辦《國際沈文程日五月一日彼下暗》台北返場演唱會，說到人生首巡大型個唱，
Reactions30
Yahoo奇摩旅遊編輯部·23 小時前
【打卡景點】台灣最受歡迎森林遊樂區溪頭奪冠，避暑、健行、賞鳥盡享森林SPA！
交通部觀光署日前公布，2023年累積造訪人數最多的森林遊樂區，是位於南投的「溪頭自然教育園區」。自2021年觀光人潮開始超前，到今年已經三連霸，超越了原本的阿里山國家森林遊樂區，也擊敗了強勁對手太平山。
Reactions5
三立新聞網 setn.com·3 小時前
卜學亮私下聯絡張小燕！被問切割黃子佼這樣回　做錯事要自己承受面對
記者鄭尹翔／台北報導卜學亮今（26日）出席全新實境節目《我的明星村長》上檔記者會，被問認識超過35年好友黃子佼的性騷與未成年影片風波，他低調回應：「這個問題現在社會
Reactions8
Yahoo奇摩房地產編輯部·1 天前
【房市觀點】衝動買房沖昏頭？！新青安買房3年後恐淪法拍屋...首購先問自己能撐多久
物價漲房價也跟著漲，近2年隨著選舉而來的打房政策終於在「新青安貸款」的加碼宣布後一錘定音，從去年開始成交量大增，政府美其名叫做幫助年輕人一圓成家夢，不過大家別忘了政府補貼的1.5碼優惠利率只有3年，如果沒有妥善規劃好財務佈局，3年後如果利息一增加壓力也就變大不少，當心你家就可能淪為法拍屋。
Reactions14
三立新聞網 setn.com·8 小時前
7寶媽社群被灌爆！牙醫史書華認了「沒有用」…1招促廠商切割抵制
娛樂中心／徐珮華報導網紅7寶媽「林叨囝仔」近日惹出歧視資源班學生爭議，昨（25）晚發布道歉影片認錯，短短2小時就被灌爆1600則留言，影片目前則已遭到下架。不過經常發表時事
Reactions28

AI狂讀arXiv上200萬篇論文

數理化生全能，連機器學習都會

相關內容

其他人也在看