[FTNN新聞網]實習記者藍彥欣／綜合報導

使用AI幫忙解惑已成為人們日常，但讓各AI軟體考同一份考卷，誰能得到最高分呢？「韓聯社」與延世大學教授金時浩（김시호）的研究團隊對AI聰明度進行實驗，使用ChatGPT（GPT-5）、Gemini（2.5Flash）、Perplexity（Sonar）的免費版本，以及DeepSeek的最新模型，挑戰測驗2026年韓國大學入學考試（대학수학능력시험，簡稱CSAT），科目包括韓語、英語與數學，結果顯示。

研究團隊使用AI挑戰測驗2026年韓國大學入學考試（대학수학능력시험，簡稱CSAT），研究結果公布。（示意圖／unsplash）

根據「韓聯社」報導，研究團隊讓4款熱門AI在有限制的條件下參加考試，實測若這些人工智慧是真正的考生，它們的成績能錄取哪些大學？為了確保測試環境與考試規定和韓國大學入學考試相同，所有的AI禁止搜尋網路，並被要求自行解決問題。

結果顯示，ChatGPT在「數學」科目成績居高，值得注意的是，今年的數學題目融入了大量高難度題型，因此屬挑戰度較高的考科，但ChatGPT仍表現亮眼，只錯了一題；不過韓語的得分相對較低。

DeepSeek同樣不遜色，它在韓語和英語方面的得分勝過GPT，因數學得分較低，才拉低整體總分平均。

Gemini在數學方面準確度高，與ChatGPT相似，但可惜在韓語得分墊底，表現不理想。

而居最後一名的是Perplexity，測試過程不僅錯誤率高，甚至拒絕回答題目，而且對於測試時間的掌控度低，此外，還在考試期間使用網路搜尋功能，違反CSAT考試規定，可被視為是作弊的行為。

專家評估，今年的考試結果，沒有一個模型的分數達到被4年制大學錄取的水平。金時浩（김시호）教授表示：「儘管人工智慧模型有日漸顯著進步，但它們在韓語的表現仍無法完全如人意，我們所設想的高層次問題似乎無法解決」。

