亞馬遜員工把「LLM結合快打旋風」!測試全球14個LLMs誰最強 第一名是這1家新創公司的模型

一位來自亞馬遜(Amazon)的員工近日將一項大型語言模型(以下簡稱LLM)開源專案結合《快打旋風》遊戲,且測試全球當前14個LLM哪一個能力最強!奪下第一名的模型隨即受到矚目。

這名亞馬遜員工名為Banjo Obayomi,他取用的開源專案名為「LLM Colosseum」,是由兩位工程人員Stan Girard與Quivr Brain所開發,最初這項開源專案推出時,目的即是期望透過LLM來更精準控制遊戲角色對決

而Banjo Obayomi將此開源專案用來測試14個LLMs,測試過程中,各個LLM會依據遊戲當前設定好的場景、氛圍文字描述來決定角色的下一步行動,包含相互接近、後退或執行波動拳或升龍拳等技能。

角色的每一個動作決策都得以從中看出LLM的理解能力和戰略預測成效。

<cite>在LLM Colosseum測試過程中,可從遊戲角色的攻守策略看出每個模型的理解和反應能力。(圖/翻攝自YT/DataOpsDC)</cite>
在LLM Colosseum測試過程中,可從遊戲角色的攻守策略看出每個模型的理解和反應能力。(圖/翻攝自YT/DataOpsDC)

經過測試後,最終14個LLMs中脫穎而出的,是claude_3_haiku!共計參與了314場比賽,而測試結果也顯示,較小型的LLM能做出更快速動作,招式較多樣,以速度和反應能力取勝。

<cite>Stan Girard即是LLM Colosseum開源專案的開發者。(圖/翻攝自X/Stan Girard)</cite>
Stan Girard即是LLM Colosseum開源專案的開發者。(圖/翻攝自X/Stan Girard)

最後,不得不特別介紹,冠軍Claude 3 Haiku模型即是由新創公司Anthropic所推出的模型!

Anthropic所推出的Claude 3系列目前被封為「全球最強AI模型」,且Anthropic公司自信斷言,這是當前速度最快、最強的模型,相較該公司另外推出的Opus和Sonnet版本,Haiku是其中最為輕巧且迅速的,同時成本也是最低的。

更多風傳媒報導