Claude 3 擠下 GPT-4,全球最強AI模型一夕換人!秒讀萬字、幻覺率大幅降低,強在哪?

獲亞馬遜、Google投資的Anthropic,本周發表了Claude 3系列模型,號稱優於包括GPT-4在內的所有競爭對手,是目前最快最強大的模型,甚至在某些任務上展現「接近人類」的能力。

「今天,我們宣布推出Claude 3系列模型,它對廣泛的認知任務(cognitive tasks)奠定了新的產業標準。」Anthropic在官網上表示。

Anthropic推出全新模型「Claude 3」,比GPT-4更強大

Anthropic發布模型分別有Claude 3 Haiku、Claude 3 Sonnet及Claude 3 Opus三種型號,性能以低到高排列,針對不同的需求、成本提供用戶選擇。目前Opus和Sonnet可以在Claude.ai上及Claude API中使用,不過Opus需要訂閱每月20美元的Claude Pro才能使用,Haiku則即將推出。

Anthropic給予了各個模型不同的定位:

  • Claude 3 Opus: 是Anthropic最為先進的模型,擁有逼近人類理解能力及流暢性,用於極為複雜的任務及開放式的提示詞。

  • Claude 3 Sonnet: 是聰明程度與速度之間取得平衡的模型,有著比同類產品更實惠、高CP的表現,專為大規模使用AI時所需的高耐用性設計

  • Claude 3 Haiku: 最小輕巧、快速的模型,有著近乎即時的回應能力,能夠快速回答簡單問題,用於與用戶的即時互動。

Anthropic聲稱,在大多數的測試方面,這次發布中最強大的Opus都優於檯面上的各大AI模型,包括大學水準的專家知識(MMLU)、研究生水準的專業推理(GPQA)、基礎數學(GSM8K)等都取得超越GPT在內各家AI模型的成績,並且在複雜任務上表現出接近人類水準的理解能力及流暢程度。

claude-3.jpg 圖/Anthropic
claude-3.jpg 圖/Anthropic

同時在視覺能力上,Claude 3系列模型也有著與競爭對手相當的表現,可以處理從照片、圖表到技術圖表等複雜的視覺內容。

Anthropic指出,許多客戶的知識庫裡超過一半都是PDF、流程圖和投影片等各種類型的視覺內容,他們很高興能為客戶提供這種新的模態。值得注意的是,雖然Claude 3系列模型可以處理圖像,但不會生成圖像內容。

claude-3 02.jpg 圖/Anthropic
claude-3 02.jpg 圖/Anthropic

根據《CNBC》報導,Anthropic指出Claude 3大約可以處理約15萬個單字(20萬代幣)的文本,相當於一本《白鯨記》或《哈利波特:死神的聖物》,過去的版本只能處理約7.5萬個單字。

而在Anthropic揭露的資料中,最輕量級的Haiku可以在不到3秒的時間內,處理完包含各種複雜圖表、字符量1萬代幣規模的研究論文。

而在價格方面,Anthropic為Opus開出輸入15美元/每百萬代幣、輸出75美元/每百萬代幣的費用,這個價格遠高於GPT-4 Turbo輸入10美元/每百萬代幣,輸出30美元/每百萬代幣,或許也代表著Anthropic對自家模型的足具信心。

大幅降低模型「幻覺率」,Anthropic致力讓Claude 3更安全

聊天機器人很容易受到誤導、或者對問題理解不充分而回答出捏造的答覆,這個情況被稱為「幻覺」(hallucination),也被認為是催生假消息的可能源頭。

Anthropic也試圖透過出Claude 3解決這個問題,聲稱在測試一系列特別刁難、複雜的問題時, Opus模型回答的正確率已經達到舊模型的兩倍以上 ,大幅減少了錯誤回應的比例。不過他們也坦承完全解決這個問題並不容易,「幻覺率要達到零是非常困難的。」Anthropic總裁阿莫戴(Daniela Amodei)表示。

「沒有一個模型是完美的,我認為應該要事先說清楚。」阿莫戴強調,「我們傾盡全力讓模型更安全、強大,當然還是有些時候會捏造回應。」

資料來源:AnthropicBloombergCNBC

延伸閱讀:ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?

責任編輯:林美欣

更多報導
ChatGPT最強對手「Claude」開放台灣註冊、兩步驟免費用!能讀整本書?支援中文?
亞馬遜40億投資OpenAI對手,力抗微軟、Google!這家新創什麼來頭?