OpenAI釋出四項更新,讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

OpenAI在稍早舉辦的DevDay活動上公布四項更新,分別包含即時 (Realtime) API、視覺微調 (Vision fine-tuning)、模型蒸餾 (Model distillation),以及指令快取 (Prompt caching),藉此強化用戶透過OpenAI技術資源打造的人工智慧服務使用體驗。

OpenAI釋出四項更新,讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能
OpenAI釋出四項更新,讓開發者能打造反應更即時的人工智慧、加強電腦視覺應用功能

雖然此次並未宣布推出全新人工智慧模型,但此次更新的技術資源則是讓開發者能更完善、加強人工智慧互動體驗,並且針對運算功能進行最佳化。

即時API

其中,在即時 (Realtime) API部分主要加強人工智慧語意理解與反應互動效率,讓使用者能更貼近真實交談互動方式與人工智慧「對話」,而與OpenAI技術合作的英語學習平台Speak也宣布採用此API資源,用於全新即時角色扮演功能,而包含旅遊規劃服務Wanderlust也透過此API加快使用者互動體驗。

OpenAI說明,傳統運作是透過系統理解使用者語意,再將相關內容轉換為文字讓系統處理運算,最後再以運算結果的文字內容轉換成語音播放呈現,而即時API則可直接將音訊透過GPT-4o模型運算,並且直接反應運算結果,藉由省去中間轉換處理流程,讓人工智慧服務能以更快效率呈現結果。

而目前即時API可對應6種語音風格,並且強調與ChatGPT服務提供版本不同,更考量版權、隱私問題,目前並未開放使用第三方語音包客製對話風格。

即時API先以公開測試形式提供使用,計費方式以每100萬組輸入文字詞元 (token)將以5美元計費,而每100萬組輸出文字詞元則以20美元計費,而每100萬組輸入音訊詞元則以100美元計費,而每100萬組輸出音訊詞元則是以200美元計費。

除了對應文字、音訊內容處理,OpenAI接下來也會在即時API擴大支援圖像、影片內容,並且讓開發者更容易在透過Python、Node.js開發語言打造應用服務整合此API資源。

視覺微調

針對人工智慧視覺應用打造的視覺微調功能,則是讓開發者可向GPT-4o提供客製化圖像資料,讓GPT-4o能以符合特定需求的電腦視覺方式分析內容。

目前東南亞最大線上預約乘車服務Grab,已經利用此功能改善其服務地圖定位準確度,例如透過輸入100組資料,即可將服務地圖車道定位準確度提升20%,同時也能讓服務駕駛更正確知曉當前行駛道路實際速限,藉此避免在服務過程有超速違規情形。

模型蒸餾

而模型蒸餾功能,則是可讓開發者將規模較大的人工智慧模型「精製」成規模較小模型,以利在終端裝置上離線使用,或是以更快效率執行運作。

雖然大型人工智慧模型有更精準、多模太使用特性,但由於對應參數量相當龐大,若要用在終端裝置可能會面臨不少挑戰,同時花費成本也相對較高,而反應速度也可能相對緩慢。

因此,透過蒸餾方式讓小型模型向大型模型學習,即可在保留小型模型佔用運算資源較小、速度較快特性,並且具備與大型模型相同的判斷精準度,同時也能以相對較低成本運作。

指令快取

至於指令快取部分,主要是針對人工智慧模型曾經執行過的指令進行暫存,一旦又有相同或類似的指令存取需求,及可以先前處理內容加快反應時間,同時也能讓人工智慧模型運作成本降低。

此外,此功能採全自動化設計,意味開發者無須手動設定哪些指令需作暫存,或是調整運作模式,即可加快人工智慧服務執行反應效率,甚至最高能節省多達50%的成本開銷。

更多Mashdigi.com報導:

Raspberry Pi與索尼半導體解決方案合作,藉由相機模組導入電腦視覺應用功能

微軟釋出Windows 11 24H2作業系統更新,提升Arm架構設計的「Copilot+ PC」裝置使用體驗

微軟以Copilot服務滿足人工智慧使用需求,加入Voice、Vision、Think Deeper等實驗功能