雖然OpenAI的ChatGPT已經能說會道，但這家AI業者並不滿足於此，根據The Information網站取得消息指出，OpenAI正計畫將戰場延伸至實體裝置，同時核心技術將全面鎖定在「聲音」 (Audio)互動上。為了達成這個目標，OpenAI據傳在過去兩個月內對內部團隊進行大規模重組，將更多資源投入到音訊模型的開發，而這一切的佈局，都是為了那款傳聞已久、預計在一年後 (約2027年初) 正式推出的神秘AI硬體。

OpenAI傳將全面押注「音訊優先」！內部團隊大改組、劍指明年推出的神秘AI硬體

告別「轉譯」延遲，打造原生聽覺AI

目前的AI語音助手 (包含ChatGPT Voice)，運作邏輯大多是「語音轉文字 (STT) -> 文字模型處理 -> 文字轉語音 (TTS)」的處理流程。雖然能用，但中間的轉換過程不可避免地會產生延遲 (Latency)，而依照業內人士透露，目前的多數音訊模型在邏輯推理能力上，仍不如純文字模型強大。

報導指出，OpenAI的新團隊正致力於開發一款「音訊優先」 (Audio-First)的新模型，試圖讓AI能直接理解並生成聲音，省去中間轉譯成文字的步驟，不僅能大幅提升對話的即時性，還能讓AI更敏銳地捕捉語氣中的情緒變化。

不只是眼鏡，更要「Always On」

至於這款神秘硬體到底長什麼樣子？

目前矽谷的AI發展趨勢似乎正從螢幕裝置轉向穿戴式裝置，例如Google正在推動Audio Overviews語音搜尋發展，Meta則靠著Ray-Ban智慧眼鏡取得初步成功，近期更傳出收購了主打穿戴式AI錄音的新創Limitless。

而OpenAI方面則聲稱自家的硬體裝置將「不僅僅是一副眼鏡」。雖然具體細節仍是機密，但該裝置將強調「Always on」 (全天候待機)的使用特性。

這意味著這款硬體裝置可能不會像手機一樣需要喚醒或解鎖，而是像一個隨身的隱形秘書，持續聆聽、感知環境狀態，並且隨時準備提供協助。這也符合矽谷目前對於「無螢幕運算」 (Screenless Computing)的想像——讓AI融入背景，只在需要時候出現。

三款裝置、由富士康代工？

相關消息更進一步指稱，OpenAI的硬體裝置不只一款，而是會有至少三款設計，其中一款代號「Gumdrop」的硬體裝置，更將以「AI筆」形式呈現。而先前傳聞則指稱OpenAI的硬體裝置將像是可別在身上使用設計，類似先前由HP收購的Humane所打造AI Pin。

至於代號「Gumdrop」的硬體裝置，傳OpenAI原本有意讓立訊精密代工生產，但考量目前中美貿易戰導致「中國製造」產品將被收取高額關稅，因此有可能轉由富士康在越南等地區代工產線生產，甚至有可能交由富士康美國境內產線組裝。

分析觀點：硬體只是載體，靈魂在於「反應速度」

筆者認為，OpenAI將重心轉向音訊是非常精準的判斷。

回顧2024年至2025年間，Humane AI Pin或Rabbit r1等裝置之所以滑鐵盧，很大一部分原因在於「反應太慢」與「不夠聰明」。如果OpenAI真的能透過原生的音訊模型，讓機器與人的對話達到「零延遲」且「帶有情感」的水準，那麼硬體是做成眼鏡、項鍊還是耳機，其實都只是形式問題。

如果一年後，我們能看到一款不用拿出手機、不用喊"Hey Siri"，只要開口就能像跟真人一樣對話的裝置，那或許才是AI硬體真正的「iPhone時刻」 (iPhone Moment)。

