2025 年 AI 突破性新進展!有望破解動物溝通模式與結構

今年 5 月底的科勒-杜立德獎(Coller-Dolittle Prize),為破譯動物聲音密碼的突破性研究提供高達 1,000 萬美元(約新台幣 3.27 億元)的獎金獎勵,反映出科學界越來越樂觀地預估,2025 年 AI 與機器學習將會出現重大進展,長久以來動物發聲真正含義的謎團有可能被解開。

當前有許多研究計畫致力於開發能夠解讀動物聲音的演算法,例如 Ceti 專案便持續專注於破譯抹香鯨複雜的點擊聲模式及座頭鯨的旋律歌聲。但這些研究莫不受到某個關鍵問題的限制,亦即當代機器學習技術需要龐大的資料集,但由於缺乏高品質動物聲音的註解資料,所以這方面的大型資料集很難取得。

從 AudioMoth 到 CNN/DNN 的加持,突破物種聲音大型資料集的取得瓶頸

就以 Ceti 專案為例,其在研究抹香鯨溝通時僅能使用 8,000 多段的聲音資料,這和 ChatGPT 等大型語言模型(LLM)動輒超過 500 GB 的訓練資料量相比有如天壤之別。這種資料量上的差距,凸顯了研究者在建立對動物溝通全面理解過程中充滿了困境與挑戰。

所幸,隨著 AudioMoth 等經濟實惠錄音技術的興起,高品質聲音捕捉的門檻大幅降低,研究團隊因此能全天候在各種物種的自然棲息地進行錄音,大量資料集的取得與使用從此變得更加容易。

如今透過由卷積神經網路(CNN)驅動的自動檢測演算法,能高效處理巨量音訊資料,並根據動物聲音的獨特聲學特徵有效識別和分類動物聲音。此外,研究人員還可利用深度神經網路(DNN)分析彙整好的大型資料,挖掘動物發聲序列中的模式與結構。這些分析甚至可能揭示出與人類語言結構相似的潛在架構。

未來能將動物聲音轉化成人類語言 vs. 動物聲音根本不具備語言結構

然而科學界也存在一個根本性的疑問,亦即透過技術進步來解碼動物聲音的最終目標為何?對此,一些組織,如 Interspecies.io,明確表示其目的是將跨物種溝通轉化為人類可以理解的訊號,甚至提出了將動物聲音轉化成人類語言的雄心勃勃目標。

針對這樣的目標,科學界也存在另一種截然相反的普遍共識:非人類動物可能並不具備類似於人類語言的結構化語言。對此,科勒-杜立德獎在確立尋求解讀或理解各種生物交流訊號方法之目標的同時,也承認動物溝通可能並不遵循結構化語言模型的可能性。這樣的觀點也促使人們對動物互動的細微差別,進行更具探索性的調查研究。

不論如何,2025 年有望成為人類運用突破性 AI 技術進展增進對動物溝通更全面理解的關鍵一年。在 AI 技術不斷突飛猛進的帶動下,未來我們和動物以及大自然間的關係將會有徹頭徹尾的改變。

(首圖來源:pixabay