MIT 開發新型數據分析工具,不用是專家也能使用機器學習預測

科幻電影中,我們經常可看到主角揮動手指操作螢幕上的數據,透過即時性的電腦運算來得到答案,雖然距離《鋼鐵人》全像投影的操作還有些遙遠,但好消息是,在麻省理工(MIT)的努力下,我們可能很快的就不需要比觸控螢幕更專業的東西。

多年以來,MIT 和布朗大學(Brown University)研究人員一直在開發名為「北極星」(Northstar)的雲端交互式數據系統,使用者僅需提供資料集(datasets),便能遠端使用觸控設備來發現數據中的趨勢和模式。

而在 ACM SIGMOD 會議發表的一篇論文,研究人員提到為北極星系統帶來的新功能:「虛擬數據科學家」(virtual data scientist)。

VDS 主要是基於自動機器學習(AutoML)所發展出來的功能,即使是對數據科學了解不多的人,也能夠訓練 AI 模型根據他們的資料集預測,根據研究人員的說法,VDS 是迄今為止最快的互動式 AutoML 工具。

▲ 北極星系統操作非常直覺,使用者僅需將資料集上傳到系統,便可透過右側功能列從各種層面分析數據,一切都可透過觸控平板的拉放動作完成。

VDS 之所以有這種效率,是因為團隊花了兩年時間讓 VDS 模仿數據科學家的思考方式,這意味著它可以根據各種編碼規則判定哪些模型和預處理步驟應不應該在某些任務運行。

使用 300 個真實資料集評估的測試中,VDS 與其他最先進的 AutoML 系統幾乎一樣準確,但在運算時間遠比其他系統快許多,其他工具約得花上數分鐘至幾小時才能得出答案,而 VDS 僅需幾秒鐘。

北極星項目負責人、CSAIL 電氣工程與電腦科學副教授 Tim Kraska 表示,使用者通常希望立即得到預測結果,當用戶結果被拖延的那一刻起,便開始失去與系統的互動。

「使用預測系統時,你不會希望等待 4 小時才能獲得初步結果。你會希望看到正在發生的事,這樣如果發現錯誤才能立即糾正,這在任何其他系統通常不可行。」

對於無法獲取足夠資源的人們來說,VDS 能提供許多預測協助,而這也是許多中小型企業迫切需要的。

Kraska 認為,這項技術有許多潛在用途,舉例來說,醫生可基於患者的內科病史來預測罹患特定疾病的可能性,企業使用者也可運用歷史銷售數據快速開發更準確的預測,省去大量人工分析時間。

「即使是不了解數據科學的咖啡店老闆,應該也要能有預測未來幾週銷售情況的能力,才能確定購入多少咖啡。」

(圖片來源:MIT