【專欄】淺談建立成功AI的基本技巧

一個人工智慧化是21世紀最顯著的突破之一。來自不同行業的專家研究其功能並發現其新的應用方式。我們將人工智慧(AI)稱為新興技術,這是自1950年代以來,科學家一直在朝著這個努力的方向。

最初,人工智慧遠非我們在科幻電影中看到的智能機器人。儘管如此,由於機器學習和深度學習等技術,人工智慧已成為資訊技術(Information Technology, IT)行業最有前途的領域之一。對AI開發人員的需求不斷增長,一些專家認為電腦取代人類的未來。儘管現在說人工智慧對勞動力構成威脅還為時過早,但現代工人肯定會從對這項技術更多了解中受益,因為它可以使他們為未來的行業變化,做準備並熟悉新技術,且是有效而有趣的工具。

人工智慧以多種不同方式進入我們的生活。例如,我們使用Amazon Echo,Google Assistant或Siri之類的助手。對人工智慧的理解帶來了很多機會。掌握該技術的基礎知識,足以了解簡單工具的工作原理。隨著對AI的更多了解,你將有機會成為一名開發人員,將創建先進的AI應用程序。這個領域有無限的可能性。如果你想使用人機界面,神經網絡和量子人工智慧,那麼學習AI對於軟體工程職業來說,是必不可少的。

如果你剛開始使用自己的AI,這裡有一些專家提示。在構建可積極改變,你組織AI時,請考慮以下七個基本技巧。

1.明確定義AI項目的目的

如果你不能用一句話概括AI的最終目標,那還不夠清楚。找出目標客戶並定義什麼使AI獨樹一幟是關鍵問題,這些問題將推動你的方法並增加成功的機會。

了解你的客戶 在這裡,你問誰能從你的AI解決方案中受益?你能為他們解決什麼問題?要準確了解他們的需求。如果沒有真正的需求,就不會有採用和投資回報率。

衡量你的能力 在這裡,你可以真正充實解決方案涉及的內容以及實現該解決方案所需的內容(數據,知識,技術等)。這樣做可以使你清楚地了解需求是否符合你的能力和技術。

評估你的競爭 解決方案的最終目標是成為現有解決方案的更好替代方案。這意味著你的AI項目必須比現有解決方案更進一步。那麼,什麼使你的項目與眾不同?

定義所需的質量 你的AI需要達到多少才能被認為有用?現在是時候定義客戶需要的準確性級別以及實現它的步驟。你還應該考慮質量成果的回報矩陣,以便圍繞該矩陣調整優化。

2.遵循公認的方法

人工智慧並不是你想隨手即興使用的東西。遵循經過實踐檢驗的方法論,可以確保你的數據科學項目可靠,成功。

最常見的方法是SEMMA和CRISP-DM。

塞瑪(SEMMA)

SEMMA代表Sample,Explore,Modify,Model和Assess。它指導了數據挖掘應用程序的實施。這是使用全面建模技術進行數據挖掘的迭代過程。儘管它被認為是標準方法,但它著重於過程而不是結果。SEMMA的階段和相關任務如下:

樣品(Sample):該過程從數據採樣開始,例如,選擇要建模的數據集。數據集應足夠大以包含足以檢索的信息,但又應足夠小以有效使用。此階段還涉及數據分區。

探索(Explore):該階段通過在數據可視化的幫助下發現變量之間以及異常之間的預期和意外關係來涵蓋對數據的理解。

修改(Modify):Modify階段包含選擇,創建和轉換變量的方法,以準備進行數據建模。

型號(Model):在模型階段,重點是對準備好的變量應用各種建模(數據挖掘)技術,以創建可能提供所需結果的模型。

評估(Assess):最後一個階段是評估。對建模結果的評估顯示了所創建模型的可靠性和實用性。

SEMMA主要專注於數據挖掘項目的建模任務,而忽略了業務方面(與CRISP-DM及其業務理解階段不同)。

跨行業的數據挖掘標準流程(Cross-industry standard process for data mining,CRISP-DM)

與SEMMA不同,此方法包括「業務理解」階段,該階段從業務角度著眼於與數據挖掘定義相關的目標。

CRISP-DM將數據挖掘過程分為六個主要階段:業務理解;數據理解;資料準備;造型;評價;部署方式;階段的順序並不嚴格,並且總是需要在不同階段之間來回移動。

3.從可信來源查找數據

要創建AI,機器學習算法需要數據,這是沒有其他方法的。在繼續進行之前,你必須定義所需的數據量以及打算如何獲取它們。

當然,可以自行注釋訓練數據,但並不是每個人都有時間。

4.選擇用於機器學習的算法

現在有個大問題:你應該使用哪種機器學習算法?以下是一些有助於你縮小範圍的注意事項:

結果的準確性;訓練時間;使用線性;參數數量;功能數量。

可以使用的算法並不缺乏,但是你當然要選擇最適合你的項目的算法。你可能已經知道,大多數實際的機器學習都使用監督學習。監督機器學習算法的一些流行示例,包括用於回歸問題的線性回歸和用於分類問題的支持向量機。

對於計算機視覺算法,像卷積神經網絡(CNN)這樣的人工神經網絡更適合於圖像標注,注釋和分割的任務。而遞歸神經網絡(RNN)最適合語言分析。最後,多層感知器(MLP)是語音識別和機器翻譯的理想選擇。

5.設計和建構你的基礎架構

建立AI基礎設施是一項戰略決策,你必須考慮諸如數據存儲,計算資源,預算和時間之類的事情。英特爾撰寫的有用的教程系列,說明了你可以選擇的基礎架構:

內部硬体(本地)內部構建和維護自己的計算基礎架構需要大量的前期工作,但這也給你帶來更多的自由。借助本地基礎架構,你可以選擇要使用的圖形處理器(Graphics Processing Unit,GPU)。

雲端 當你剛入門時,雲端平台提供商,例如Amazon Web Services(AWS),Google Cloud Platform(GCP)和Microsoft Azure,最有意義。你可以在高性能GPU上獲得第一個培訓模型,而與內部部署相比,前期投資更少,並且具有最新技術和自動維護的優勢。你還可以使用特定於機器語言(Machine Language,ML)的提供程序(例如Paperspace)來定制其基礎結構產品,以更好地支持深度學習工作流程。

6.測試和驗證模型

必須先對AI進行培訓,然後才能發揮作用。這意味著通過訓練數據集運行你的AI應用程序,以便它可以創建模型,然後在全新的集合上再次運行它以測試結果的準確性。

老實說,培訓可能比實際開發花費更多的時間,但這可能是你AI策略中最重要的一步。經過培訓和測試的模型是有用的模型。

7.不斷監視和重新訓練你的模型

一旦你擁有一個經過最終訓練和驗證的模型,便可能會後退並開始一天的嘗試。但是你的模型監視的現實是動態的,這意味著你的模型也應該是動態的。專家指出:“業務條件變化,客戶變化,產品變化,環境變化都會影響你的應用程序。即使你可能沒有注意到,它的性能也會隨著時間的推移逐漸降低。如果你正在計劃一個AI項目,則需要考慮再培訓。”

8.建立你的產品

請記住,好的產品可以解決現實世界中的問題。

雖然這並非是針對你的項目的最佳AI策略的全面指南,但對於確保AI步入正確道路,這是一個堅實的開端。 專欄屬作者個人意見,文責歸屬作者,本報提供意見交流平台,不代表本報立場。