Google 用機器學習簡化標註流程,讓圖片標註速度能快 3 倍

基於深度學習的電腦視覺模型已是許多應用不可或缺的一環,而模型的性能又取決於像 Open Images 這樣、越來越大的標記訓練數據庫的可用性,如何獲得高質量的訓練內容已成為電腦視覺模型發展的重要焦點。

對需要執行語義分割(Semantic Segmentation)等像素層面預測任務的應用來說,高質量的訓練內容又更關鍵,像是自動駕駛、機器人或圖片搜尋都是屬於相關應用。

傳統的手動標籤工具使用,需要一個標註者(annotator)仔細點擊圖片中每個對象的邊界、分類出圖片所有類別,過程不僅繁瑣還相當耗時,在 COCO+Stuff 數據庫光是標記單個圖片就需要 19 分鐘,標記整個數據集估計需要花費 53,000 個小時。

為了讓整個過程更簡易迅速,Google AI 團隊開發了一種基於機器學習技術的介面,能協助標註者更快標記圖片中對象和背景的類別及輪廓,進而將數據庫訓練內容的創建速度提高 3 倍。

這項功能稱為「流體標註」(Fluid Annotation)。在強大的語義分割模型的協助下,標註者能夠選擇要糾正的內容和順序,更有效率的將精力集中在機器未知的內容,進行更快又簡單的調整修改。

為了提供使用者圖片註釋的協助,團隊先使用預先訓練的語義分割模型 Mask-RCNN 來辨識圖片,並使其產生約 1,000 個圖片邊界、標籤與可信度分數。

流體標註便會使用最高可信度的內容,來作為最初呈現給註釋者的標籤。而在那之後,使用者還是可以透過以下 4 種操作進行調整修改:

  • 從機器產生的待選清單中選擇現有的標籤

  • 增加一個分割內容來覆蓋機器錯過的對象

  • 刪除現有的對象

  • 改變重疊對象的邊界順序

Google 團隊表示,流體標註是 Google 為了提高圖片註釋效率的第一項探索。未來會朝向改進邊界註釋的判定努力,期望最後能使機器擴展到能處理以前看不見的分類,來協助達成更有效的數據收集。

流體標註的研究內容將會在近期舉辦的 ACMMM2018 會議中展示,如果你對這項功能有興趣,也可以前往 Google 提供的 Demo 網站試用(只能用電腦開啟)。

(首圖來源:Google AI Blog