數位時代的基礎建設:資料對接

圖片來源:Getty Images
圖片來源:Getty Images

⊙林雨蒼

今年度最令人驚訝,也最可能改變未來生活型態的數位技術,應該就是chatGPT的出現。chatGPT改變了許多人的工作方式,透過chatGPT,我們可以放大人們的創意與生產力,讓許多服務有更多的加值應用,當然,也帶來了不一樣的產業面貌,帶出了更多的工作機會。從政府到產業,大家都在問,台灣能有自己的AI產業嗎?

AI需要大量資料,但資料需要清理

但事實上,AI的訓練必須基於大量的資料,若這些資料與自己的服務有關連,AI就能更精確地提供服務。但有處理過資料經驗的朋友就會知道,在這個過程中,耗費最多時間與精力的,就是清理資料,並且把資料處理到統一的格式,以便程式可以一致性的處理。這個處理資料的程序不僅只跟AI有關,幾乎所有產業的數位化也都會遇到類似的問題。一旦有了數位系統要處理資料,不能免的就必須清理過往資料、整理資料格式,讓程式可以直接處理這些資料。

這些資料清理的工作非常繁瑣,每間公司遇到類似問題的時候,都需要耗費一次大量的人力來進行資料清理與格式整理。而且,若是整理出來的資料格式不一致,那麼要整合其他資料的時候,還是需要進行重複且繁瑣的資料清理工作。若能減少這些需要人力的重複工作,那麼對許多公司而言,就可以省下大量的成本,並可以把這些成本用於創新與研發。

制定資料規範,減少資料清理與接軌的工作

要減少這些重複的工作,最重要的就是制定統一的規範,並且鼓勵大家採用。若是資料有一致性的標準,那麼未來只要處理到符合這個標準的資料,就可以彼此對接,據此開發相應的函式庫與程式,減少人力的損耗。同時,這些資料的標準也能方便其他程式可以用類似的函式庫來存取相同的資料。但若是沒有一致性的資料標準,那麼這樣自動化的程序就難以進行,而需要耗費更多的人力在資料清理、對接的程序上。可以說,制定一套大家都能採用的資料標準,就能減少許多公司的重複工作。

舉例來說,面對各國法規,化粧品產業現在必須整理、提供化粧品產品資訊檔案(PIF),這些檔案內就包含像是配方成分的相關資料。若可以把這個資料規格一致化,甚至把配方資料放在同一個平台方便查詢,化粧品業者就不用單打獨鬥,每個都去整理自己的PIF,而能從模版中自動產生PIF,再進行部分手動調整即可。這就可以大大省下許多業者的時間與人力成本。

這樣的工作其實並不陌生,我們在歷史課本上就曾學過——秦朝統一度量衡,書同文、車同軌,這就是標準化的過程。定義出相同的語言,可以避免我們浪費更多時間學習各種不同的方言;定義出相同的車軌標準,可以讓我們的車子不用不斷調整自己的車軸,就能快速在各個地方移動。可以說,這樣標準化的過程,就能夠解放我們的生產力,把原本用於對接的人力,用在更多的產業創新,進而推進社會的進步。

因此,若能制定出資料標準,讓各個產業的資料可以彼此互通,甚至可以「交互」,用程式來自動化處理,就能解放更多人力,用於更多的產業創新。可以說,制定資料標準這件事情,就是數位政策的「基礎設施」。

資料標準應盡量採用國際通用標準

這些資料標準都要盡量採用國際間通用的資料標準。為什麼呢?因為國際較為通用的資料標準較多人採用,通常也有更充分的函式庫可供利用,在程式的撰寫與對接上更為便利;通常國際常採用的標準,已經考量了許多應用上的可能性,具備更好的擴充性,使用上自然也更為便利。

因此,若已經有國外可行且廣泛採用的資料標準,就應該盡量參考國際的資料標準;但若沒有,當然也可以制定屬於台灣的資料標準,並由數位部協助,參與諸如W3C等制定規範的組織,把資料標準推廣至國際,鼓勵其他國家一起參考、利用。

資料標準會與時俱進,需要彈性的框架制定與檢討

資料標準該怎麼制定呢?首先,這樣的資料標準一定不能用法律制定。資料標準會隨著各種狀況而逐步演進,用法律定義的話,當資料標準繼續往前走、而法律過時的時候,過時的資料標準反而會拖累相關應用的發展。資料標準的制定,一定要讓有實務經驗的人,也要有數位方面的專家多方參與制定,有時候也需要隱私方面的考量。若是產業的資料,就應該由業者來制定,政府的資料,則可由政府內部討論、確定。

像資料標準這樣的「基礎設施」,如同社會公益一般,很多時候若僅是交由市場機制運作,就會出現「公地悲劇」,沒有人願意擔負起這個責任。因此,關於產業的資料標準,政府可以協助各個產業的公協會,幫忙各個產業就該產業最需要統一的資料標準開始,先邀集產業與數位技術的相關專家,定義出統一的資料標準。

而政府的部份,當然需要由政府內部來發動。目前國發會已經有「政府資料標準平台」,嘗試把政府內部的資料規格進行標準化;但是仔細看就會發現,各個部會的資料表格欄位、命名缺乏一致性,很可能是交由廠商自己確定欄位標準與格式,但這樣的資料標準未必就容易使用。這些標準不該單純由廠商來確定,應該也要有外部專家,如來自資訊社群的專家,或是國外該領域的專家一起參與制定。

國發會政府資料標準平台上,類似的資料卻有不同的英文名稱
國發會政府資料標準平台上,類似的資料卻有不同的英文名稱

隨著應用的增加,資料標準也一定會有所調整,因此需要的並非只有資料標準,還需要「建立資料標準並定期檢討的程序」,比如定期召集多方利害關係人參與的委員會來討論資料標準應用的問題,並交由研發團隊研究調整、由產業來試用新的資料標準,再由委員會確定新的資料標準等,一個多方參與,彈性、且經過測試來加以完善的程序。

訂定隱私標準、統一法令解釋,是政府的責任

而政府在這個過程中該做的,是統一法令的解釋。比如《個資法》,這些產業的資料交換不能造成個人隱私遭受侵害,若政府有管理個資的委員會針對這些個資利用的方式做出統一的解釋(而非現行各個部會在專業不足下所做出的決定),就能減少業者在制定資料標準時可能遇到的法規困擾。

建立起「建立資料標準」的程序,並且逐步建立產業的資料標準,是一件大工程,卻正是數位政策的基礎設施。

資料的交互與流通,是數位政策的本質

資料的交互與流通,能帶來怎樣的未來?科技趨勢的專家 Kevin Kelly在《必然》一書中曾描繪出一個很有意思的場景。

很多人都認為,電子書只是「數位化的書」。但事實上,電子書遠遠不只是一本書。電子書可以上網,可以介接網路。透過線上的租書服務,電子書可以成為通往圖書館的入口。讀書的時候,許多人會在書上繕寫筆記,記錄自己的想法。如果這些筆記可以透過平台彼此交換,那麼,電子書上還可以搭建起一個知識交換的網絡,幫助人們交換彼此的智慧與想法,形成一個完整的社群網絡。

以上的這一切要發生,需要的其實是最基礎的「資料對接」。透過電子書的統一規格,讓一個數位設備可以閱讀更多的書;透過租借的服務介面,讓電子書可以成為圖書館的入口。透過制定筆記的資料結構,讓筆記的交換成為可能,最終成為一個社群、一個生態系。可以說,資料的標準與可交互性,是這一切成形的基礎

這,就是數位政策的本質:讓資料可以交換、可以交互,進而從中搭建出更大的網絡。數位政策的本質,不能只看到那些來來去去的高端技術,應該回到這些技術的底層,去看見真正所需的基礎建設,並且加以完善,才能讓產業站在資料的基礎上,往前邁進數位轉型的步伐,建立未來的數位產業與完整的產業生態系。

作者為自由軟體工作者、公民記者。

更多思想坦克的文章

政客與天龍國的邪惡視角

倫敦塗鴉──虛無的背後映射出中國影響世界的行爲藝術