讓台灣生物資料走向國際,資料共享如何助你一臂之力?
生物多樣性資訊在台灣是新興且跨領域的學門,由於知識門檻高且缺乏相關人才培訓,要推動生物多樣性資訊整合並不容易。長期致力於生物多樣性資訊整合、流通及應用的臺灣生物多樣性資訊機構(TaiBIF),每年固定辦理工作坊培訓學員,也提供線上課程,讓更多學員逐步開放自己的生物資料,發揮更大的研究價值。
資料共享,所謂何事?
隨著大數據興起,開放資料與共享的概念這幾年逐漸被接受,生物多樣性的資料共享,也早在2001年便已悄悄進行。
聯合國經濟合作暨發展組織(OECD)曾指出:「國際間需要建立可以自由存取生物多樣性資料與資訊的機制,藉此提供可靠正確的科學證據,為經濟和社會帶來益處並促進永續發展。」
應運而生的全球生物多樣性資訊機構(Global Biodiversity Information Facility, GBIF),在2001年由多國政府資助成立,總部設於丹麥哥本哈根。GBIF的目標是「讓大眾無論何時何地,均能公開且自由存取地球上各種生物的資料」,並建立了整合全球生物多樣性資訊的開放平台(GBIF.org)及相關的資訊基礎建設。
台灣與世界接軌之路
生物資料來源非常多元,包含政府監測計畫、研究調查、公民科學活動、博物館標本典藏等,但要如何讓資料統一規格並成為大數據中的一粒沙,再積沙成塔?需要的是一層一層地緊密堆疊,而堆疊並維護台灣生物多樣性資料,並蓋起一座座建築堡壘的,就是這次要介紹的單位——臺灣生物多樣性資訊機構(Taiwan Biodiversity Information Facility, TaiBIF)。 TaiBIF是GBIF在台灣的國家節點,成立於2001年,主要任務是推動台灣生物多樣性資料的開放共享,重要工作包含:
建置生物多樣性資訊基礎建設
推廣開放資料的概念
促進生物多樣性資料的開放與整合
連結台灣與國際的生物多樣性資訊
支持生物多樣性科學研究與政策制定
在開放資料觀念尚未普及的年代,TaiBIF要推動生物多樣性資訊整合並不容易,走過一段篳路藍縷的過程。有兩個主要推動方向,第一是資料共享,先從與生物多樣性相關的主管機關和研究社群著手,使其了解共享資料的好處,強化團隊的資料管理觀念,並一步步提升對於資料價值的認同,讓資料的紀錄、整理、標準化納入日常工作中。
第二則是資訊服務,這部分需要許多工程師和資料庫管理員共同努力,才能確保資料發布與取用流程中都能順利處理,不同使用者皆可上傳並找到想要的生物多樣性資料,並依據資料發布者和使用者的需求,開發相應的工具和服務。
資料開放有哪些原則?什麼是資料標準化?
為了讓收集生物資料的團體或個人,從一開始資料的記錄就符合標準,並讓資料清理打包上傳成為工作中重要的一環,TaiBIF做了許多的努力。
要解釋資料開放,就一定要提到FAIR原則。FAIR原則2016年被正式發表於《科學資料》(Scientific Data)期刊,成為科學研究社群中推動開放資料的原則標準,以提升資料的互通和可利用性。FAIR原則是由四個互相關聯的名詞組成的縮寫,描述開放資料必須符合找得到(Findable)、拿得到(Accessible)、可互用(Interoperable)、可再用(Reusable)。隨著大數據分析技術的進步,資料量、複雜度遽增,人類將更需依賴使用電腦處理巨量資料,FAIR原則將有助於提升機器的可操作性。
資料很豐滿,整理很骨感!當我們說著不同的語言時,溝通就變得困難。同理,要讓不同研究目的、方法、田野調查的資料可以開放與整合,需要有標準格式。「達爾文核心集」( Darwin Core, DwC)就像一種資料間通用的語言,它定義了生物多樣性資料如何組織與呈現,同時提供一套共通規範,讓不同的資料收集者都得以用相同結構來描述他們的資料。目的是讓資料能夠共享、整理和比較,特別是物種的分類與分布資訊。透過DwC將生物多樣性資料標準化後,不僅提升資料品質,也增加資料的可用性,有助應用於不同類型。
TaiBIF資料發布與應用工作坊
「TaiBIF資料發布與應用工作坊」從一開始只講授資料標準(Darwin Core)和資料發布工具(IPT),到後來因應學員需求而陸續增加資料開放授權規範、開放資料的前置準備、資料管理與開放資料的取得與應用等,為期三天的初階與進階工作坊設計也因此誕生,並開始全台北中南區的教學之旅。
TaiBIF每年固定辦理工作坊,為學術研究單位、大專院校師生、公家機關、NGO 組織、生物典藏博物館、生態檢核公司等,提供有關資料標準、開放、流通與應用的訓練。主題除了介紹開放資料的基本概念、教大家如何清理、格式化與上傳資料,並以課程講授配合分組討論及練習,帶領各學員親自實作、分組交流,一旁更有助教隨時協助,透過扎實的練習,讓更多學員逐步開放自己的生物資料。
為了促進學員多面向的了解生物多樣性資訊領域,工作坊近年加入了資料論文(data paper)、資料下載與引用、資料應用,以及資料管理等主題。隨著課程主題增加,除了原有講師群之外,TaiBIF也與國內多個單位合作,由不同領域的翹楚擔任講師。
例如,介紹如何應用網路上的開放資料時,邀請了在開放文化基金會擔任法律顧問的林誠夏律師說明開放資料授權的權益和法律知識;邀請農業部生物多樣性研究所、同時也是台灣生物多樣性網絡(Taiwan Biodiversity Network,TBN)的資訊團隊管理人柯智仁副研究員,介紹開放資料流程與過去重要經驗傳承,介紹敏感物種的資料發布、地理資訊屏蔽原則及指引。
此外,TaiBIF也邀請國立臺灣博物館的楊富鈞助理研究員,透過在博物館處理大量典藏資料的經驗,分享過程中的繁瑣與重要性。更邀請到林業試驗所植物標本館的植物典藏資料庫管理人陳建文助理研究員來介紹資料發布類型、中研院研究資料寄存所的何明諠、王家薰專案經理介紹資料管理概念以及講授如何撰寫資料管理方案。
參加工作坊並非上完課就結束,TaiBIF提供課程認證,學員需於課後一個月內繳交線上作業,經過各項主題課程講師評分,分數達標即可獲得TaiBIF課程認證證書。作業分初階與進階版,初階課程證書同時是申請資料發布工具IPT帳號審核的依據,未來使用IPT上傳生物資料時能用得上;進階作業除了獲得進階課程證書,還可選擇成為TaiBIFer志工,協助資料清理、文件翻譯及課程講授等工作。
生物多樣性資訊在台灣是一個新興且跨領域的學門,其中結合了生物多樣性及資訊學領域的知識,並應用於研究與政策制定。由於知識門檻高且缺乏相關人才培訓, TaiBIF團隊希望透過培訓制度、吸引更多人參與,促進新興職涯發展的可能性。
隨著自主學習風潮興起,大家已更習慣使用網路資源,為了讓資料提供者與大眾更加了解生物多樣性資料開放概念,形成資料共享的文化,TaiBIF也發展線上教材包與線上作業,可以不分時地透過線上學習資源進修,也與實體課程享有同樣權益,自主上完課、繳交作業、評分達標後,即可獲得TaiBIF課程認證證書。
資料開放的好處?
資料開放的原則(FAIR)就像分享生態照片和數量紀錄時所遵循的規則,確保別人可以自由存取、容易閱讀、可再使用和分享、檔案可支援不同程式,並且具準確、可靠性。將資料開放有什麼好處?除了不用擔心辛苦收集的資料會遺失,同時與他人的資料整合後,也能增加研究的時空尺度,了解生物多樣性的整體樣貌,甚至發展出新的研究課題,擴展研究的深度與廣度,讓資料發揮更大的研究價值。
截至2024年8月23日為止,GBIF的資料平台上,台灣已有26個資料發布單位,開放了113 個資料集,包含超過2000萬筆物種出現紀錄。顯見台灣有越來越多資料擁有者或單位組織,願意透過TaiBIF平台發布資料並與國際連結,這代表著台灣不僅有持續關注生物多樣性資訊議題,對於資料開放的想法也越趨成熟。
生物多樣性資料發布與應用工作坊雖然只是TaiBIF團隊任務中的其中一項,但也因每年持續堅持培訓,讓生物多樣性開放資料在台灣得以蓬勃發展,不論未來的研究應用如何革新,TaiBIF將持續給予最大的支持,成為生物多樣性資訊基礎建設最強而有力的推動者。
今年最後一場「生物多樣性資料發布與應用工作坊」正在報名中!
日期:2024/11/6~11/8 地點:中研院跨領域大樓 對象:欲開放及應用生物多樣性資料者為優先 報名連結:https://forms.gle/Gy7M1zPSnpauuwau9(報名至10/16 (三) 晚上 23:59 前截止)