有用 Hadoop、Spark,就已經算是在做數據治理了?
大約在10年前開始出現「大數據」一詞,隨後幾年Hadoop、MapReduce、Spark等大數據技術成為熱門進修學習領域,企業也開始透過上述工具架構自己的數據平台(Data Platform)。一個好的數據平台,能讓企業從多個不同數據來源匯集資料、儲存與處理,經過資料轉換後接著做各種應用,如開發視覺分析工具與報表,或者將數據整合至其他系統,更複雜一些可以建模並結合機器學習或AI演算法做預測或推薦等資料科學應用。建置起數據平台可說是企業在數據治理上的一個里程碑,它解決資料分散在企業中有資料不一致或有多個副本的問題,使資料分析更有效率。
有了數據平台,還需要數據管理(Data Management)以及朝數據治理(Data Governance)前進。先談數據治理,數據治理包括制定企業資料存取的政策與程序規則、資料的安全控管機制、資料分類與確保資料品質,以及人員的角色與責任等,同時必須掌握資料對新法規的遵循程度。透過數據治理框架能更全面導入所有項目,包括資料架構、建模、儲存到資料品質等10個領域 ( 註1 )。
圖一、DAMA-DMBOK Functional Framework
數據治理可有助於回答以下問題:
- 誰擁有數據的所有權?
- 誰可以存取哪些資料?
- 採取了哪些安全措施來保護數據和隱私?
- 有多少數據符合新法規?
- 哪些數據來源被核准使用?
麥肯錫顧問公司在其《全球數據轉型調查》報告 ( 註2 ) 中指出,平均有30%的企業員工時間都花在毫無價值的工作上,因為資料品質差與可用性不佳的緣故。有進行數據治理的領先企業不會錯過從數據中挖掘出的商機,資料處理與清理也能為資料科學家與數據分析團隊節省大量時間,進而為企業省下數百萬美元的成本。
百年輪胎大廠從數據中創建全新商業模式
營運將近百年的全球知名輪胎大廠普利司通歐洲/中東/印度/非洲地區(Bridgestone EMIA),在其數位轉型計畫中建置了名為「CAPPA」的數據平台,此平台是由微軟 Azure Data Lake、Azure Databricks、Microsoft Purview、Azure Synapse Analytics 等工具所構築而成。這讓普利司通不只是生產輪胎,而是轉型成為移動解決方案提供者並建立全新的商業模式。透過在輪胎中加裝感測器,他們能即時得知輪胎與車輛及路面的關係,他們更與歐洲幾個城市合作利用數據建置路面坑窪地圖,以協助城市進行路面修復。
此外,普利司通也搜集來自工廠生產端以及供應鏈的資料以了解在製造過程中消耗多少能源,此舉不但有助完成 ESG 報告並降低碳排,長期資料累積下來,也有助於提前預警輪胎磨損情形並能降低油耗。而上述只是 CAPPA 眾多應用中的其中二項,Purview 資料目錄工具更是帶來革命性的改變,讓全公司使用者能快速找到資料並依權限存取它們,這將讓 CAPPA 在全公司營運上有更廣泛的應用。
從建置數據平台、導入數據管理並進展到數據治理,數據能帶給企業的價值大不相同。舉凡精準行銷、優化內部營運降低成本、改善產品服務良率提升客戶滿意度,到挖掘新商機發展創新商模等,要創造多大的價值端視企業是否有決心要好好整頓,並能依循數據治理框架循序漸進。
下一篇將繼續從 Electrum Cloud 蔚藍雲的導入經驗,談企業導入數據治理的盲點。