導(dǎo)語:
隨著越來越多的企業(yè)認(rèn)識到數(shù)據(jù)作為生產(chǎn)要素的價(jià)值,加快了企業(yè)數(shù)字化轉(zhuǎn)型,把完善企業(yè)級的數(shù)據(jù)治理體系作為企業(yè)數(shù)字化轉(zhuǎn)型的一個目標(biāo)。長亮科技在大數(shù)據(jù)領(lǐng)域始終保持足夠的技術(shù)敏銳度,并積累了豐富的經(jīng)驗(yàn)與資產(chǎn)。為此,我們組織了一個系列專文,分期發(fā)表,與您一起探索更適合當(dāng)下行業(yè)發(fā)展的數(shù)據(jù)觀,歡迎大家持續(xù)關(guān)注。
作者|長亮科技大數(shù)據(jù)研究院
內(nèi)容|本篇共4010字,預(yù)計(jì)閱讀時(shí)間15分鐘
創(chuàng)建企業(yè)數(shù)據(jù)模型的過程與最終結(jié)果同樣重要。正是因?yàn)閿?shù)據(jù)建模的缺失,更迫切需要治理數(shù)據(jù)。即使一個小的業(yè)務(wù)處理系統(tǒng)的關(guān)系數(shù)據(jù)建模,也可以避免或減少數(shù)據(jù)質(zhì)量問題的產(chǎn)生,有效降低未來數(shù)據(jù)管理和運(yùn)營的成本和風(fēng)險(xiǎn)。一些企業(yè)的數(shù)據(jù)治理僅僅是為了滿足監(jiān)管要求而進(jìn)行的被動行為,在IT建設(shè)過程中,沒有通過企業(yè)級數(shù)據(jù)建模進(jìn)行頂層設(shè)計(jì)和統(tǒng)籌規(guī)劃,隨著監(jiān)管科技的發(fā)展,監(jiān)管日益精細(xì)化,處罰力度不斷加強(qiáng),僅僅完成“規(guī)定動作”而沒有通過體系化設(shè)計(jì)、未能得到根本解決的各類數(shù)據(jù)問題逐漸暴露出來并帶來了越來越多的負(fù)面影響。反之,借助數(shù)字化轉(zhuǎn)型,在內(nèi)部推動企業(yè)級數(shù)據(jù)模型規(guī)劃和落地,并通過數(shù)據(jù)治理有效清理積弊,提升數(shù)據(jù)資產(chǎn)質(zhì)量的企業(yè),則在數(shù)據(jù)資產(chǎn)化、要素化的浪潮中獲得了領(lǐng)先的競爭優(yōu)勢。
01
關(guān)系數(shù)據(jù)建模方法
仍是企業(yè)級數(shù)據(jù)建模的唯一選擇
DAMA-DMBOK2總結(jié)了用于表示數(shù)據(jù)的六個最常見的模式是:關(guān)系、維度、面向?qū)ο蟆⒒谑聦?shí)、基于時(shí)間和NoSQL,其中最常用的是關(guān)系、維度、面向?qū)ο蟮腢ML,每種建模模式都使用特定的表示法-圖表符號進(jìn)行表達(dá),良好的設(shè)計(jì)模式提供豐富的可擴(kuò)展建模語言,便于提煉專家知識的原型,降低建模難度。
關(guān)系數(shù)據(jù)庫管理系統(tǒng)的強(qiáng)大能力與Peter Chen的原始ER實(shí)體關(guān)系模型的概念密不可分,即邏輯數(shù)據(jù)模型。將數(shù)據(jù)與流程(與業(yè)務(wù)流程和系統(tǒng)流程)分開的核心思想,打破了面向流程的系統(tǒng)開發(fā)模式,同時(shí)實(shí)現(xiàn)更新(操作運(yùn)營)和訪問(決策支持)的目的,邏輯數(shù)據(jù)模型從業(yè)務(wù)角度實(shí)現(xiàn)了這種分離,而物理數(shù)據(jù)模型從數(shù)據(jù)庫角度實(shí)現(xiàn)了這種分離。關(guān)系數(shù)據(jù)模型的實(shí)體完整性、參照完整性、用戶定義的完整性約束為高質(zhì)量數(shù)據(jù)的實(shí)現(xiàn)提供了保障,四十多年來,關(guān)系數(shù)據(jù)建模一直是理解復(fù)雜業(yè)務(wù)與數(shù)據(jù),設(shè)計(jì)和部署具有高質(zhì)量數(shù)據(jù)的關(guān)系數(shù)據(jù)庫與支持應(yīng)用開發(fā)的敏捷的、正確的、可靠的最佳方法。銀行業(yè)務(wù)交易系統(tǒng)數(shù)據(jù)仍以關(guān)系數(shù)據(jù)為主,并適度降范,可以與企業(yè)關(guān)系數(shù)據(jù)模型便捷映射。
對象建模與面向?qū)ο蟮某绦蛟O(shè)計(jì)方法配合主要用于交易系統(tǒng)數(shù)據(jù)模型設(shè)計(jì),對象中可以包含對象,冗余設(shè)計(jì)不可避免地造成數(shù)據(jù)的不一致,很難提供一個準(zhǔn)確的定義來說明目標(biāo)建設(shè)的數(shù)據(jù),數(shù)據(jù)可移植性差,維護(hù)困難。維度建模是應(yīng)用需求驅(qū)動的設(shè)計(jì),即使設(shè)計(jì)企業(yè)一致的維度(也必須經(jīng)歷范式與抽象的思維邏輯過程),也存在數(shù)據(jù)冗余。對象建模與維度建模這兩種方法的初衷都不是為了用一種穩(wěn)定而客觀的方式描述事實(shí),以提供高質(zhì)量數(shù)據(jù)并保證數(shù)據(jù)的連續(xù)性,因而這兩種方式的建模過程不但無助于發(fā)現(xiàn)數(shù)據(jù)問題,反而可能產(chǎn)生更多的問題,不適合用于企業(yè)級的數(shù)據(jù)建模。
數(shù)據(jù)質(zhì)量的度量管理與評價(jià)體系核心仍是基于關(guān)系數(shù)據(jù)模型建立的。DAMA-DMBOK2歸納了8個具有普遍一致性的數(shù)據(jù)質(zhì)量維度:準(zhǔn)確性、完備性、一致性、參考完整性、合理性、及時(shí)性、唯一性、有效性。ISO/IEC 25012數(shù)據(jù)質(zhì)量模型把數(shù)據(jù)質(zhì)量特性分為不排它的固有的數(shù)據(jù)質(zhì)量與依賴系統(tǒng)的數(shù)據(jù)質(zhì)量,排除依賴系統(tǒng)的數(shù)據(jù)質(zhì)量特性后,固有的數(shù)據(jù)質(zhì)量特性都可以用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理。
一表通監(jiān)管數(shù)據(jù)采集接口標(biāo)準(zhǔn)把明細(xì)類數(shù)據(jù)劃分為機(jī)構(gòu)、客戶、關(guān)系、財(cái)務(wù)、產(chǎn)品、協(xié)議、交易、狀態(tài)、資源、參數(shù)等10個主題,把關(guān)系、狀態(tài)單列主題,分別管理關(guān)系與歷史變化,關(guān)系模型設(shè)計(jì)模式的監(jiān)管要求比過去更加模型化,可以更加完整、體系化評價(jià)數(shù)據(jù),對數(shù)據(jù)質(zhì)量的要求越來越高。一表通接口標(biāo)準(zhǔn)存在一定的冗余,需要在支撐一表通的底層實(shí)現(xiàn)上提供一致的數(shù)據(jù)。
02
企業(yè)級數(shù)據(jù)建模
如何有效幫助治理數(shù)據(jù)?
數(shù)據(jù)是業(yè)務(wù)與信息的最后載體,企業(yè)級數(shù)據(jù)建模應(yīng)自上而下參考企業(yè)業(yè)務(wù)架構(gòu)與應(yīng)用架構(gòu),自下而上結(jié)合數(shù)據(jù)需求和數(shù)據(jù)現(xiàn)狀。從數(shù)據(jù)現(xiàn)狀出發(fā),整體上可以劃分為信息探索、模型設(shè)計(jì)兩個大的階段。
1.信息探索階段
了解企業(yè)數(shù)據(jù)現(xiàn)狀及其元數(shù)據(jù)是企業(yè)級數(shù)據(jù)建模實(shí)質(zhì)行為必不可少的一步。信息探索是對企業(yè)現(xiàn)有數(shù)據(jù)與文檔進(jìn)行調(diào)研分析,識別其數(shù)據(jù)結(jié)構(gòu)、業(yè)務(wù)含義、數(shù)據(jù)關(guān)系、數(shù)據(jù)流, 從源數(shù)據(jù)中探索出信息的過程。可以說信息探索的每一步,都可能發(fā)現(xiàn)需要治理的問題,數(shù)據(jù)模型師作為數(shù)據(jù)考古學(xué)家必須耗費(fèi)大量時(shí)間深入穿透紛亂復(fù)雜的數(shù)據(jù)表象,反復(fù)提出假設(shè),驗(yàn)證或推翻。
可視化業(yè)務(wù)源數(shù)據(jù)模型。由于業(yè)務(wù)系統(tǒng)很少提供源模型,反向工程還原源數(shù)據(jù)模型是企業(yè)數(shù)據(jù)建模人員應(yīng)該嘗試完成的一項(xiàng)工作,通過與數(shù)據(jù)生產(chǎn)者以及業(yè)務(wù)人員的交互,更好地理解與驗(yàn)證數(shù)據(jù),確認(rèn)業(yè)務(wù)規(guī)則,更容易發(fā)現(xiàn)與確認(rèn)數(shù)據(jù)質(zhì)量問題。源數(shù)據(jù)建模還有助于將數(shù)據(jù)與真實(shí)業(yè)務(wù)世界本體進(jìn)行比較,發(fā)現(xiàn)差異。
探索跨業(yè)務(wù)系統(tǒng)的數(shù)據(jù)關(guān)系與數(shù)據(jù)流。理想情況下,企業(yè)應(yīng)具備應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)來說明不同業(yè)務(wù)源系統(tǒng)之間的數(shù)據(jù)交互關(guān)系,業(yè)務(wù)系統(tǒng)應(yīng)提供詳細(xì)的設(shè)計(jì)說明。把數(shù)據(jù)集中到一起進(jìn)行跨系統(tǒng)深入探索驗(yàn)證,還可以進(jìn)一步發(fā)現(xiàn)不同系統(tǒng)之間的業(yè)務(wù)不一致、賬務(wù)不一致以及業(yè)務(wù)與賬務(wù)不一致問題,使各種問題充分暴露。
形成企業(yè)數(shù)據(jù)CRUD分布圖,識別出有用的關(guān)鍵數(shù)據(jù),進(jìn)一步確定黃金數(shù)據(jù)源。發(fā)現(xiàn)與確定什么是以及為什么是關(guān)鍵數(shù)據(jù),數(shù)據(jù)治理的主要目的之一是保護(hù)、管理與共享重用這些關(guān)鍵數(shù)據(jù)。如果不知道要管理的數(shù)據(jù)是什么、數(shù)據(jù)的含義以及為什么對組織重要,就不可能很好地保護(hù)和管理數(shù)據(jù)。識別出冗余數(shù)據(jù),區(qū)別垃圾數(shù)據(jù),確定企業(yè)數(shù)據(jù)分布與集成的問題。許多數(shù)據(jù)問題是因?yàn)椴豢茖W(xué)的CRUD造成的,企業(yè)建模思維很容易發(fā)現(xiàn)應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)在主數(shù)據(jù)、數(shù)據(jù)交互與集成等方面存在的問題,如同一主數(shù)據(jù)多個系統(tǒng)創(chuàng)建與修改。
發(fā)起數(shù)據(jù)資產(chǎn)評估,盤點(diǎn)數(shù)據(jù)資產(chǎn)現(xiàn)狀是數(shù)據(jù)治理早期關(guān)鍵活動。企業(yè)級數(shù)據(jù)建模過程中的信息探索,從數(shù)據(jù)到信息,找到有價(jià)值數(shù)據(jù),發(fā)現(xiàn)需要治理的問題,應(yīng)是數(shù)據(jù)治理實(shí)質(zhì)工作的重點(diǎn)內(nèi)容。
2.模型設(shè)計(jì)階段
數(shù)據(jù)模型是本體模型,數(shù)據(jù)建模是一項(xiàng)專業(yè)設(shè)計(jì)任務(wù),在數(shù)據(jù)建模過程中融入數(shù)據(jù)管理思維,經(jīng)過專業(yè)負(fù)責(zé)的深思熟慮與驗(yàn)證,精準(zhǔn)設(shè)計(jì)與定義模型本體——每個概念業(yè)務(wù)實(shí)體、邏輯數(shù)據(jù)實(shí)體及其固有屬性。模型設(shè)計(jì)包括主題模型設(shè)計(jì)、概念數(shù)據(jù)模型設(shè)計(jì)與邏輯數(shù)據(jù)模型設(shè)計(jì),企業(yè)級數(shù)據(jù)倉庫模型是企業(yè)級的分析數(shù)據(jù)模型,還包括物理數(shù)據(jù)模型的設(shè)計(jì)。在定義數(shù)據(jù)模型本體過程中,可以發(fā)現(xiàn)更多數(shù)據(jù)問題。
采用范式與適度抽象設(shè)計(jì)思想與通用數(shù)據(jù)模型設(shè)計(jì)模式,設(shè)計(jì)穩(wěn)定的數(shù)據(jù)模型,使模型收斂而不發(fā)散,改善業(yè)務(wù)一致性。嚴(yán)格按照第3范式要求設(shè)計(jì)邏輯模型,必然會發(fā)現(xiàn)源系統(tǒng)很多因冗余設(shè)計(jì)造成的不一致性問題(雖然業(yè)務(wù)系統(tǒng)一般采用范式設(shè)計(jì)模式,但沒有達(dá)到第3范式要求),在物理模型設(shè)計(jì)中考慮適度降范。
部署準(zhǔn)確的高質(zhì)量數(shù)據(jù)源。根據(jù)信息探索的結(jié)果,確定準(zhǔn)確權(quán)威的數(shù)據(jù)源映射模型,執(zhí)行完整的數(shù)據(jù)模型設(shè)計(jì)任務(wù),確保數(shù)據(jù)完整性。在集成的數(shù)據(jù)環(huán)境中,基于數(shù)據(jù)模型進(jìn)行全維度質(zhì)量檢查,把問題提交給治理團(tuán)隊(duì)安排治理,推動上游業(yè)務(wù)系統(tǒng)治理,在源頭產(chǎn)生高質(zhì)量的數(shù)據(jù)。
03
提升數(shù)據(jù)建模效率
數(shù)據(jù)建模和數(shù)據(jù)治理都是數(shù)據(jù)全生命周期管理的關(guān)鍵職能領(lǐng)域,二者相輔相成,對提升數(shù)據(jù)的可用性、發(fā)揮數(shù)據(jù)價(jià)值具有重要的意義。
數(shù)據(jù)治理是對數(shù)據(jù)資產(chǎn)管理行使權(quán)威與控制,數(shù)據(jù)治理組織發(fā)起企業(yè)數(shù)據(jù)建模,可以將數(shù)據(jù)建模視為對數(shù)據(jù)定義的權(quán)威與控制的執(zhí)行和實(shí)施。企業(yè)數(shù)據(jù)建模的原則(在“正確的”時(shí)間,由“正確的”人員為組織定義“正確的”數(shù)據(jù),確保唯一正確的數(shù)據(jù)放在唯一正確的地方),必須要有規(guī)范或準(zhǔn)則來確保數(shù)據(jù)設(shè)計(jì)符合需要,這些規(guī)范由數(shù)據(jù)治理委員會委托相關(guān)職能團(tuán)隊(duì)設(shè)計(jì)并批準(zhǔn)發(fā)布。
數(shù)據(jù)管理職責(zé)描述數(shù)據(jù)管理崗位管理數(shù)據(jù)和流程的職責(zé)和責(zé)任, 確保有效控制和使用數(shù)據(jù)資產(chǎn)。數(shù)據(jù)管理專員職責(zé)的主要活動包括創(chuàng)建和管理核心元數(shù)據(jù)、記錄規(guī)則和標(biāo)準(zhǔn)、管理數(shù)據(jù)質(zhì)量問題、執(zhí)行數(shù)據(jù)治理運(yùn)營活動,需要把這些管理職責(zé)與活動嵌入到企業(yè)數(shù)據(jù)建模活動中,在整個數(shù)據(jù)生態(tài)系統(tǒng)中的人員、流程和系統(tǒng)中定義和開發(fā)“正確的”數(shù)據(jù)行為。
企業(yè)數(shù)據(jù)建模各階段必然會遇到許多問題,需要業(yè)務(wù)職能領(lǐng)域和 IT 組織協(xié)同,與數(shù)據(jù)建模人員一起工作,協(xié)助數(shù)據(jù)建模,需要數(shù)據(jù)治理組織為數(shù)據(jù)的集成與整合提供推動與決策支持。在正式的數(shù)據(jù)治理組織建立之前,企業(yè)級數(shù)據(jù)倉庫的模型建設(shè)主要由IT部門發(fā)起,業(yè)務(wù)僅是作為數(shù)據(jù)應(yīng)用的需求方參與,項(xiàng)目中發(fā)現(xiàn)的數(shù)據(jù)問題沒有相應(yīng)的“司法”解決途徑。
END
僅治理數(shù)據(jù)而不建模數(shù)據(jù),治理成果得不到鞏固,不能應(yīng)用于新的設(shè)計(jì)中避免或減少類似問題的發(fā)生,各種問題循環(huán)反復(fù)。與單獨(dú)進(jìn)行不同的工作相比,企業(yè)數(shù)據(jù)治理與數(shù)據(jù)建模聯(lián)合起來更好,嵌入數(shù)據(jù)治理可以更有效開發(fā)和維護(hù)企業(yè)數(shù)據(jù)模型,企業(yè)數(shù)據(jù)建模使數(shù)據(jù)治理工作更有效,全面提升數(shù)據(jù)生產(chǎn)質(zhì)量,給數(shù)據(jù)消費(fèi)者提供高質(zhì)量數(shù)據(jù)。