鯨品堂(táng)|WhaleDI數據治理利器之“低成本數據質量管理(lǐ)”

2022-12-19 176

數字化時代,數據已經成為(wéi)企業管理的關(guān)鍵要素,隨著數據的日益增長(zhǎng)及匯聚,企業數據質量問題成為數據治理的關鍵。數據質量直接(jiē)影響到能否通過數(shù)據分析驅動企業生產、運營、服務提效及創新高質量的數據對管理決策業務支撐(chēng)都(dōu)有(yǒu)極其重要的作用隻有持續的數據質量(liàng)改進才能推動數據治理體係的完善,維持數據質量(liàng)水平,為企業(yè)數據(jù)戰略提供堅實的保(bǎo)障。




先說說什麽是數據?











數據這個詞(cí)很活躍,人人耳熟能詳。它相對比較清楚的釋義為:數據是指(zhǐ)對客觀(guān)事件進(jìn)行記錄並可以鑒別的符號,是對客觀事物的性質(zhì)、狀態以(yǐ)及相互(hù)關係等進行記載的物理符號或這些物理符號的組合。在運營商(shāng)行業中,所涉及到(dào)的相關IT數據,通常包括支撐係統中的資(zī)產數據、訂單數據、歸檔業務信息數據、客戶數據等等,這些(xiē)數據產生貫穿了業務支撐的全過(guò)程,所包含的信息極其(qí)豐(fēng)富。


數據的信息記錄作用確定了它在查詢(xún)、統計、分析等方麵(miàn)都會在不(bú)同的時期裏發揮作用,其不僅僅麵向所有(yǒu)者提供信息,通(tōng)常會根據協議約定覆蓋(gài)整個(gè)企(qǐ)業的業務生(shēng)產,甚(shèn)至(zhì)外部。




數據應用開發(fā)中常見問題











信(xìn)息化也好,數字化(huà)也罷,終究(jiū)是眾多基於數(shù)據的應(yīng)用,數據應用(yòng)能否獲得預(yù)期業(yè)務效果,不僅考驗規劃設(shè)計(jì)應用場景(jǐng)的產品專家,更是取決於長期困惑企業及支撐廠家的數據問題能否得到解決。




不完整,即對於需要描述的一個對象,缺乏足夠完整的信息。往(wǎng)往構成源於不同係統、不同(tóng)時期,總是有各種原因導致無法匯聚(jù)。



不正確,這點和數據產生的方式有很大關係,不正確的過程數據通常由業務邏輯或業務規則造成,資料數據錯誤通常由錄入環節失誤導致,這種失誤通常難以管理,例如營業人員把客戶的出生信息錄成上個世紀,則直接就多了個(gè)百年老妖。



不明白,業務係(xì)統在草創之初恣(zì)意生長,帶來的模型管理混亂。多年之後的數據開(kāi)發人員和業務人(rén)員,很多的時候眼巴巴地看著一些釋義似是而非的數(shù)據徒增奈何。



數據質量的(de)影響因素











學習時間又到(dào),數據質量的定(dìng)義是:數據的一組固有屬性滿足數據消費者要求的程(chéng)度。據此,業務(wù)人員符合概念(niàn)中的消費者的定義,概因(yīn)其是(shì)業務需求的代表(biǎo)者。數據質量直接影響到數據業(yè)務需求的支撐,然而影響數(shù)據質(zhì)量的因素又有哪些呢?




11

管理方麵






缺乏有效管理策略



很多企業的信息化(huà)現狀是先建設後治理。早期缺乏整體的數(shù)據規劃,沒(méi)有統一的數據標準和明確的數(shù)據質量目標,導致(zhì)不同業務部門在處理業務時,容易出現數據衝突或矛盾(dùn)。


缺乏有(yǒu)效的數據問責機製,沒有明確數據歸口管理部門和崗位職(zhí)責,導致出現數據質量問題時無法(fǎ)厘(lí)清職責,各業務部門之間互相推諉。




缺(quē)乏統一數據標準



數(shù)據質量管理中的一大挑戰,在於各個部門(mén)對於所依據(jù)的、共識的數據標準進行業務係統建設。如果(guǒ)缺乏(fá)統(tǒng)一的數據標準,致使數據理解難以一致,業務之間的協作和溝通就如同“雞同鴨(yā)講”。





202

業務方麵




數據錄入不規範



業務部(bù)門既(jì)是數據需求的提出方,也是數據的生產方(fāng)。業務部門的人為因素是造成企業數據質量低下的一個非(fēi)常重要的原因。常見的人為因素(sù)有拚寫(xiě)錯誤,數據輸入(rù)不匹配字段(duàn)如大(dà)小(xiǎo)寫、特殊(shū)字符錄錯等,這些都會導致數據的(de)不規範問題。





33

技術(shù)方麵




數據設(shè)計不規範(fàn)



在設計階段(duàn)對數據(jù)模型質量的關注不足,需求理(lǐ)解不到位,數(shù)據庫表結構、數據庫約束條件、數據校驗規則的設(shè)計開發不合理,就會造成數據錄入無法校驗或校驗不當,引起數(shù)據的重(chóng)複(fù)、不完整、不準確。




數(shù)據傳輸(shū)不規範



數據傳輸(shū)包含數據采集、數據轉換、數據裝載、數據存儲等(děng)環節。數據采集來(lái)源(yuán)多(duō)不統一、數(shù)據采集接口效率低、數據轉換規則配置錯誤(wù)、數據裝載存(cún)儲機製不合理等,使得產生數據出數慢、數據不準確、數據不完備等問題。




數據治理利器之“低成本數據質量管理”











正所謂“工(gōng)欲善其事,必先利其器(qì)”,一套好(hǎo)的數(shù)據治理工具能(néng)讓企(qǐ)業的數據治理工作事(shì)半功倍,因此如何低成本、高效率、全鏈(liàn)路(lù)、閉環化(huà)的管控、稽核、監控數據質量成為重要命題。


WhaleDI“數(shù)據質(zhì)量管理工具”作為企業數據治理體係(xì)落地的重要利器之一,通過對數據倉庫/源(yuán)端數據(jù)進行質量標(biāo)準管理,以全流程覆蓋、易使用、規則全、智能化、閉(bì)環管理(lǐ)等為(wéi)目標,建立事前標準定義、事中(zhōng)全鏈(liàn)路監控、事(shì)後分析的運營機製,形成PDCA質量管理循環,促進數據質量(liàng)的持續提升。




11

數據(jù)標準管理,質量治理有據可依、有法可循




通過(guò)對數據標準的統一定義,明確數據的管理部門和責任主體,為企業的數據質(zhì)量治理提供了基礎保障。通過對數(shù)據實體、數據關係以(yǐ)及數據處理,定義統一的標準、數據映射(shè)關係和數據質量規則,使得數(shù)據的質量治理有法可依,有據可循,為企業數據質量的提升和優化提供保障。


數據標準管(guǎn)理其核心能力主要(yào)包括業(yè)務術語(yǔ)管理、字段庫管理、術語字段標準映射等。


(1)業務術語則是(shì)可以定義企業級的公共業務詞匯表,建立各部門對公共業務術語的共識,以業務(wù)視角(jiǎo)管理各類業務術語,包括客戶名稱、客戶編碼、身份證號、手機號碼、郵箱等,同時對這些業務術(shù)語進行目錄化、標準化、流程化管理。


(2)字段庫是指對(duì)數據模型邏輯(jí)字段的管理,對數據模型的字段從字段名稱、字段編碼、字段分(fèn)類、字段類型、關聯業務術語、關聯(lián)數據字典、關聯同義詞等方麵進行規範、統一的定義,後續(xù)模型開(kāi)發直接引用(yòng)即可,保障模型開發的規範性。字段庫(kù)字(zì)段標(biāo)準(zhǔn)配置,包括字段命名規則、字段編碼規則、字段取值範(fàn)圍(wéi)、是否主鍵、是否唯一、是否非(fēi)空等,後續可用於映射物(wù)理字段數據標準,實現實(shí)例數(shù)據的(de)標準檢(jiǎn)驗。


(3)通過字段庫字(zì)段關聯業務(wù)術語,實現(xiàn)業務術語與字段(duàn)庫字段(即邏輯字(zì)段)建立1:1的對應關係,實現業務術語與(yǔ)邏輯字段的映射。通過腳本解析(例如腳本中(zhōng)a.cust_id=b.customer_id、a字段數據(jù)複製b字段數據等)、調度任務字段映(yìng)射、同義詞等方式,建立邏輯字段與物理字段1:N的關聯(lián)關係。通過業務術語邏輯字段與對應物理庫表(biǎo)物理字段(duàn)的1:N的關(guān)聯關係,可將業務術(shù)語字(zì)段的(de)數據標準自動映射至對應物理庫表(biǎo)字段,例如字段命名規則、字段編碼規則、字段取值範圍、是否主鍵、是否唯一(yī)、是否非空等,實現數據標準的低成本配置、高效應用,為後續的數據質量治理提供有效依據。




22

質量規則管理,沉澱規則庫、配置低成本






豐富的質(zhì)量(liàng)規則庫,覆蓋場景(jǐng)全



數據質量管理工具支持提供多種可視化規則模板配置能力,覆蓋數據質量管理中的各類稽核場景,包括數據的及時性、完(wán)整性(xìng)、一致性、準確性、邏輯性等(děng)20+稽核規則;此外對於複雜(zá)場景的稽核,支持自定義規(guī)則模板配置能力,可(kě)通過SQL、Shell、存(cún)儲過程等自定義靈活配置。圖片關鍵詞


圖片(piàn)關鍵詞



  • 及時性規(guī)則(zé):主要用於對接(jiē)口層的數據是否(fǒu)準時到達進行稽核(hé),包括表數據、表字段數據、文件數據等。

  • 完整性規則(zé):主要用於稽核從業務係統采集數據(jù)的庫表或文件到接口層庫表或文件的記錄是否完整,係統會根據取數條件(jiàn)判斷兩邊的表記錄數或文件名稱/大小等是否完(wán)整一致。

  • 一致(zhì)性規則:主(zhǔ)要用於稽核從(cóng)業務係統(tǒng)采集(jí)庫表數據同步至數倉接口(kǒu)層庫表間(jiān)實例明細是否一致、或同指標應用不同庫表間指標(biāo)值統計(jì)是否一致等,包括主數據一致(zhì)性、明細一致性、指標值一致性等。

  • 準確性規則:主要用於稽核庫表的數據字段格式是否符合數據(jù)標準規範定義,包括主(zhǔ)鍵唯一性、不可(kě)重複性、非空性(xìng)、外鍵準確性、取(qǔ)值範(fàn)圍、編碼規則等。

  • 邏輯性規則(zé):支持目標表當(dāng)前賬期的數據與曆史(shǐ)賬期數據進行比較,是否滿足一(yī)定(dìng)的波動率、閥值、平衡公式的要求(qiú),判斷數據的波動情況。

  • 自定義規則:對於複(fù)雜場景的稽核,可通過SQL、Shell、存儲過程等自定(dìng)義靈活配置。





多樣化配置方式,低成本配置能力(lì)



根據不同的配置(zhì)場景,支持(chí)多視角質(zhì)量規則配(pèi)置,包括基於規則視(shì)角、表視角、任務視角等,可按需(xū)選擇,靈活應用。除了多視(shì)角配置能力外,產品持續提升免配(pèi)置、低配置、批量配置等能力,可降低配(pèi)置成本,提升配置效(xiào)率。圖片關鍵詞


圖片關鍵詞



  • 規則免配置:包括對於關鍵源表、目標表的總數一致性比對等,通過開關控製(zhì)腳本解析日(rì)誌獲取庫表記錄數。

  • 規則低配置:包括(kuò)對於庫表的主鍵、關鍵維度、關鍵度量(liàng)的非空性校驗等,根據數據標準推薦配置對應的數據質量規(guī)則。

  • 規則批(pī)量(liàng)配置:包括數倉目錄批量配置(目錄下的庫表可自動沿襲配置)、表視角(jiǎo)批量配置、EXCEL導入批量(liàng)配置等能力。





33

質量(liàng)稽核引擎,自動生成稽核結果




數據質量(liàng)稽核是通過建立數據質量管理組織機構,製(zhì)定質量管理規(guī)範,確定相應的工作(zuò)流程方(fāng)法,並在(zài)係統中實現質量檢查、修正、考核功能(néng),形成數(shù)據質量修正閉環的機製;數據(jù)稽核是對數據本身執行合法性等方麵檢查(chá)的過程,通過配置質量規則和執行稽核(hé)引擎來實現對數據屬性、數據屬性關係、數據表關係的檢查。


質量稽核引擎是基於配置的質(zhì)量規(guī)則策略自動解析生成可執(zhí)行的稽(jī)核任務,自動輸出稽(jī)核結(jié)果。


圖片關鍵(jiàn)詞



  • 稽核對象數據源類型(xíng):包括MySQL、Oracle、GP、GBase、Hive、ES、HBase、FTP等(děng),基本涵蓋業務係統的數據源類型。

  • 質量稽核任務頻率配置:曆法支持公曆和農曆,稽核頻率可選擇月、日、小(xiǎo)時(shí)、分鍾、非周(zhōu)期等類型(xíng),可根據實際需要靈活選(xuǎn)擇。

  • 質量稽核任務高效執行:可基於稽核對象(xiàng)字段進行任務分片(piàn)設置,實現任務分區分片、多任務多線程、分布式(shì)等執行方式,提升(shēng)質量稽核(hé)效率。

  • 質量稽核結果自動輸出:基於質量規則配置的策略例如稽核通(tōng)過、稽核警告、稽核不通過等閾值範圍,稽核引(yǐn)擎自動輸(shū)出稽核結果和稽核差異(yì)明細數據等,可(kě)供業務人員查看和跟蹤處理。





44

質量稽核報(bào)告,沉澱模版、快速複用(yòng)




對於數據質(zhì)量稽核結果(guǒ)提供可視(shì)化分析能力,支持通過拖拽(zhuài)式、組件化的方式自定義質量報(bào)告,包括數據質量稽核結果概覽、數據質量總體得分、分層分域分質量規則類型得分、分層(céng)分域分質量規則類型質量趨勢圖等多維度分析,讓數(shù)據(jù)質量(liàng)情況看(kàn)得見。


對於生(shēng)成的(de)數據質量報告,支持麵向組織、用(yòng)戶、角色等方式進行報告共享,報告可轉換成圖片、PDF、xlsx、html、txt等,可通過短信、郵件、FTP等方式推送質量報告,並可設置推送頻率,讓數據質量情況被關注。


對於已定(dìng)義的數據質量報告可沉澱為報告(gào)模(mó)版(bǎn),可快速複用,降低報告配置成本。




55

質量問題管理,問題處理流(liú)程化(huà)、閉環化




對於數據質量規則支持模板化派單配置,包括配置工單(dān)接收人、工單處理流(liú)程、工單(dān)處理時限等,對數據質量稽核不通過的問(wèn)題(tí)係統根據配置自動發送預警工單(dān),通知源端或問題負責人進行質量整改。同時可將已配置的(de)派單流程沉澱(diàn)為模版,可供後續配置直接引(yǐn)用,降低配置工作量。


工單處理人完成質量整改進行回單時(shí),係統自動關聯啟動質(zhì)量稽核任務對已完成整改的數據進行二次稽核,二次稽核通過後才能歸檔(dàng)整個工單流程。通(tōng)過(guò)質量工(gōng)單流程建設數據質量(liàng)治理閉環體係,為平台運營降本提效賦能。


圖片關鍵詞


目前數據(jù)質(zhì)量管理工具已在國內外電信運營商行業、政企行業等多個項目落(luò)地。其中(zhōng),重慶電信大數據(jù)平台每天對元數據和(hé)實例數據進行及時性、完整性、一致性、準確性、邏輯性稽核,已沉澱570+質量(liàng)稽核規則。通過自動化、流程化(huà)、閉環化數據質量管理,更少的(de)配置投(tóu)入(rù),更快的數據問題發現,降低(dī)企業數據質量(liàng)管(guǎn)理成本,幫(bāng)助企業全麵提升數據質量,為企業數據治理奠定了核心基礎。




66

質量監(jiān)控管理,打造可視化全麵質量監控




企業數據加(jiā)工往(wǎng)往是跨係(xì)統的,數據從采集到應用(yòng),涉及到多係統、多環節、多流程,數據鏈路環(huán)節長,數據(jù)加工複(fù)雜,常常(cháng)沒有形成(chéng)全鏈路血緣。此外,數據(jù)采(cǎi)集(jí)調度任(rèn)務成千上萬、整體較分散(sàn),無法查看上下遊質量影響情況,因此,聚焦業務應用的可視化全麵質量監控顯的尤(yóu)為重要。


圖(tú)片關鍵詞




分層級業務應用



企業數(shù)據質量(liàng)治理的終極目標是為了(le)提升數據價值、更好的(de)服(fú)務於業(yè)務,因此以最終關注的業務應用為目標整體查(chá)看全鏈路數(shù)據質量情況更能符合實際業(yè)務訴求。




全(quán)鏈路數據血緣



數據血緣是指在數據的全生命(mìng)周期內,數據與數據之間會(huì)形成各式各樣的關係,貫穿整個數據鏈路。數據血緣主要包括表級血緣和字(zì)段級血緣(yuán),通過(guò)數據血緣分析(xī)針對數據流轉過程中產生(shēng)並記錄的(de)各種信息進行自動采集、處理和分析,對數據之間的血緣關係進行係統(tǒng)性梳理(lǐ)、關聯、並將梳理(lǐ)完成(chéng)信息進行存儲,最終以全鏈(liàn)路方式進行可視化呈現,有(yǒu)助於高(gāo)效地實現質量問題的快速定位以及影響麵的快速評估。




質量影響可視化分析



數據生產、加工過程中,數據的變更對(duì)於後續的數(shù)據鏈路都可(kě)能產生一定的影響,因此可視化監(jiān)控數據的異動例如表結構變(biàn)動、腳本變動、任務變動等,再基於數據血緣分(fèn)析對上遊或者下遊相關數據(jù)鏈(liàn)路的影響,有助於提前預測問題、規避或減少對業務應用(yòng)的影(yǐng)響。




應用質量可視化監控



通過對(duì)整條數據鏈路進行監控和分析,可提前預測數據出數的及時性,監控數據波動(dòng)情況、數據分布情況等質量信息,有助(zhù)於快速發現問題、定(dìng)位問題,從而及時進行幹預,減少質量問(wèn)題的(de)發生、降低問題對業務帶來(lái)的(de)影響和運維成本(běn)。



官(guān)方微信公眾號

国产亚洲熟妇在线视频雲(yún)計算(suàn)科(kē)技股份有限公司 版權所有 2003-2023

蘇ICP備10224443號-6       蘇公網安備 32011402011374號

国产亚洲熟妇在线视频-亚洲熟妇AV乱码在线观看-亚州国产AV一区二区三区伊在-中文字幕无码人妻少妇免费视频-欧美 日韩 人妻 高清 中文-熟妇人妻中文字幕无码老熟妇-丰满熟女人妻一区二区三-亚洲精品字幕