在當今數字化浪潮的迅猛推進下,企業和組織正遭(zāo)遇(yù)前所未有的(de)數(shù)據安全(quán)治理挑戰。隨著海量數據的不斷產生、傳輸(shū)、存儲和應用(yòng),它們麵臨著來自黑客攻擊、內(nèi)部人員惡意泄露以及數據(jù)誤操作等多重安全威脅的侵襲。因此,構建一(yī)個健(jiàn)全的數據安全治理體(tǐ)係,確保數據的安全性和合規性,已成為各行各(gè)業刻不容緩的重要任務。
數據安全分類(lèi)分級是數據安全的(de)基礎。我們必須認識到,並非所有數據(jù)都(dōu)擁有相同的敏感度和(hé)重要性。從財務數據到個人隱私(sī)信息,再到知識(shí)產權資料,不同業務數據在敏感性和(hé)價(jià)值上存在著顯著的差異。隻有精準地識別各類數據的安全等級,才能為它(tā)們製定合適的安全防護措施,從而有效保障數據安全。
當(dāng)前數據安(ān)全分類分級管理主要有兩種實現方式:手工打標和基於規則打標。主要對比如下:
| | |
| | |
| | |
| | |
效率 | 低,難以處理大(dà)量數據 | 中,能夠大規模數據集 |
成本 | 高,需要大量(liàng)的人力投入 | 中,初期成本較高 |
| | |
資源消耗 | 低,主要(yào)消耗人力資源 | 高,大數量資源消耗高 |
從表格的對比數(shù)據中,我們可以清晰(xī)地識別出手工打標和規則打標在數據(jù)安全分類分級管理中的顯(xiǎn)著問題(tí):
手(shǒu)工打標:效率低下,治理(lǐ)成本高昂
在(zài)數據安全分類分級的過程中,手工(gōng)打標依賴於人力對海量數據集進行逐一審查和細致分析,以(yǐ)確定其(qí)分類和敏感級別。這(zhè)種方法效率低下,且需要投入大量人(rén)力資源,導致治理成本顯著上升。特別是隨著數據(jù)量的快速(sù)增(zēng)長,手工打標的效率瓶頸愈發突出,難以滿足現代企業對快速響應和高效管理的迫切需求。
規則打標:規則覆蓋不全(quán),大(dà)數據處理性能突顯
在(zài)規則打標,如基於字段名稱、注釋和內容,根據對應的正則(zé)規則進(jìn)行識別,在實際應用中也麵臨諸多挑戰。一方麵,依賴固定規則進行匹配的字(zì)段識別方法需要維護大量的(de)規則,如規則覆蓋不全則導致識(shí)別準確率下(xià)降。另一方麵,基於字段內容的識別(bié)方法在處理大型數據表時,由於數據處理的複雜性和計算量(liàng)的增加,其性能會顯(xiǎn)著降低,並消耗(hào)大量係統資源。
因此,為了應對這些挑戰,我(wǒ)們需要尋找一種更為高(gāo)效、準確且智能的數據安全分類分(fèn)級方法,從而滿足大數據時代下數(shù)據安全治理的要求。
本方案核心(xīn)目標是通過自動化和智能化的手(shǒu)段,優化數據安全分(fèn)類分級的管理流程,提高效率和準確性。整體思路(lù)如下:


首(shǒu)先基(jī)於(yú)大數據平台已采集的字段信息(xī),字段(duàn)血緣、字(zì)段質量規則、字段安全規則及手工分類分級打標數據,形成字段特征(zhēng)庫(kù),為後(hòu)續應用提供基礎數據支撐(chēng)。
再(zài)是構建智能分類分級引擎,包括規(guī)則引擎、血(xuè)緣引擎及AI引(yǐn)擎,在(zài)實際應(yīng)用可根據需求場景,選擇對應的分類分級引擎進行執行。
最後,通過(guò)製定不同場景下數據(jù)安全分類分(fèn)級的安全防護策略實現數據全生命周期的安全防護。
構建高維字段特征庫,為AI引擎(qíng)提供高質量數據
(1)數據采集
從業務係統、數據平台分別抽(chōu)取字段的基本特征屬性(如編(biān)碼、名稱、類型、描述等)、字段血緣、已配(pèi)置的稽核規(guī)則(如取值範圍、數據格式、非空、唯一性等)、已配置的安全規則(脫敏、加密策略等)及手工分類分級打標(biāo)數據。
(2)數據清洗
對已采集字段數據進行清洗及預處理,從而保障數據質量,包括缺失值填充、異常值去除、數據格式轉換(huàn)等。
(3)數據整(zhěng)合
以字(zì)段編碼作為唯一標識符,對分(fèn)散(sàn)在各(gè)模塊的字段特征和規則進行統一整合,形成高(gāo)維數據集。對於存在重複編碼且規則衝突的字段,經過人工二次確認後(hòu),統一錄入字段特征(zhēng)庫。
智能分類分級(jí)引擎(qíng),實現敏感數據精準高效(xiào)識別
在字段(duàn)特征庫構建完成後,基於自然語言處理、深度學習技術,構(gòu)建AI引擎,深入分析字段的特(tè)征屬性和(hé)血緣關係,智能識別出(chū)該(gāi)字段的(de)分類分級規則。在這過(guò)程中,基於人工(gōng)打標數據及對(duì)智能識別結(jié)果進行修正,不斷學習領域專家的知識和經驗,持(chí)續提高智能識(shí)別的(de)準確性和效率。
該算法的核心在於精確比較物理字段的屬性與數據元屬性的相似性和潛(qián)在關聯性,並據此生成一(yī)個綜合(hé)的相似性(xìng)評分。為了實現這一目標,我(wǒ)們綜合應用了文(wén)本處理以(yǐ)及先進的字符(fú)串比較和度量技術(shù)。並且對於編碼型(xíng)和文本型屬性,我們采(cǎi)取了差異化的處理策略,確保在結構化(huà)數據字段的處理中既能實現精確匹配,又能(néng)深入理解語義內容(róng)。
在應對現實挑戰時(shí),我們特別考慮(lǜ)到(dào)字段使用的不規(guī)範性。在某些情況下(xià),字段的編碼(mǎ)、名(míng)稱或注釋在表麵上的相似度可能很高,但在(zài)不同的數據表或業務場景中,它們所承載的實(shí)際意義卻可能大相徑庭。因此,我們的算(suàn)法不僅局限於(yú)基礎的屬性比較,還計劃納入更多的業務屬性(xìng)作為相似度評分(fèn)的考量因素,從而不斷提高相(xiàng)似度評分的準(zhǔn)確性和實用性。通過這一策略,我們期(qī)望能夠為用戶提供更加精準、可靠的字(zì)段(duàn)分類和推薦服務。
(1)相似度(dù)計算:
對從ES中召回的數據元與輸(shū)入字段進行詳(xiáng)細的相似度計算,並基於計算結果對召回的數據進行重新排序(xù)。
編碼(mǎ)類屬性相似度(dù)計算,針對輸入的編碼類屬性(如標識(shí)符、代碼等),采用字麵相似度計(jì)算方法(如編輯距離、Jaccard相(xiàng)似度等)來計算評分(fèn),以評估它們在形式(shì)上(shàng)的接近程度。
文本類屬性語義相(xiàng)似度計算,對於輸入的文本類屬性(xìng)(如(rú)字段描述、注釋等),利用自然(rán)語言處理(NLP)技(jì)術,如詞向量、BERT等模型(xíng),來計算語義相似度評分,從而(ér)捕獲它(tā)們在含義上的相似性。
(2)綜合評分:
綜(zōng)合考(kǎo)慮不同匹配維度(如(rú)編碼相似度、語義相似度等)的重要性及其對最終(zhōng)匹(pǐ)配準確性的貢獻,設(shè)計合理的權重公式和參(cān)數,對各維度(dù)評分(fèn)進行加權計算,得出一個綜合(hé)的相似度(dù)評分。此外,根據(jù)業務反饋和實際應用效果,持續優化和調整權重參數,以確保(bǎo)相似度計算的準確性和(hé)實用性。
數據元共包含5種可用來進行(háng)相似度匹配的特征屬性,這5種屬性按照(zhào)類型可劃分成編(biān)碼類和文本類,如下所示:
| | 內容格式 | |
| | 英文,不同單詞之間用_分隔(gé) | |
| | 中文 | |
| | 中文(wén) | |
數據(jù)元描述 | 文本(běn)類(lèi) | 中文 | 經(jīng)公司核準準入/變更的,供(gòng)應商法人單位(wèi)授(shòu)權的業務來往人員(yuán)的電話 |
同(tóng)義詞名稱(0...n) | 文本類 | 中文,不同單詞之間(jiān);分(fèn)隔 | 移動電話;手機號碼 |
綜合評分通過各(gè)屬性的(de)相(xiàng)似度加權計算得出。
綜合評(píng)分計算公式如(rú)下:

其中,
為權重係數,相加和為1,並可以根據用(yòng)戶實際反饋的情況進行自動調(diào)整和(hé)優化。
全方位安全防護技術,保障數(shù)據全生命周期安全
(1)全麵的(de)安(ān)全防護技術
為保護(hù)數據安全,提供全麵的數(shù)據安(ān)全防護技術,包括數據加(jiā)密、數據脫敏、數據水印、數(shù)據庫安全網關等。
數據加密,支持DES、AES、3DES、RSA等主流加密算法(fǎ)及SM2、SM4國密(mì)加密算法。
數據脫敏,係統內置15種常用脫敏算法,支持動(dòng)態脫敏、靜態脫敏,並可自定義配置脫敏規則及脫敏算法。
數據水印,支持網(wǎng)頁、excel、pdf等(děng)添加(jiā)水印,並可靈活配置水印模板。
數據庫安全網關,支(zhī)持無(wú)侵入方式,部署於數據訪問的客戶端和數據存儲之(zhī)間,通過識別(bié)訪問者(zhě)身份、位置、行為等信息,提供統一的、細粒度的訪問控製能力。
(2)全(quán)場景的安全防護策略
圍繞數據采集(jí)、傳輸、存儲、處理、共享、銷毀全(quán)生命周期,提供全場景的安全防護策略。並且針(zhēn)對不同的使用場景(jǐng),同一敏感等級數據支持不同的安(ān)全防護策略配置。如針對用戶名、手機號等個人敏感(gǎn)數據(jù)支(zhī)持在存儲時配置(zhì)加密策略(luè),在(zài)數據訪(fǎng)問(wèn)時配置脫敏策略。
以(yǐ)下是兩種典型業務場景的應用場景:
在ods層,由於表通常是數據(jù)的初始節點,字段(duàn)血緣(yuán)關係(xì)推薦在此層級並不適用。然而,ods層可能存在大量字段名稱和描述高度(dù)相似的字段,它們實際上存儲的(de)是相同類型的數據。為了提升數據安全分類分級的效率,我們(men)可以采用AI引擎(qíng)進行分類分級,通過比較字段的(de)元數據、名稱、描述等信息,自動推薦相似的分類分級規則。
當數據從ods層(céng)流轉到dwd層時,字段的血緣(yuán)關係成為了數(shù)據變化(huà)過(guò)程的重(chóng)要參考。dwd層的(de)表(biǎo)通常依賴於(yú)ods層的表,通過血緣關係(xì)可以清晰地看到(dào)數據(jù)是(shì)如何被加工、轉換和組合的。在這種情況下,基於字段血緣關係(xì)的推薦(jiàn)方法能夠(gòu)更準確地(dì)描述數據的變化過程,其推薦結果也更(gèng)具可信(xìn)度。因此,在ods層完成分類分級識別後,我們可以利用字(zì)段血緣關係推薦來提升dwd層數(shù)據安全分(fèn)類分級的效率(lǜ)。
基於以上兩種場景,數據安全分類分(fèn)級及安(ān)全防護的(de)落地實施可以遵循以下關鍵步驟:
(1)分(fèn)類分級任務配置
通過選擇需要執行分(fèn)類分級的數據目錄(ods、dwd等),配置合適的智能分類引擎(血緣引擎或AI引(yǐn)擎)及任務執行調度周期,完成分類分級任務配置。

(2)分類分級(jí)任務執行流程
根據配置的任務,係統自動執行分(fèn)類(lèi)分級任務。在ods層,使用AI引擎掃(sǎo)描,對比(bǐ)字段的元數據、名稱、描述等信(xìn)息,進行(háng)相似度計算和推薦。在dwd層及以上層級,使用血緣引擎掃描,遞歸查詢(xún)血緣關係並推薦合適的分類分級規則。
(3)分(fèn)類分級結果(guǒ)確認(rèn)
任務執行完後,為保障數(shù)據準確性,提供手動調整和優(yōu)化分類分級結果工具,允許用(yòng)戶查看、驗證及修正分類分級結果,並將確認後的結果數據保存到數據庫;同時將修(xiū)訂過的(de)數據進行(háng)打標並記錄,以(yǐ)便後續提供(gòng)給AI引擎進行算法或程序優化,進一步提升分類(lèi)分級(jí)準確性(xìng)。

(4)安全防護策略配置
基於分類分級結果,提供向導式、便捷的安全防護策略配置,係統內(nèi)置各類加密、脫(tuō)敏算法。通過選擇需要保護的敏感字段(可批量選擇),配置相應的加密、脫敏防護策略,完(wán)成(chéng)數據安全防護策略配置。


通過以上流程,我們(men)可(kě)以實現數據安全分類分級的精準、高效識別及安全防護。
基於智能分類分級引擎與傳統手工打標、規則打標對比,具(jù)備顯著優勢,具體如下:
| | 規則打標(biāo) | |
| | 低(dī) | |
| | 中 | |
| | 低 | |
效率 | 低(dī) | 中 | 高,支持實時(shí)識別 |
成本 | 高 | 中 | 低,有效減少人工配置 |
可複製性 | 低 | 高 | 高 |
資源消耗 | 低 | 高 | 低,無需大(dà)量計算 |
首先(xiān),它極(jí)大地提升了數據安全分(fèn)類分級的效率(lǜ)。借助自動化和智能化的手段,智能分類分級引擎能夠迅速(sù)且準確地完成數據安全分類與分級工作,從而顯著減少了人工操作的時間和人力成本。
其(qí)次,優化了資源(yuán)配置。與傳統的數據安全分類分級方法相比,基於智能分類分級引擎,無需對字段實例進行大量的掃(sǎo)描計(jì)算,從而大幅降低了計算資源的消耗,為企業節省了運營成本。
最後,顯著增強了(le)數據的安全性與合規性。智能分(fèn)類分級引擎能夠精準地識別(bié)出含有敏(mǐn)感(gǎn)信息的字段,如個人(rén)身份信(xìn)息、金融交易數據等(děng),並對其進行(háng)適當的分類和(hé)有效保護,保護了企業的數據(jù)安全,降低了因數據(jù)泄露或濫(làn)用而引發的法律風險。
展望未來(lái),通過引入智能化技術進行數據治理的(de)前景將更加廣闊。除了智(zhì)能化(huà)數據安全分類分級(jí)外,它還可以廣泛應用(yòng)於質量規則(zé)自動(dòng)推薦、數據模型優(yōu)化、數據模型生(shēng)命周期管理優化等多個領域,為企業數據治理提供更加全麵和深(shēn)入(rù)的支持,助力企業在數字化浪潮中穩健前行(háng)。