欧美日操-欧美日韩91-欧美日韩99-欧美日韩ay在线观看-xxxx色-xxxx视频在线

基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)研究與設(shè)計(jì)

2018-03-20 15:54:05 電力信息與通信技術(shù)  點(diǎn)擊量: 評(píng)論 (0)
近年來(lái),國(guó)家電網(wǎng)公司各專業(yè)信息系統(tǒng)建設(shè)不斷完善,為了保障數(shù)據(jù)在各類應(yīng)用場(chǎng)景中安全使用,提出了一種基于機(jī)器學(xué)習(xí)的數(shù)據(jù)脫敏系統(tǒng)設(shè)計(jì)方案,重點(diǎn)針對(duì)敏感數(shù)據(jù)識(shí)別、定級(jí),敏感算法制定,以及脫敏任務(wù)配置的實(shí)現(xiàn)方式進(jìn)行研究。結(jié)合用戶欠費(fèi)信息的脫敏分析,驗(yàn)證了該方案具有自定義定級(jí)

0 引言

近年來(lái),隨著國(guó)家電網(wǎng)公司“三集五大”體系的推進(jìn),以及SG186、SG-ERP工程的建設(shè),公司信息化實(shí)現(xiàn)了由分散到集中、由孤島到共享的轉(zhuǎn)變,積累了生產(chǎn)運(yùn)行數(shù)據(jù)和經(jīng)營(yíng)管理數(shù)據(jù)約5 PB,每月平均增長(zhǎng)數(shù)據(jù)量約46 TB,為數(shù)據(jù)集中共享和大數(shù)據(jù)分析、價(jià)值挖掘提供了有利條件[1]。但是,數(shù)據(jù)資源中往往攜帶著有關(guān)用戶與企業(yè)的敏感、隱私信息,一旦遭遇泄露、篡改,將給個(gè)人及公司甚至國(guó)家造成無(wú)法挽回的損失。因此,在數(shù)據(jù)共享使用過程中,如何準(zhǔn)確定位敏感數(shù)據(jù),合理制定脫敏策略,以達(dá)到數(shù)據(jù)安全可信、受控使用的目標(biāo),是一項(xiàng)亟待解決的技術(shù)問題。

數(shù)據(jù)安全問題的形勢(shì)越來(lái)越嚴(yán)峻,數(shù)據(jù)脫敏逐漸受到企業(yè)的重視。傳統(tǒng)的數(shù)據(jù)脫敏研究大多側(cè)重于脫敏方法的實(shí)現(xiàn)[2-4],缺少權(quán)限判決、敏感識(shí)別等功能,系統(tǒng)化水平不夠高。同時(shí),脫敏算法的選擇多為人工指定和自定義配置,智能化水平不夠高。此外,模式識(shí)別的發(fā)展對(duì)實(shí)現(xiàn)脫敏信息的自動(dòng)識(shí)別提供了技術(shù)支持[5],但在敏感信息分類定級(jí)問題上缺少對(duì)企業(yè)需求的考慮,專業(yè)化水平不高。

為解決數(shù)據(jù)脫敏的系統(tǒng)化、智能化、專業(yè)化水平不足等弱點(diǎn),本文提出了一種獨(dú)立于其他專業(yè)系統(tǒng)之外的數(shù)據(jù)脫敏系統(tǒng)。該系統(tǒng)同時(shí)集成了權(quán)限判決、數(shù)據(jù)分類、敏感信息識(shí)別、脫敏任務(wù)執(zhí)行等功能;在敏感信息識(shí)別、敏感算法選擇等關(guān)鍵環(huán)節(jié)采用文本分類、決策樹等機(jī)器學(xué)習(xí)方法,可輔助人工實(shí)現(xiàn)脫敏策略制定;采用兩層分類方式分類定級(jí)敏感信息,第一層按數(shù)據(jù)的專業(yè)和類型分類,第二層按規(guī)則進(jìn)行分類定級(jí)。相較于傳統(tǒng)數(shù)據(jù)脫敏方式,本文提供了一種智能化設(shè)計(jì)數(shù)據(jù)脫敏系統(tǒng)的新思路。

 1 數(shù)據(jù)脫敏簡(jiǎn)介

數(shù)據(jù)脫敏又可稱為數(shù)據(jù)去隱私化、數(shù)據(jù)變形,是指在保留數(shù)據(jù)初始特征的條件下,按需制定脫敏策略和任務(wù),對(duì)敏感數(shù)據(jù)進(jìn)行變換、修改的技術(shù)機(jī)制,可以在很大程度上解決敏感數(shù)據(jù)在非安全環(huán)境下使用的問題[6]。數(shù)據(jù)脫敏實(shí)現(xiàn)的難點(diǎn)在于如何同時(shí)保障數(shù)據(jù)的安全及其可用性,其關(guān)鍵就是脫敏算法的選擇,就現(xiàn)階段而言更多的是一種經(jīng)驗(yàn)決策。根據(jù)不同的作用位置和實(shí)現(xiàn)原理,脫敏任務(wù)可分為靜態(tài)脫敏(Static Data Masking,SDM)和動(dòng)態(tài)脫敏(Dynamic Data Masking,DDM)。SDM一般用于非生產(chǎn)環(huán)境,在應(yīng)用開發(fā)、測(cè)試、培訓(xùn)等場(chǎng)合中,為規(guī)避泄露風(fēng)險(xiǎn),數(shù)據(jù)必須脫敏后才能被存儲(chǔ)及使用。DDM常用于生產(chǎn)環(huán)境,當(dāng)敏感數(shù)據(jù)被分析工具在線訪問時(shí),脫敏系統(tǒng)可以按照策略執(zhí)行相應(yīng)的脫敏算法。簡(jiǎn)言之,DDM與SDM的區(qū)別在于是否是在使用敏感數(shù)據(jù)時(shí)才進(jìn)行脫敏。

圖1 數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖Fig.1 Application block diagram for data masking system

數(shù)據(jù)脫敏系統(tǒng)應(yīng)用框圖如圖1所示,本文構(gòu)想了數(shù)據(jù)脫敏系統(tǒng)在國(guó)家電網(wǎng)公司的應(yīng)用場(chǎng)景。用戶或外部系統(tǒng)通過已集成的賬號(hào)進(jìn)入數(shù)據(jù)脫敏系統(tǒng)后,脫敏系統(tǒng)首先判斷賬號(hào)所具有的權(quán)限,并分配相應(yīng)功能[7]。脫敏系統(tǒng)根據(jù)用戶需求從各專業(yè)系統(tǒng)及公共系統(tǒng)抽取數(shù)據(jù)(包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),并對(duì)抽取的源數(shù)據(jù)進(jìn)行分類、預(yù)處理、敏感識(shí)別定級(jí)以及選擇脫敏算法和參數(shù),完成脫敏策略制定。在變更脫敏任務(wù)時(shí),用戶可選擇脫敏執(zhí)行方式,其中靜態(tài)脫敏可用于開發(fā)、測(cè)試以及數(shù)據(jù)遷移和存儲(chǔ);動(dòng)態(tài)脫敏通過代理方式可為全業(yè)務(wù)統(tǒng)一數(shù)據(jù)中心等數(shù)據(jù)分析系統(tǒng)提供脫敏服務(wù)。如果沒有新的數(shù)據(jù)或配置要求,脫敏策略和脫敏任務(wù)可以在脫敏系統(tǒng)中保存,以備后續(xù)調(diào)用及執(zhí)行。

 2 脫敏策略制定

從源系統(tǒng)抽取數(shù)據(jù)后,脫敏系統(tǒng)要為這些數(shù)據(jù)制定合適的脫敏策略。在策略制定階段,系統(tǒng)需要著力解決敏感數(shù)據(jù)如何定級(jí)、是否需要脫敏、如何脫敏等一系列問題。

2.1 源數(shù)據(jù)分類及預(yù)處理
2.1.1 源數(shù)據(jù)分類

脫敏策略制定流程如圖2所示。由于不同類型數(shù)據(jù)的敏感信息識(shí)別方法不同,系統(tǒng)需要對(duì)源數(shù)據(jù)分門別類。另外,同時(shí)識(shí)別多個(gè)專業(yè)的敏感信息也會(huì)為識(shí)別過程帶來(lái)大量干擾,嚴(yán)重影響敏感信息識(shí)別的準(zhǔn)確率[8]。根據(jù)文件格式類型,源數(shù)據(jù)可被分類為結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)、圖片、語(yǔ)音及視頻數(shù)據(jù)。根據(jù)源業(yè)務(wù)系統(tǒng)不同,源數(shù)據(jù)可被分類為人財(cái)物、規(guī)劃、建設(shè)、運(yùn)行、檢修及營(yíng)銷等數(shù)據(jù)。為了便于分類,本文系統(tǒng)分別為文本格式及業(yè)務(wù)系統(tǒng)分類設(shè)置了相應(yīng)代碼。

圖2 脫敏策略制定流程Fig.2 Flow chart of masking strategy formulation

2.1.2 數(shù)據(jù)預(yù)處理

對(duì)源數(shù)據(jù)進(jìn)行預(yù)處理以提取數(shù)據(jù)特征,通過數(shù)據(jù)特征匹配實(shí)現(xiàn)敏感信息識(shí)別[9]。脫敏系統(tǒng)采用自動(dòng)化方式采集關(guān)系型數(shù)據(jù)庫(kù)和非結(jié)構(gòu)化系統(tǒng)的數(shù)據(jù)樣本和元數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)以數(shù)據(jù)字典(包括表名和字段名、類型、注釋)的形式進(jìn)行采集,并通過數(shù)據(jù)表遍歷的方法從業(yè)務(wù)數(shù)據(jù)表中采集一定數(shù)量的樣本數(shù)據(jù)。文本數(shù)據(jù)采用文本分詞的方法對(duì)樣本進(jìn)行切割與合并,構(gòu)建文本文件特征。對(duì)于圖片、語(yǔ)音、視頻數(shù)據(jù),則通過相應(yīng)領(lǐng)域的模式識(shí)別方法進(jìn)行元數(shù)據(jù)和樣本提取。元數(shù)據(jù)和樣本采樣完成后樣本質(zhì)量往往不佳,需要對(duì)其進(jìn)行過濾和泛化處理,剔除數(shù)據(jù)“雜質(zhì)”,以降低敏感信息識(shí)別與分類過程中的計(jì)算量[10]

2.2 敏感數(shù)據(jù)識(shí)別定級(jí)

敏感數(shù)據(jù)識(shí)別是實(shí)現(xiàn)數(shù)據(jù)脫敏的關(guān)鍵前提。針對(duì)不同文件格式的數(shù)據(jù),其敏感特征的檢測(cè)方法會(huì)有所差異,數(shù)據(jù)脫敏系統(tǒng)應(yīng)對(duì)其樣本數(shù)據(jù)和元數(shù)據(jù)進(jìn)行分類訓(xùn)練,最后分類建立敏感信息庫(kù)。

敏感信息識(shí)別過程如圖3所示,通過訓(xùn)練集獲得文本、音頻的語(yǔ)料庫(kù)和圖像視頻的特征數(shù)據(jù)庫(kù),由安全部門和業(yè)務(wù)人員共同對(duì)語(yǔ)料庫(kù)和特征數(shù)據(jù)庫(kù)進(jìn)行識(shí)別和分類[11],選取其中具有代表意義的,可被標(biāo)識(shí)為敏感信息的詞、圖像塊、音頻幀,形成敏感信息庫(kù),結(jié)合敏感信息模式匹配和源業(yè)務(wù)系統(tǒng)的重要程度,由人工輔助設(shè)定敏感級(jí)值,用于敏感信息定級(jí)。對(duì)預(yù)處理后的目標(biāo)數(shù)據(jù)進(jìn)行特征提取,將提取的特征值與敏感信息庫(kù)的特征值進(jìn)行匹配,當(dāng)匹配命中時(shí)系統(tǒng)自動(dòng)記錄當(dāng)前敏感信息的敏感級(jí)值。最后通過識(shí)別質(zhì)量評(píng)估對(duì)錯(cuò)誤分類進(jìn)行糾正,并對(duì)未能識(shí)別的敏感信息進(jìn)行補(bǔ)充。

圖3 敏感信息識(shí)別過程Fig.3 Sensitive information recognition process

2.3 脫敏策略制定
2.3.1 常用的脫敏方法

1)替換。替換(Replacement,RP)是指利用偽裝數(shù)據(jù)對(duì)源數(shù)據(jù)中的敏感數(shù)據(jù)進(jìn)行完全替換。為保證安全,一般替換用的數(shù)據(jù)都不具可逆性。

2)加密。加密(Encryption,EC)是指對(duì)待脫敏的數(shù)據(jù)進(jìn)行加密處理,使外部用戶或系統(tǒng)只能夠接觸無(wú)意義的加密數(shù)據(jù)。在特定場(chǎng)景下,系統(tǒng)可以提供解密能力,分發(fā)密鑰給相關(guān)方以恢復(fù)原始數(shù)據(jù)。

3)遮掩。遮掩(Masking,MK)是指利用掩飾符號(hào)對(duì)敏感數(shù)據(jù)的部分內(nèi)容進(jìn)行統(tǒng)一替換,使得敏感數(shù)據(jù)保持部分內(nèi)容公開。

4)刪除。刪除(Deletion,DL)是指直接刪除敏感數(shù)據(jù)或?qū)⑵渲脼榭铡?/span>

5)變換。變換(Change,CG)是指通過隨機(jī)函數(shù)對(duì)數(shù)值和日期類型等源數(shù)據(jù)進(jìn)行可控調(diào)整,以便在保持原始數(shù)據(jù)相關(guān)統(tǒng)計(jì)特征的同時(shí),完成對(duì)具體數(shù)值的偽裝。

6)混洗。混洗(Shuffle,SF)主要是指通過對(duì)敏感數(shù)據(jù)采取跨行隨機(jī)互換來(lái)打破其與本行其他數(shù)據(jù)的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)脫敏。

2.3.2 數(shù)據(jù)脫敏需考慮的因素

數(shù)據(jù)脫敏的最大難點(diǎn)在于平衡隱私保護(hù)和數(shù)據(jù)挖掘需求,脫敏算法適當(dāng)與否直接影響到脫敏效果。為了制定合適的脫敏算法,結(jié)合具體應(yīng)用場(chǎng)景,本文重點(diǎn)考慮了以下幾個(gè)因素[12]

1)可用性。即脫敏后的數(shù)據(jù)應(yīng)能滿足分析應(yīng)用需求,若脫敏后的數(shù)據(jù)無(wú)法用于目標(biāo)分析及應(yīng)用,就不具備使用價(jià)值。在特定應(yīng)用場(chǎng)景中,可能需要保留部分非關(guān)鍵信息(如身份證號(hào)碼、手機(jī)號(hào)碼的部分字段等)才能滿足分析需求。

2)關(guān)聯(lián)性。對(duì)于結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),在同一數(shù)據(jù)表中某字段與另外字段有對(duì)應(yīng)關(guān)系,如果脫敏算法破壞了這種關(guān)系,該字段的使用價(jià)值將不復(fù)存在。通常在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)需要參考量的情況下,對(duì)數(shù)據(jù)的關(guān)聯(lián)性要求較高。

3)真實(shí)性。脫敏后的數(shù)據(jù)對(duì)原始數(shù)據(jù)邏輯特征和統(tǒng)計(jì)分布特征的保留程度。為滿足這種特性,數(shù)據(jù)的原始值需要盡可能地被保留。

4)時(shí)效性。數(shù)據(jù)提供需要有一定的及時(shí)性,超過一定時(shí)間后脫敏數(shù)據(jù)可能就不再具有進(jìn)一步分析挖掘的意義。因此,應(yīng)盡量避免使用耗時(shí)的脫敏算法,比如加密算法。

5)可重現(xiàn)。即相同源數(shù)據(jù)在配置相同算法和參數(shù)的情況下,脫敏后的數(shù)據(jù)應(yīng)保持一致,隨機(jī)類的算法應(yīng)避免使用。

6)可配置。主要是指可以靈活配置、組合脫敏算法,可以結(jié)合不同需求生成個(gè)性化的脫敏數(shù)據(jù)。

由于上述各因素需要付諸實(shí)際應(yīng)用才有意義,脫敏算法與脫敏效果之間的關(guān)系只能作定性分析。決策樹是一種簡(jiǎn)單而又被廣泛使用的分類器,具有描述性,有助于人工分析,同時(shí)決策樹只需一次構(gòu)建,可反復(fù)使用[13]。對(duì)敏感級(jí)值和6個(gè)因素進(jìn)行量化,以具有代表性的應(yīng)用場(chǎng)景來(lái)構(gòu)建選擇脫敏算法所需的訓(xùn)練集,形成決策樹。利用決策樹可以高效地對(duì)脫敏數(shù)據(jù)進(jìn)行算法推薦,輔助系統(tǒng)用戶進(jìn)行算法選擇。新的脫敏應(yīng)用發(fā)生后,其敏感級(jí)值和算法選擇結(jié)果將加入訓(xùn)練集,逐步對(duì)決策樹進(jìn)行完善,從而提高決策樹的魯棒性。

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:售電衡衡

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 91mv制片厂果冻传媒潘甜甜 | 久久精品影院永久网址 | 在线免费日本 | 极品在线播放 | 青青久在线视频 | 日韩免费一区 | 日日噜| 六月婷婷在线 | 日韩国产成人 | 有没有www动漫在线观看高清 | 成人精品一区久久久久 | 国产在线麻豆自在拍91精品 | 香蕉在线观看视频 | 中国国产一国产一级毛片视频 | 香蕉视频首页 | 欧美日韩成人在线 | 亚洲二区在线播放 | 日韩电 影在线播放 | 日韩视频免费在线播放 | 欧美一二三区在线 | 国产啪视频免费视频观看视频 | 国产日韩视频在线观看 | 久久精品免费i 国产 | 岛国一区二区 | 九九热精品免费观看 | 一级女人18片毛片免费视频 | 欧美特黄一区二区三区 | 成人午夜视频在线观 | 亚洲国产最新在线一区二区 | 手机免费看黄在线高清视频 | 好操 | 九九这里有精品 | 色天天综合久久久久综合片 | 亚洲色四在线视频观看 | 亚洲精品在线免费看 | 日本在线www | 国产高清一级视频在线观看 | 精品国产高清a毛片无毒不卡 | h成年同人动漫在线观看网站 | 一级毛毛片毛片毛片毛片在线看 | 四虎影院在线观看免费 |