本發(fā)明涉及數(shù)據(jù)安全處理,尤其涉及一種數(shù)據(jù)脫敏方法、裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù):
1、隨著大數(shù)據(jù)技術(shù)的迅速發(fā)展,大數(shù)據(jù)的應(yīng)用范圍越來越廣泛,例如,在政務(wù)、金融、移動通信、個人生活等場景中應(yīng)用。然而,無論是企業(yè)、部門、個人等都積累了海量的敏感數(shù)據(jù),這些敏感數(shù)據(jù)一旦泄露或篡改,將會給企業(yè)、部門、個人等帶來無法挽回的巨大損失。因此,需要對敏感數(shù)據(jù)進行數(shù)據(jù)脫敏處理,以避免敏感信息的泄露或篡改。
2、目前,主要從個體角度出發(fā),依據(jù)個體自身的敏感屬性類型和格式特點設(shè)計脫敏算法。然而,群體之間也存在著明顯的差異和聯(lián)系,且群體中富含個體以及群體的隱私信息,攻擊者只要具備一定的先驗知識,即可輕易獲得這種群體之間潛在的關(guān)聯(lián),從而導致數(shù)據(jù)泄露或篡改,降低了數(shù)據(jù)的安全性。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種數(shù)據(jù)脫敏方法、裝置、電子設(shè)備和存儲介質(zhì),用以解決現(xiàn)有技術(shù)中群體數(shù)據(jù)無法實現(xiàn)數(shù)據(jù)脫敏以及數(shù)據(jù)安全性低的缺陷,實現(xiàn)群體敏感數(shù)據(jù)的數(shù)據(jù)脫敏,并提高數(shù)據(jù)的安全性。
2、本發(fā)明提供一種數(shù)據(jù)脫敏方法,包括:
3、從多個群體中確定出第一目標群體,所述多個群體是基于待脫敏的圖結(jié)構(gòu)數(shù)據(jù)確定的,任一所述群體包括所述圖結(jié)構(gòu)數(shù)據(jù)中的至少一個個體節(jié)點;
4、基于所述第一目標群體與至少一個其他群體之間的群體相似度,確定與所述第一目標群體關(guān)聯(lián)的目標群體集合,所述至少一個其他群體包括所述多個群體中除所述第一目標群體之外的群體;
5、分別對所述目標群體集合中各群體進行數(shù)據(jù)脫敏。
6、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述第一目標群體與任一其他群體之間的群體相似度是基于如下步驟確定:
7、基于所述圖結(jié)構(gòu)數(shù)據(jù),確定所述第一目標群體的第一鄰居節(jié)點集合,以及所述任一其他群體的第二鄰居節(jié)點集合;
8、基于所述第一鄰居節(jié)點集合與所述第二鄰居節(jié)點集合的交集,確定共同鄰居節(jié)點集合;
9、基于所述共同鄰居節(jié)點集合中各個體節(jié)點之間的個體相似度的累加相似度,確定所述第一目標群體與所述任一其他群體之間的群體相似度。
10、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述基于所述共同鄰居節(jié)點集合中各個體節(jié)點之間的個體相似度的累加相似度,確定所述第一目標群體與所述任一其他群體之間的群體相似度,包括:
11、基于所述共同鄰居節(jié)點集合的節(jié)點數(shù)量,確定所述共同鄰居節(jié)點集合對應(yīng)的個體相似度數(shù)量;
12、基于所述累加相似度與所述個體相似度數(shù)量的比值,確定所述第一目標群體與所述任一其他群體之間的群體相似度。
13、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述分別對所述目標群體集合中各群體進行數(shù)據(jù)脫敏,包括:
14、從所述目標群體集合中確定出當前待脫敏的第二目標群體;
15、從所述第二目標群體的第三鄰居節(jié)點集合中確定出任一目標個體節(jié)點;
16、對所述第二目標群體與所述目標個體節(jié)點之間的邊進行擾動;
17、返回所述從所述目標群體集合中確定出當前待脫敏的第二目標群體的步驟,直至所述目標群體集合中各群體均數(shù)據(jù)脫敏完成。
18、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述對所述第二目標群體與所述目標個體節(jié)點之間的邊進行擾動,包括:
19、刪除所述第二目標群體與所述目標個體節(jié)點之間的邊,并確定所述第二目標群體中刪除邊的源個體節(jié)點;
20、從所述多個群體中篩選出除所述第二目標群體和所述目標個體節(jié)點所在群體之外的任一第三目標群體;
21、添加所述第三目標群體中任一個體節(jié)點與所述源個體節(jié)點之間的邊。
22、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述基于所述第一目標群體與至少一個其他群體之間的群體相似度,確定與所述第一目標群體關(guān)聯(lián)的目標群體集合,包括:
23、按照所述群體相似度從高到低的順序從所述至少一個其他群體中篩選出第一預(yù)設(shè)個數(shù)的群體;
24、基于所述第一預(yù)設(shè)個數(shù)的群體,生成所述目標群體集合。
25、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,還包括:
26、從所述圖結(jié)構(gòu)數(shù)據(jù)中確定出第一待脫敏個體節(jié)點;
27、基于所述第一待脫敏個體節(jié)點與至少一個其他個體鄰居節(jié)點之間的個體相似度,確定與所述第一待脫敏個體節(jié)點關(guān)聯(lián)的目標個體節(jié)點集合,所述至少一個其他個體鄰居節(jié)點包括所述圖結(jié)構(gòu)數(shù)據(jù)中與所述第一待脫敏個體節(jié)點相連的鄰居節(jié)點;
28、分別對所述目標個體節(jié)點集合中各個體節(jié)點進行數(shù)據(jù)脫敏。
29、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述第一待脫敏個體節(jié)點與任一其他個體節(jié)點之間的個體相似度是基于如下步驟確定:
30、將所述第一待脫敏個體節(jié)點的個體結(jié)構(gòu)表示向量和所述第一待脫敏個體節(jié)點的個體屬性表示向量進行融合,得到所述第一待脫敏個體節(jié)點的第一聯(lián)合特征表示向量;
31、將所述任一其他個體節(jié)點的個體結(jié)構(gòu)表示向量和所述任一其他個體節(jié)點的個體屬性表示向量進行融合,得到所述任一其他個體節(jié)點的第二聯(lián)合特征表示向量;
32、基于所述第一聯(lián)合特征表示向量與所述第二聯(lián)合特征表示向量的特征相似度,確定所述第一待脫敏個體節(jié)點與所述任一其他個體節(jié)點之間的個體相似度。
33、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述分別對所述目標個體節(jié)點集合中各個體節(jié)點進行數(shù)據(jù)脫敏,包括:
34、從所述目標個體節(jié)點集合中確定出第二待脫敏個體節(jié)點;
35、刪除所述第一待脫敏個體節(jié)點與所述第二待脫敏個體節(jié)點之間的邊;
36、從所述目標個體節(jié)點集合中篩選出除所述第一待脫敏個體節(jié)點和所述第二待脫敏個體節(jié)點之外的任一目標節(jié)點;
37、添加所述第一待脫敏個體節(jié)點與所述目標節(jié)點之間的邊;
38、返回所述從所述目標個體節(jié)點集合中確定出第二待脫敏個體節(jié)點的步驟,直至所述目標個體節(jié)點集合中各個體節(jié)點均數(shù)據(jù)脫敏完成。
39、根據(jù)本發(fā)明提供的一種數(shù)據(jù)脫敏方法,所述至少一個其他個體鄰居節(jié)點均與所述第一待脫敏個體節(jié)點處于相同的群體。
40、本發(fā)明還提供一種數(shù)據(jù)脫敏裝置,包括:
41、群體確定模塊,用于從多個群體中確定出第一目標群體,所述多個群體是基于待脫敏的圖結(jié)構(gòu)數(shù)據(jù)確定的,任一所述群體包括所述圖結(jié)構(gòu)數(shù)據(jù)中的至少一個個體節(jié)點;
42、集合確定模塊,用于基于所述第一目標群體與至少一個其他群體之間的群體相似度,確定與所述第一目標群體關(guān)聯(lián)的目標群體集合,所述至少一個其他群體包括所述多個群體中除所述第一目標群體之外的群體;
43、數(shù)據(jù)脫敏模塊,用于分別對所述目標群體集合中各群體進行數(shù)據(jù)脫敏。
44、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述數(shù)據(jù)脫敏方法。
45、本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述數(shù)據(jù)脫敏方法。
46、本發(fā)明提供的數(shù)據(jù)脫敏方法、裝置、電子設(shè)備和存儲介質(zhì),基于第一目標群體與至少一個其他群體之間的群體相似度,確定與該第一目標群體關(guān)聯(lián)的目標群體集合,從而分別對該目標群體集合中各群體進行數(shù)據(jù)脫敏,進而實現(xiàn)群體敏感數(shù)據(jù)的數(shù)據(jù)脫敏,防止數(shù)據(jù)泄露或篡改,進而提高數(shù)據(jù)的安全性;且基于第一目標群體與至少一個其他群體之間的群體相似度,確定與該第一目標群體關(guān)聯(lián)的目標群體集合,從而識別群體的潛在關(guān)聯(lián),進而全面對與該第一目標群體關(guān)聯(lián)的目標群體集合也進行數(shù)據(jù)脫敏處理,從而提高數(shù)據(jù)脫敏的有效性,并提高數(shù)據(jù)脫敏的全面性。