本公開大體上涉及數(shù)據(jù)管理領(lǐng)域,更具體地,涉及數(shù)據(jù)管理設(shè)備和數(shù)據(jù)管理的計算機實現(xiàn)方法。
背景技術(shù):
1、不同的監(jiān)管機構(gòu),如《通用數(shù)據(jù)保護條例》(general?data?protectionregulation,gdpr)和《健康保險可攜性和責(zé)任法案》(health?insurance?portability?andaccountability?act,hipaa)等,要求各種組織(例如私人組織或政府組織)維護其客戶數(shù)據(jù)的信息,尤其是潛在客戶數(shù)據(jù)的信息。潛在客戶也可以稱為主體。由于各種組織保存的數(shù)據(jù)可能分布在不同的存儲系統(tǒng)和存儲層中(例如,一些信息存儲在本地數(shù)據(jù)中心,另一些信息存儲在云數(shù)據(jù)中心),因此獲取關(guān)于特定主體的信息可能既復(fù)雜又耗時,有時可能還需要人工干預(yù)。通常,不同的組織會使用各種目錄方案,這些目錄方案存儲關(guān)于組織保存的全部或部分數(shù)據(jù)的元數(shù)據(jù)。目錄方案支持檢索關(guān)于主體的信息,這些信息可用于回答來自監(jiān)管機構(gòu)的查詢(例如,數(shù)據(jù)主體訪問請求(data?subject?access?request,dsar))。但是,存在某些與目錄方案相關(guān)的實現(xiàn)問題,例如,數(shù)據(jù)不斷地流入典型的數(shù)據(jù)存儲系統(tǒng),因此需要不斷地對信息進行索引。這意味著需要不斷地維護主體信息與主體之間的相關(guān)性,這不是一項簡單的任務(wù)。另一個關(guān)于數(shù)據(jù)與主體之間的相關(guān)性的問題是數(shù)據(jù)并不總是結(jié)構(gòu)化的,并且即使在結(jié)構(gòu)化數(shù)據(jù)中,維護數(shù)據(jù)項之間的相關(guān)性也不是一項簡單的任務(wù)。另一個實現(xiàn)問題是要求主體指定某種形式的識別,并且作為響應(yīng),組織需要提供關(guān)于主體的所有相關(guān)信息。
2、目前,已經(jīng)提出了某些方法,以便關(guān)聯(lián)數(shù)據(jù)存儲系統(tǒng)中與數(shù)據(jù)主體相關(guān)的所有信息。例如,提供工具以用于搜索和識別個人可識別信息(personally?identifiableinformation,pii)以及pii元素之間的相關(guān)性。現(xiàn)有的方法基于自動的、以數(shù)據(jù)為中心的方案,或在數(shù)據(jù)模型中使用的圖(例如,身份圖)。一些方法基于文檔標(biāo)記,并依賴于這些標(biāo)記和過程來響應(yīng)法規(guī)定義的身份請求。然而,所提出的方法在識別與數(shù)據(jù)主體相關(guān)的各種pii元素以及各種pii元素之間的相關(guān)性方面缺乏所需的準(zhǔn)確性和效率。因此,由于數(shù)據(jù)主體的各種pii元素之間的相關(guān)性不足,所以存在識別與數(shù)據(jù)主體相關(guān)的相關(guān)信息效率低下的技術(shù)問題。
3、因此,根據(jù)上述討論,需要克服與傳統(tǒng)方法相關(guān)的上述缺點,即在典型數(shù)據(jù)存儲系統(tǒng)中關(guān)聯(lián)與數(shù)據(jù)主體相關(guān)的所有信息。
技術(shù)實現(xiàn)思路
1、本公開提供了一種數(shù)據(jù)管理設(shè)備和一種數(shù)據(jù)管理的計算機實現(xiàn)方法。本公開提供了一種方案,解決了由于數(shù)據(jù)主體的各種pii元素之間的相關(guān)性不足而導(dǎo)致的識別與數(shù)據(jù)主體相關(guān)的相關(guān)信息效率低下的現(xiàn)有問題。本公開的目的是提供一種至少部分地克服現(xiàn)有技術(shù)中遇到的問題的方案,并提供一種改進的數(shù)據(jù)管理設(shè)備和改進的數(shù)據(jù)管理的計算機實現(xiàn)方法。
2、本公開的目的是通過所附獨立權(quán)利要求中提供的方案實現(xiàn)的。在從屬權(quán)利要求中進一步限定本公開的有利實現(xiàn)方式。
3、在一方面,本公開提供了一種數(shù)據(jù)管理設(shè)備,包括用于接收至少一個文檔的輸入單元。所述數(shù)據(jù)管理設(shè)備還包括:識別單元,用于識別所述接收到的文檔中的一個或多個個人可識別信息(personally?identifiable?information,pii)元素;關(guān)系單元,用于識別在所述接收到的文檔中識別出的pii元素對之間的一個或多個關(guān)系。所述數(shù)據(jù)管理設(shè)備還包括映射單元,所述映射單元用于通過以下操作生成圖:將每個識別出的pii元素添加為節(jié)點;將每個識別出的關(guān)系添加為邊;為每個節(jié)點分配準(zhǔn)確性分數(shù)和唯一性分數(shù);為每個邊分配關(guān)系準(zhǔn)確性分數(shù)。
4、由于在數(shù)據(jù)存儲系統(tǒng)中識別出的一個或多個pii元素與身份請求中指定的至少一個pii元素之間的相關(guān)性充分,因此所述數(shù)據(jù)管理設(shè)備能夠高效地識別與數(shù)據(jù)主體相關(guān)的相關(guān)信息。此外,數(shù)據(jù)管理設(shè)備不僅能從單個文檔,而且能從由輸入單元接收并保存在數(shù)據(jù)存儲系統(tǒng)中的多個文檔中識別與數(shù)據(jù)主體相關(guān)的一個或多個pii元素。數(shù)據(jù)管理設(shè)備使用加權(quán)因子,以便在表示數(shù)據(jù)主體的圖中定位此類pii元素的集群,同時刪除不相關(guān)的信息。
5、在一種實現(xiàn)方式中,所述數(shù)據(jù)管理設(shè)備還包括上報模塊,所述上報模塊包括:請求輸入單元,該單元用于接收指定至少一個pii元素的請求;發(fā)現(xiàn)單元,該單元用于從所述指定pii元素開始遍歷所述圖并生成包括每個遍歷的pii元素的列表,其中所述遍歷受限于基于所述分配的分數(shù)的加權(quán)因子。
6、通過請求輸入單元,請求中指定的至少一個pii元素與定義為圖中節(jié)點的數(shù)據(jù)主體的一個或多個pii元素中的每一個元素更準(zhǔn)確地相關(guān)聯(lián)。并且,通過發(fā)現(xiàn)單元,可以高效地遍歷所述圖,以返回似乎更接近請求中指定的pii元素的pii元素。
7、在另一種實現(xiàn)方式中,所述圖的每個節(jié)點包括與所述pii元素相關(guān)的至少一個接收到的文檔的信息,并且其中所述發(fā)現(xiàn)單元用于將每個相關(guān)文檔包括在所述遍歷的pii元素的列表中。
8、這在從一個或多個與pii元素相關(guān)的文檔中收集所有信息方面是有利的。
9、在另一種實現(xiàn)方式中,所述發(fā)現(xiàn)單元用于使用廣度優(yōu)先搜索遍歷所述圖。
10、使用廣度優(yōu)先搜索有利于高效地確定下一步要搜索的節(jié)點。
11、在另一種實現(xiàn)方式中,通過將每個節(jié)點的所述準(zhǔn)確性分數(shù)與路徑權(quán)重相乘,為所述每個節(jié)點計算所述加權(quán)因子,其中所述路徑權(quán)重是前一個節(jié)點的路徑權(quán)重、所述前一個節(jié)點的唯一性分數(shù)和兩個節(jié)點之間的關(guān)系準(zhǔn)確性分數(shù)的乘積。
12、這有利于計算每個節(jié)點的加權(quán)因子,以便以更高的準(zhǔn)確性和可靠性高效地關(guān)聯(lián)與數(shù)據(jù)主體相關(guān)的一個或多個pii元素。
13、在另一種實現(xiàn)方式中,當(dāng)多個節(jié)點可供搜索時,下一個待搜索的節(jié)點被確定為路徑權(quán)重與唯一性分數(shù)的乘積值最大的節(jié)點。
14、通過基于路徑權(quán)重與唯一性分數(shù)的最大乘積值來確定待搜索的下一個節(jié)點,可以得到與數(shù)據(jù)主體的相關(guān)性更高的信息。
15、在另一種實現(xiàn)方式中,所述發(fā)現(xiàn)單元用于在所述加權(quán)因子低于預(yù)定義閾值時,停止遍歷所述圖。
16、使用預(yù)定義閾值可以消除不同主體的一個或多個pii元素,同時包括正在進行搜索的數(shù)據(jù)主體的所有pii元素。
17、在另一種實現(xiàn)方式中,如果為同一主體找到共享共同類型的多個pii元素,則調(diào)整所述閾值。
18、在為同一主體找到共享共同類型的多個pii元素時調(diào)整預(yù)定義閾值可以過濾掉不相關(guān)的結(jié)果。
19、在另一方面,本公開提供了一種數(shù)據(jù)管理的計算機實現(xiàn)方法,包括:輸入單元接收至少一個文檔。所述計算機實現(xiàn)方法還包括:識別單元識別所述接收到的文檔中的一個或多個個人可識別信息(personally?identifiable?information,pii)元素;關(guān)系單元識別在所述接收到的文檔中識別出的pii元素對之間的一個或多個關(guān)系。所述計算機實現(xiàn)方法還包括:映射單元通過以下操作生成圖:將每個識別出的pii元素添加為節(jié)點;將每個識別出的關(guān)系添加為邊;為每個節(jié)點分配準(zhǔn)確性分數(shù)和唯一性分數(shù);為每個邊分配關(guān)系準(zhǔn)確性分數(shù)。
20、計算機實現(xiàn)方法實現(xiàn)了數(shù)據(jù)管理設(shè)備的所有優(yōu)點和技術(shù)效果。
21、在又一方面,本公開提供了一種包括指令的計算機可讀介質(zhì),所述指令當(dāng)由處理器執(zhí)行時,使得所述處理器執(zhí)行所述方法。
22、處理器(例如,設(shè)備或系統(tǒng)的處理器)在執(zhí)行方法后實現(xiàn)了方法的所有優(yōu)點和效果。
23、應(yīng)當(dāng)理解,上述所有實現(xiàn)方式都可以組合在一起。
24、需要說明的是,本技術(shù)中描述的所有設(shè)備、元件、電路、單元和模塊可以在軟件或硬件元件或其任何類型的組合中實現(xiàn)。本技術(shù)中描述的各種實體執(zhí)行的所有步驟和所描述的將由各種實體執(zhí)行的功能旨在表明各種實體適于或用于執(zhí)行各自的步驟和功能。雖然在以下具體實施例的描述中,外部實體執(zhí)行的具體功能或步驟沒有在執(zhí)行具體步驟或功能的實體的具體詳述元件的描述中反映,但是技術(shù)人員應(yīng)清楚,這些方法和功能可以通過相應(yīng)的軟件或硬件元件或其任意組合實現(xiàn)??梢岳斫獾氖牵诓幻撾x由所附權(quán)利要求書所定義的本公開的范圍的情況下,本公開的特征易于以各種組合方式進行組合。
25、本公開的其它方面、優(yōu)點、特征和目的從附圖和結(jié)合以下所附權(quán)利要求書解釋的說明性實現(xiàn)方式的詳細描述中變得顯而易見。