本發(fā)明涉及網絡安全,尤其涉及一種基于人工智能的云端安全數據管理方法及系統(tǒng)。
背景技術:
1、在現有技術中,網絡入侵分析對于網絡安全至關重要,一般會設置入侵檢測系統(tǒng),旨在檢測病毒、蠕蟲、木馬和其他惡意代碼或軟件以及未經授權的訪問嘗試、拒絕服務攻擊和其他惡意活動,以檢測和防止攻擊,以及,向安全分析人員發(fā)出可疑活動警報。入侵檢測系統(tǒng)可分為基于簽名或基于異常的系統(tǒng)?;诤灻娜肭謾z測系統(tǒng)使用已知攻擊數據庫來有效檢測惡意活動,但無法檢測新的、變體或未知的攻擊。基于異常的入侵檢測系統(tǒng)通過檢測與預期系統(tǒng)行為的偏差來識別威脅,在檢測新的或未知的攻擊方面更有效,但容易出現誤報。因此,入侵檢測系統(tǒng)會設置多種,這些入侵檢測系統(tǒng)除了安全檢測產生事件警報外,還會產生大量錯誤的警報。面對這些大量的警報,會造成嚴重的類別不平衡,即有用的、關鍵的警報少,錯誤的、非關鍵的警報占大多數,這會使得分析人員無法及時分析和處理安全事件。
技術實現思路
1、鑒于以上技術問題,本發(fā)明提供了一種基于人工智能的云端安全數據管理方法及系統(tǒng),以解決現有技術中入侵檢測系統(tǒng)產生大量錯誤警報導致無法及時分析處理的問題。
2、本公開的其他特征和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
3、根據本公開的一方面,公開一種基于人工智能的云端安全數據管理方法,所述方法包括:
4、于云端鏈接多個網絡入侵檢測系統(tǒng),獲取其以安全警報日志形式存在的事件以形成企業(yè)數據集,獲取基準數據集,所述基準數據集中的所述安全警報日志與不同的攻擊類型關聯,所述攻擊類型至少包括模糊器、分析、后門、dos、漏洞利用、通用、偵察、shellcode和蠕蟲;
5、基于信息熵計算,對所述企業(yè)數據集和所述基準數據集中各個事件中選擇出的特征按照數值屬性、分類屬性和簽名屬性分類,通過獨熱編碼將分類后的所述特征編碼為數值向量,將所述企業(yè)數據集中的各個事件的特征進行標記,將具有嚴重影響程度的關鍵安全警告事件確定為正向樣本,將非關鍵安全警告事件標記為負向樣本;
6、基于不平衡重采樣、過采樣和集成重采樣中的一種或多種,對所述企業(yè)數據集進行處理,獲得訓練數據集,所述不平衡重采樣包括直接使用原始的所述企業(yè)數據集,保持所述企業(yè)數據集的各個樣本的原始比例,所述過采樣包括對所述企業(yè)數據集中處于少數的所述正向樣本進行增強合成,所述集成重采樣包括基于多種所述過采樣方法生成多個合成正樣本子集,將多個所述合成正樣本子集合并成綜合樣本集,采用數據子采樣算法選擇和清洗所述負向樣本,將所述綜合樣本集與被清洗后的事件結合,形成最終的所述訓練數據集;
7、基于邏輯回歸、k-nn、決策樹、極端梯度提升、輕量梯度提升算法,結合所述訓練數據集,構建檢測模型,使用所述基準數據集對所述檢測模型驗證后,在所述網絡入侵檢測系統(tǒng)產生多個新的安全警報日志時,基于所述檢測模型對多個所述安全警報日志進行篩選,將具有嚴重影響程度的關鍵安全警告事件呈現至管理人員。
8、進一步的,在獲得所述企業(yè)數據集和所述基準數據集后,將所述企業(yè)數據集和所述基準數據集輸出為標準json對象。
9、進一步的,選擇出的所述特征包括設備標識、url、ip?地址、事件描述、事件影響、下載的文件哈希值、端口號和時間戳。
10、進一步的,所述過采樣具體包括以下的一種或多種:
11、利用k-nn算法,在原始的所述正向樣本之間插入合成的新的所述正向樣本;
12、基于樣本的密度分布,為學習難度大的所述正向樣本生成新的合成樣本;
13、訓練svm分類器,使用支持向量近似邊界區(qū)域,并在區(qū)域中生成新的合成樣本。
14、進一步的,所述數據子采樣算法包括單邊選擇算法和領域清理規(guī)則算法,基于所述數據子采樣算法,使得所述負向樣本中的模糊、嘈雜和冗余的樣本被清除。
15、根據本公開的另一方面,公開一種基于人工智能的云端安全數據管理系統(tǒng),所述系統(tǒng)包括:
16、安全警報模塊,用于于云端鏈接多個網絡入侵檢測系統(tǒng),獲取其以安全警報日志形式存在的事件以形成企業(yè)數據集,獲取基準數據集,所述基準數據集中的所述安全警報日志與不同的攻擊類型關聯,所述攻擊類型至少包括模糊器、分析、后門、dos、漏洞利用、通用、偵察、shellcode和蠕蟲;
17、預處理模塊,用于基于信息熵計算,對所述企業(yè)數據集和所述基準數據集中各個事件中選擇出的特征按照數值屬性、分類屬性和簽名屬性分類,通過獨熱編碼將分類后的所述特征編碼為數值向量,將所述企業(yè)數據集中的各個事件的特征進行標記,將具有嚴重影響程度的關鍵安全警告事件確定為正向樣本,將非關鍵安全警告事件標記為負向樣本;
18、采樣模塊,用于基于不平衡重采樣、過采樣和集成重采樣中的一種或多種,對所述企業(yè)數據集進行處理,獲得訓練數據集,所述不平衡重采樣包括直接使用原始的所述企業(yè)數據集,保持所述企業(yè)數據集的各個樣本的原始比例,所述過采樣包括對所述企業(yè)數據集中處于少數的所述正向樣本進行增強合成,所述集成重采樣包括基于多種所述過采樣方法生成多個合成正樣本子集,將多個所述合成正樣本子集合并成綜合樣本集,采用數據子采樣算法選擇和清洗所述負向樣本,將所述綜合樣本集與被清洗后的事件結合,形成最終的所述訓練數據集;
19、分類及分析模塊,用于基于邏輯回歸、k-nn、決策樹、極端梯度提升、輕量梯度提升算法,結合所述訓練數據集,構建檢測模型,使用所述基準數據集對所述檢測模型驗證后,在所述網絡入侵檢測系統(tǒng)產生多個新的安全警報日志時,基于所述檢測模型對多個所述安全警報日志進行篩選,將具有嚴重影響程度的關鍵安全警告事件呈現至管理人員。
20、本公開的技術方案具有以下有益效果:
21、基于不平衡重采樣、過采樣和集成重采樣,確保了企業(yè)數據集中能全面地放大正向樣本,確保占據很少比例的樣本能在訓練中得到正確的重視,進而確保所訓練出的檢測模型能有效地檢測出大量事件中的具有嚴重影響的關鍵事件;基于檢測模型的設置,可以幫助分析人員篩選出關鍵事件,確保發(fā)生的網絡攻擊事件不會被忽略和能得到及時處理,保證了網絡安全。
1.一種基于人工智能的云端安全數據管理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于人工智能的云端安全數據管理方法,其特征在于,在獲得所述企業(yè)數據集和所述基準數據集后,將所述企業(yè)數據集和所述基準數據集輸出為標準json對象。
3.根據權利要求1所述的一種基于人工智能的云端安全數據管理方法,其特征在于,選擇出的所述特征包括設備標識、url、ip?地址、事件描述、事件影響、下載的文件哈希值、端口號和時間戳。
4.根據權利要求1所述的一種基于人工智能的云端安全數據管理方法,其特征在于,所述過采樣具體包括以下的一種或多種:
5.根據權利要求1所述的一種基于人工智能的云端安全數據管理方法,其特征在于,所述數據子采樣算法包括單邊選擇算法和領域清理規(guī)則算法,基于所述數據子采樣算法,使得所述負向樣本中的模糊、嘈雜和冗余的樣本被清除。
6.一種基于人工智能的云端安全數據管理系統(tǒng),其特征在于,所述系統(tǒng)包括: