一種http網(wǎng)絡(luò)特征碼自動生成方法及其系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種HTTP網(wǎng)絡(luò)特征碼自動生成方法,該方法包括:包特征碼生成步驟、URI特征碼生成步驟和HTTP網(wǎng)絡(luò)特征碼總集合生成步驟,包特征碼生成步驟為針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在粗粒度聚類集的基礎(chǔ)上二次聚類生成細(xì)粒度聚類集,通過細(xì)粒度聚類集生成網(wǎng)絡(luò)樣本的一問一答包特征碼集合URI特征碼生成步驟為針對網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成URI的特征碼集合最終通過一問一答包特征碼集合和URI的特征碼集合合并生成特征碼總集合Tall。
【專利說明】一種HTTP網(wǎng)絡(luò)特征碼自動生成方法及其系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域技術(shù),特別涉及一種未知HTTP僵尸網(wǎng)絡(luò)的特征碼生成方法,更具體地,是一種HTTP網(wǎng)絡(luò)特征碼自動生成方法及其系統(tǒng)。
【背景技術(shù)】
[0002]近年來網(wǎng)絡(luò)安全相關(guān)的事件頻繁發(fā)生,網(wǎng)絡(luò)安全已上升成為了國家戰(zhàn)略層面的熱點(diǎn)議題。然而,由于網(wǎng)民普遍缺乏安全意識、計(jì)算機(jī)操作系統(tǒng)和應(yīng)用軟件包含各種漏洞等因素,越來越多的計(jì)算機(jī)已悄然成為了僵尸網(wǎng)絡(luò)中的“肉雞”,成為了他人從事竊取隱私、攻擊網(wǎng)絡(luò)資源、非法牟取暴利等違法犯罪活動的棋子。
[0003]僵尸網(wǎng)絡(luò)(Botnet)是一種“通過入侵網(wǎng)絡(luò)空間內(nèi)若干非合作用戶終端構(gòu)建的、可被攻擊者遠(yuǎn)程控制的通用計(jì)算平臺”。其中,“非合作”是指被入侵的用戶終端沒有感知;“攻擊者”指的是對所形成的僵尸網(wǎng)絡(luò)具有操控權(quán)力的控制者(Botmaster);“遠(yuǎn)程控制”指攻擊者可以通過命令與控制(co_and and control,簡寫為C&C)信道一對多地控制非合作用戶終端。一個被控制的受害用戶終端成為僵尸網(wǎng)絡(luò)的一個節(jié)點(diǎn),可稱之為“僵尸主機(jī)”,俗稱“肉雞”。常見的僵尸網(wǎng)絡(luò)的命令與控制協(xié)議主要有IRC、HTTP、P2P三種類型。由于HTTP協(xié)議具有良好的穿透性及集中控制性,越來越多的僵尸網(wǎng)絡(luò)控制者采用HTTP協(xié)議作為其通信與控制協(xié)議??刂普咄ㄟ^僵尸網(wǎng)絡(luò)控制大量的僵尸主機(jī),可以獲得強(qiáng)大的分布式計(jì)算能力和豐富的信息資源儲備。攻擊者更易于發(fā)起分布式拒絕服務(wù)攻擊(DDoS)、在線身份竊取(Online Identity Theft)、垃圾郵件(Spam)、點(diǎn)擊欺詐(Click Fraud)、比特幣挖掘(BitCoin Mining)等惡意行為。僵尸網(wǎng)絡(luò)作為攻擊者手中最有效的通用攻擊平臺,已成為當(dāng)今互聯(lián)網(wǎng)最大的安全威脅之一。
[0004]僵尸網(wǎng)絡(luò)之所以會有如此大的威脅,主要有以下幾點(diǎn)原因:
[0005]僵尸網(wǎng)絡(luò)是從傳統(tǒng)蠕蟲和木馬衍生的一種新的攻擊形式。蠕蟲具有利用安全漏洞快速傳播擴(kuò)散的優(yōu)勢但卻具有不可控性;木馬具有對受害者遠(yuǎn)程控制的能力,但存在感染速度慢、管理規(guī)模小和控制方式簡單的缺點(diǎn)。僵尸網(wǎng)絡(luò)是結(jié)合了兩者優(yōu)勢、彌補(bǔ)了兩者不足而形成的產(chǎn)物,危害性更強(qiáng)。
[0006]僵尸網(wǎng)絡(luò)具有高度可控性以及控制邏輯與攻擊相分離的特性。僵尸網(wǎng)絡(luò)中的“肉雞”通過命令與控制(co_and and control)信道能被控制者所操縱,能在短時間內(nèi)對某個特定目標(biāo)發(fā)起大規(guī)模攻擊(DDoS攻擊等),具有高度的可控性。此外,僵尸主機(jī)上的僵尸程序負(fù)責(zé)控制邏輯,真正的攻擊任務(wù)由控制者按需動態(tài)分發(fā)。這種方法能將完整的威脅實(shí)體分割為多個部分,從而既可以為任務(wù)分發(fā)提供良好的靈活性,又可以提高僵尸網(wǎng)絡(luò)的生存性。
[0007]安全措施往往滯后于所對應(yīng)的新型僵尸網(wǎng)絡(luò)的出現(xiàn)?;谔卣鞔a的檢測方法是一種行之有效的方法。然而,傳統(tǒng)特征碼的生成技術(shù)大多只針對蠕蟲,且這些技術(shù)無法高效、自動地生成高質(zhì)量的特征碼,因此無法在僵尸網(wǎng)絡(luò)規(guī)模擴(kuò)大初期對其進(jìn)行有效地控制。
[0008]目前針對僵尸網(wǎng)絡(luò)的檢測方法及系統(tǒng)有很多,但這些系統(tǒng)檢測大多存在時間開銷大、應(yīng)用部署困難等問題,無法真正意義上的大面積推廣;傳統(tǒng)的入侵檢測系統(tǒng)(IDS)雖然適用范圍廣,可以用于有效發(fā)現(xiàn)特定網(wǎng)絡(luò)中存在的異常網(wǎng)絡(luò)行為,然而,由于缺少對應(yīng)僵尸網(wǎng)絡(luò)的特征碼及相應(yīng)規(guī)則,無法及時發(fā)現(xiàn)特定網(wǎng)絡(luò)中潛在的新型僵尸網(wǎng)絡(luò)主機(jī)。目前特征碼的提取技術(shù)主要存在以下幾種問題:
[0009]傳統(tǒng)特征碼生成算法大多只針對蠕蟲,缺乏針對HTTP僵尸網(wǎng)絡(luò)的特征碼生成方法。現(xiàn)有的特征碼生成方法絕大多數(shù)針對的是蠕蟲特征碼的提取,由于僵尸網(wǎng)絡(luò)命令與控制通信的特征的不同,這些傳統(tǒng)的特征碼生成方法并不能很好地適用于HTTP僵尸網(wǎng)絡(luò)特征碼的提取。
[0010]現(xiàn)有的特征碼生成方法效率低、時間開銷大。傳統(tǒng)的特征碼生成大多依賴人工判斷,無法做到大規(guī)模自動化。雖然有少數(shù)人提出了針對僵尸網(wǎng)絡(luò)特征碼的自動提取方法擬嘗試解決該問題,然而這些方法的計(jì)算開銷十分龐大,無法大規(guī)模推廣應(yīng)用。
[0011]現(xiàn)有方法生成的特征碼質(zhì)量不高、可用性差。傳統(tǒng)的特征碼生成方法沒有針對HTTP僵尸網(wǎng)絡(luò)的命令與控制通信特征進(jìn)行考慮,采用的特征碼生成方法沒有針對性,生成的特征碼集合數(shù)量大、質(zhì)量較低。
【發(fā)明內(nèi)容】
[0012]本發(fā)明所要解決的技術(shù)問題在于克服現(xiàn)有系統(tǒng)特征碼生成時間長和部署困難的問題,提出了一種HTTP網(wǎng)絡(luò)特征碼自動生成方法及其系統(tǒng)。
[0013]為達(dá)上述目的,本發(fā)明提供了一種HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述方法包括:
[0014]包特征碼生成步驟:針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在所述粗粒度聚類集的基礎(chǔ)上二次聚類生成細(xì)
粒度聚類集,通過所述細(xì)粒 度聚類集生成所述網(wǎng)絡(luò)樣本的一問一答包特征碼集合
[0015]URI特征碼生成步驟:針對所述網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成所述URI的特征碼集合? ;
[0016]HTTP網(wǎng)絡(luò)特征碼總集合生成步驟:通過所述一問一答包特征碼集合?7和所述URI的特征碼集合f,合并生成特征碼總集合Tall。
[0017]上述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述包特征碼生成步驟,包含:
[0018]數(shù)據(jù)提取步驟:對所述網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提取;
[0019]二次聚類步驟:根據(jù)所述網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和所述一問一答包內(nèi)容分別進(jìn)行二次聚類,生成所述粗粒度聚類集的基礎(chǔ)上,生成所述細(xì)粒度聚類集;
[0020]一問一答包特征碼生成步驟:根據(jù)所述細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
[0021]上述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述數(shù)據(jù)提取步驟之前還包含:
[0022]白名單過濾步驟:過濾去除所述網(wǎng)絡(luò)樣本中訪問合法網(wǎng)站的流量。
[0023]上述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述數(shù)據(jù)提取步驟,還包括:[0024]數(shù)據(jù)內(nèi)容提取步驟:提取HTTP會話連接的所述一問一答包的內(nèi)容;
[0025]粗粒度聚類屬性提取步驟:以所述網(wǎng)絡(luò)樣本為單位,提取所述粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性;
[0026]細(xì)粒度聚類屬性提取步驟:以每個HTTP會話為單位,提取所述細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性;
[0027]匯總數(shù)據(jù)集步驟:將所述一問一答包的內(nèi)容、所述粗粒度聚類屬性和所述細(xì)粒度聚類屬性匯總得到五元組數(shù)S I乃,所述五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性〉。
[0028]上述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述二次聚類步驟,還包括:
[0029]粗粒度聚類步驟:對所述五元組數(shù)據(jù)集萬,自動對所述粗粒度聚類屬性進(jìn)行聚
類,得到粗粒度聚類集C,如果所述粗粒度聚類集C只屬于一個所述網(wǎng)絡(luò)樣本,則執(zhí)行所述URI特征碼生成步驟;
[0030]細(xì)粒度聚類步驟:以所述粗粒度聚類集C為基礎(chǔ),對每個Ci (Ci e C)中的所有會話,自動安裝所述細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集c' (C' e Ci);
[0031]樣本覆蓋度判斷步驟:如果存在細(xì)粒度聚類(V (Ci / ec')中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于所述網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為所述細(xì)粒度聚類成功,否則執(zhí)行所述URI特征碼生成步驟。
`[0032]上述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述一問一答包特征碼生成步驟,還包括:
[0033]HTTP特征碼集合生成步驟:對所述每個細(xì)粒度聚類c/ Cci/ ec')中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類c/分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;
[0034]特征碼過濾步驟:對所述HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的所述特征碼,合并重復(fù)的所述特征碼,得到所述一問一答包特征碼集合?7。
[0035]本發(fā)明還提供了一種HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng)采用所述網(wǎng)絡(luò)特征自動生成方法,其特征在于,所述系統(tǒng)包括:
[0036]包特征碼生成模塊:用于針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在所述粗粒度聚類集的基礎(chǔ)上二次聚類生成
細(xì)粒度聚類集,通過所述細(xì)粒度聚類集生成所述網(wǎng)絡(luò)樣本的一問一答包特征碼集合
[0037]URI特征碼生成模塊:針對所述網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成所述URI的特征碼集合f.9
[0038]HTTP網(wǎng)絡(luò)特征碼總集合生成模塊:通過所述一問一答包特征碼集合j7和所述URI的特征碼集合f,合并生成特征碼總集合Tall。
[0039]上述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述包特征碼生成模塊,包含:
[0040]白名單過濾模塊:過濾去除訪問合法網(wǎng)站的流量;
[0041]數(shù)據(jù)提取模塊:對所述網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提??;
[0042]二次聚類模塊:根據(jù)所述網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和所述一問一答包內(nèi)容分別進(jìn)行二次聚類,生成所述粗粒度聚類集的基礎(chǔ)上,生成所述細(xì)粒度聚類集;
[0043]一問一答包特征碼生成模塊:根據(jù)所述細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
[0044]上述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述數(shù)據(jù)提取模塊之前還包含: [0045]白名單過濾模塊:過濾去除所述網(wǎng)絡(luò)樣本中訪問合法網(wǎng)站的流量。
[0046]上述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述數(shù)據(jù)提取模塊,還包括:
[0047]數(shù)據(jù)內(nèi)容提取模塊:提取HTTP會話連接的所述一問一答包的內(nèi)容;
[0048]粗粒度聚類屬性提取模塊:以所述網(wǎng)絡(luò)樣本為單位,提取所述粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性;
[0049]細(xì)粒度聚類屬性提取模塊:以每個HTTP會話為單位,提取所述細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性;
[0050]匯總數(shù)據(jù)集模塊:將所述一問一答包的內(nèi)容、所述粗粒度聚類屬性和所述細(xì)粒度聚類屬性匯總得到五元組數(shù)據(jù)集D,所述五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性>。
[0051]上述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述二次聚類模塊,還包括:
[0052]粗粒度聚類模塊:對所述五元組數(shù)據(jù)集^自動對所述粗粒度聚類屬性進(jìn)行聚
類,得到粗粒度聚類集C,如果所述粗粒度聚類集C只屬于一個所述網(wǎng)絡(luò)樣本,則通過所述URI特征碼生成模塊生成所述URI特征碼;
[0053]細(xì)粒度聚類模塊:以所述粗粒度聚類集C為基礎(chǔ),對每個Ci(Ci e C)中的所有會話,自動安裝所述細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集c' (C' e Ci);
[0054]樣本覆蓋度判斷模塊:如果存在細(xì)粒度聚類(V (Ci / ec')中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于所述網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為所述細(xì)粒度聚類成功,否則通過所述URI特征碼生成模塊生成URI特征碼。
[0055]上述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述一問一答包特征碼生成模塊,還包括:
[0056]HTTP特征碼集合生成模塊:對所述每個細(xì)粒度聚類c/ Cci/ ec')中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類c/分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;[0057]特征碼過濾模塊:對所述HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的所述特征碼,合并重復(fù)的所述特征碼,得到所述一問一答包特征碼集合?7
[0058]與現(xiàn)有技術(shù)相比,本發(fā)明針對HTTP僵尸網(wǎng)絡(luò)命令與控制通信數(shù)據(jù)的統(tǒng)計(jì)相似性和一問一答包含有大多數(shù)僵尸網(wǎng)絡(luò)特征信息的原理,提出了一種基于一問一答包的HTTP僵尸網(wǎng)絡(luò)特征碼自動生成方法。該方法對主機(jī)的HTTP通信數(shù)據(jù)的一問一答包以及相關(guān)統(tǒng)計(jì)特性進(jìn)行提取,通過X-means聚類算法對HTTP數(shù)據(jù)進(jìn)行二次聚類,利用最長公共子序列算法以及基于URI的特征方法進(jìn)行特征碼的生成。
[0059]本發(fā)明具有以下有益效果:
[0060]1、可以自動地提取HTTP僵尸網(wǎng)絡(luò)的通信特征碼;
[0061]2、提高了特征碼生成效率,縮短了時間和空間的開銷;
[0062]3、提高了特征碼生成系統(tǒng)的健壯性和適應(yīng)性,生成的高質(zhì)量特征碼與諸如snort等入侵檢測系統(tǒng)配合,可以實(shí)現(xiàn)大范圍的相應(yīng)僵尸網(wǎng)絡(luò)的檢測。
【專利附圖】
【附圖說明】
[0063]圖1為本發(fā)明HTTP網(wǎng)絡(luò)特征碼自動生成方法流程示意圖;
[0064]圖2為本發(fā)明HTTP網(wǎng)絡(luò)特征碼自動生成方法詳細(xì)流程示意圖;
[0065]圖3為本發(fā)明HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng)結(jié)構(gòu)示意圖。
[0066]其中,附圖標(biāo)記:
[0067]I包特征碼生成模塊2URI特征碼生成模塊
[0068]3HTTP網(wǎng)絡(luò)特征碼總集合生成模塊
[0069]11白名單過濾模塊12數(shù)據(jù)提取模塊
[0070]13 二次聚類模塊14 一問一答包特征碼生成模塊
[0071]121—問一答包提取模塊122粗粒度聚類屬性提取模塊
[0072]123細(xì)粒度聚類屬性提取模塊 124匯總數(shù)據(jù)集模塊
[0073]131粗粒度聚類模塊132細(xì)粒度聚類模塊
[0074]133樣本覆蓋度判斷模塊
[0075]141HTTP特征碼集合生成模塊 142特征碼過濾模塊
[0076]SI ~S3、Sll ~S14、S121 ~S124、S131 ~S133、S141 ~S142:本發(fā)明各實(shí)施例的施行步驟
【具體實(shí)施方式】
[0077]以下結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述,但不作為對本發(fā)明的限定。
[0078]本發(fā)明的目的是對眾多的HTTP僵尸網(wǎng)絡(luò)樣本進(jìn)行分類,自動地產(chǎn)生對應(yīng)的特征碼用于檢測。本發(fā)明的優(yōu)勢在于:不需要任何先驗(yàn)知識可以生成僵尸網(wǎng)絡(luò)的通信特征碼,甚至可以對通信內(nèi)容加密的僵尸網(wǎng)絡(luò)生成特征碼。
[0079]本發(fā)明的應(yīng)用領(lǐng)域:1.為實(shí)現(xiàn)大范圍僵尸網(wǎng)絡(luò)的檢測提出了一種高效自動生成HTTP僵尸網(wǎng)絡(luò)特征碼的方法;2.在僵尸網(wǎng)絡(luò)的研究中,按照其網(wǎng)絡(luò)行為對不同樣本的僵尸網(wǎng)絡(luò)進(jìn)行分類并自動提取特征碼。
[0080]本發(fā)明提出了一種HTTP網(wǎng)絡(luò)特征碼自動生成方法,基于一問一答包、能準(zhǔn)確自動化提取HTTP僵尸網(wǎng)絡(luò)特征碼的方法。這種方法基于大量僵尸網(wǎng)絡(luò)樣本的網(wǎng)絡(luò)行為分析,采用HTTP會話連接中的一問一答包(首個請求和首個響應(yīng)HTTP數(shù)據(jù)包)作為特征碼提取對象,借鑒最長公共子序列算法(Longest Common Subsequence簡寫為LCS)自動化、高效地生成高質(zhì)量的HTTP僵尸網(wǎng)絡(luò)特征碼。本發(fā)明基于HTTP僵尸網(wǎng)絡(luò)命令與控制通信數(shù)據(jù)的相似性原理設(shè)計(jì)了一套基于一問一答包的特征碼自動生成系統(tǒng)。
[0081]如圖1和圖2所示,本發(fā)明提供的網(wǎng)絡(luò)特征碼自動生成方法,具體步驟包括:
[0082]包特征碼生成步驟S1:針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在粗粒度聚類集的基礎(chǔ)上二次聚類生成細(xì)粒
度聚類集,通過細(xì)粒度聚類集生成網(wǎng)絡(luò)樣本的一問一答包特征碼集合f.9
[0083]面向一問一答包的特征碼生成,根據(jù)大量統(tǒng)計(jì)發(fā)現(xiàn),僵尸網(wǎng)絡(luò)的命令與控制通信的連接持續(xù)時間短,絕大多數(shù)通信中有價值的特征內(nèi)容(僵尸主機(jī)的信息、請求的二進(jìn)制文件名、攻擊命令等)都集中在HTTP會話連接的一問一答包(首次請求和首次響應(yīng)HTTP包)中。因此,采用HTTP的一問一答包作為特征碼生成對象。該方法能極大地減少數(shù)據(jù)包存儲、比較計(jì)算開銷,能提高特征碼生成的效率。
[0084]與主流的特征碼生成技術(shù)(Polygraph、Autograph等)相比,本發(fā)明針對HTTP僵尸網(wǎng)絡(luò)的通信特征提出了對一問一答數(shù)據(jù)包而非所有HTTP數(shù)據(jù)包進(jìn)行計(jì)算,同傳統(tǒng)方法相比該方法提高了特征碼的生成效率,減少了運(yùn)算時間和存儲空間雙重開銷。
[0085]本發(fā)明采取高效的二次聚類,在本發(fā)明中,利用經(jīng)典的X-means算法,對樣本數(shù)據(jù)流統(tǒng)計(jì)特性以及會話的一問一答包內(nèi)容分別進(jìn)行粗粒度和細(xì)粒度的二次聚類。在粗粒度聚類中,以樣本為單位,選取HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小、HTTP數(shù)據(jù)包總數(shù)作為粗粒度聚類的四維聚類屬性,該聚類可以把網(wǎng)絡(luò)行為相似的樣本聚合在一起(假定它們屬于同一類僵尸網(wǎng)絡(luò));在細(xì)粒度聚類中,以樣本的HTTP會話連接為單位,在粗粒度聚類基礎(chǔ)上對每個類中所有的會話連接進(jìn)行細(xì)粒度的聚類,選取會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小作為細(xì)粒度聚類的四維聚類屬性,細(xì)粒度聚類能把相似的數(shù)據(jù)包聚合到一起,生成高質(zhì)量特征碼;這種二次聚類的方法在無需了解通信內(nèi)容的情況下能便捷、有效地把內(nèi)容相似的數(shù)據(jù)包聚合在一起,減少了大量數(shù)據(jù)包之間繁瑣的比較計(jì)算。
[0086]本發(fā)明的粗粒度和細(xì)粒度的二次聚類方法可以快速將統(tǒng)計(jì)特征相似的數(shù)據(jù)包劃分在同一聚類,提高了特征碼生成的速度,這種劃分方法不需要先驗(yàn)知識,不依賴特定內(nèi)容,避免了大量數(shù)據(jù)包兩兩之間對比所帶來的時間開銷。
[0087]URI特征碼生成步驟S2:針對網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成URI的特征碼集合f.[0088]URI特征碼生成步驟S2在眾多的樣本流量聚類過程中,經(jīng)常會遇到某一種或者幾種樣本的流量被單獨(dú)劃分在一個類中,在這種情況下采用一種補(bǔ)充手段:對該樣本的請求包起始行的URI進(jìn)行分析,提取出其中的路徑以及請求參數(shù)作為該樣本的特征碼。這樣一定程度上提高了特征碼提取系統(tǒng)的健壯性和適應(yīng)性。
[0089]對于單個樣本聚類、細(xì)粒度聚類失敗、生成一問一答包特征碼失敗的樣本數(shù)據(jù)將會被送入URI特征碼生成步驟S2,進(jìn)行基于HTTP請求包起始行的URI路徑(以第一個?號為結(jié)束標(biāo)志)及參數(shù)(URI中提交的參數(shù)名稱)特征碼的提取:以樣本為單位,對該樣本所有的請求包進(jìn)行檢查,提取出起始行的路徑以及參數(shù)集。例如,起始行內(nèi)容為GET/weather/getweather.aspx?t=1377511384901&cityno=HTTP/l.1 的數(shù)據(jù)包,提取出路徑為/weather/getweather.aspx,參數(shù)為 t 和 cityno。令牌特征石馬記為 /weather/getweather.aspx.*t.*cityno。最終將會得到這些樣本的URI特征碼集合,記為f
[0090]本發(fā)明引入的URI路徑及參數(shù)特征提取,有效地解決了傳統(tǒng)特征碼提取方法中單樣本聚類失效的情形,一定程度上提高了系統(tǒng)的健壯性及適應(yīng)性。
[0091]HTTP網(wǎng)絡(luò)特征碼總集合生成步驟S3:通過一問一答包特征碼集合f和所述URI的特征碼集合f,合并生成特征碼總集合Tall。
[0092]一問一答包特征碼集合?7與URI特征碼_八f含并得到了最終的特征碼集合
Tall。同時,在同一粗粒度聚類中,且擁有公共的“代表性細(xì)粒度聚類”的樣本之間屬于同一類僵尸網(wǎng)絡(luò)。
[0093]其中,包特征碼生成步驟SI,還包含:
[0094]白名單過濾步驟Sll:過濾去除訪問合法網(wǎng)站的流量;
[0095]僵尸網(wǎng)絡(luò)樣本的HTTP數(shù)據(jù)首先進(jìn)入“白名單過濾模塊”。由于存在僵尸網(wǎng)絡(luò)控制者為了對抗檢測,在命令與控制通信流中參雜合法請求數(shù)據(jù)(例如訪問谷歌、百度)意圖干擾檢測和特征碼的生成。因此,為了不影響特征碼生成的質(zhì)量,根據(jù)第三方權(quán)威的網(wǎng)站排名(例如ALEX網(wǎng)站排名前500)過濾掉訪問合法網(wǎng)站的HTTP流量,將過濾后的HTTP數(shù)據(jù)轉(zhuǎn)交給“數(shù)據(jù)提取模塊”處理。
[0096]數(shù)據(jù)提取步驟S12:對網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提取;
[0097]二次聚類步驟S13:根據(jù)網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和一問一答包內(nèi)容分別進(jìn)行二次聚類,生成粗粒度聚類集的基礎(chǔ)上,生成細(xì)粒度聚類集;
[0098]一問一答包特征碼生成步驟S14:根據(jù)細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
[0099]其中,數(shù)據(jù)提取步驟S12,還包括:
[0100]數(shù)據(jù)內(nèi)容提取步驟S121:提取HTTP會話連接的一問一答包的內(nèi)容;
[0101]粗粒度聚類屬性提取步驟S122:以網(wǎng)絡(luò)樣本為單位,提取粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性;
[0102]細(xì)粒度聚類屬性提取步驟S123:以每個HTTP會話為單位,提取細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性;
[0103]匯總數(shù)據(jù)集步驟S124:將一問一答包的內(nèi)容、粗粒度聚類屬性和細(xì)粒度聚類屬性匯總得到五元組數(shù)據(jù)集萬,五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性〉。
[0104]在數(shù)據(jù)提取步驟S12中,對每個樣本的HTTP數(shù)據(jù)進(jìn)行數(shù)據(jù)流特征統(tǒng)計(jì)和數(shù)據(jù)包內(nèi)容提取,主要分為三個部分:一,提取HTTP會話連接的一問一答包(首個請求和首個響應(yīng)HTTP數(shù)據(jù)包)的內(nèi)容;二,以網(wǎng)絡(luò)樣本為單位,提取粗粒度聚類的四維統(tǒng)計(jì)值,包括HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小、HTTP數(shù)據(jù)包總數(shù);三,以會話連接為單位,提取細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大
小、首個響應(yīng)包大小。三個部分可以并發(fā)地同時進(jìn)行,最終得到五元組數(shù)據(jù)集萬,其格式為
<樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性 >:其中”樣本id“唯一標(biāo)示不同的僵尸網(wǎng)絡(luò)樣本(數(shù)據(jù)來源),該標(biāo)示并不代表僵尸網(wǎng)絡(luò)的種類,例如在同一個局域網(wǎng)中A、B兩臺主機(jī)被同一僵尸網(wǎng)絡(luò)所控制,兩者的樣本id不同;會話id用于唯一標(biāo)示
樣本數(shù)據(jù)中的某個HTTP的會話連接。提取完畢后將五元數(shù)據(jù)集乃傳入二次聚類步驟S13。
[0105]其中,二次聚類步驟S13,還包括:
[0106]粗粒度聚類 步驟S131:對五元組數(shù)據(jù)集乃,自動對粗粒度聚類屬性進(jìn)行聚類,得
到粗粒度聚類集C,如果粗粒度聚類集C只屬于一個網(wǎng)絡(luò)樣本,則執(zhí)行URI特征碼生成步驟S2 ;
[0107]細(xì)粒度聚類步驟S132:以粗粒度聚類集C為基礎(chǔ),對每個Ci (Ci e C)中的所有會話,自動安裝細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集c' (C' e Ci);
[0108]樣本覆蓋度判斷步驟S133:如果存在細(xì)粒度聚類c/ Cci/ e C1 )中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為細(xì)粒度聚類成功,否則執(zhí)行URI特征碼生成步驟S2。
[0109]首先,對數(shù)據(jù)集B進(jìn)行粗粒度聚類,聚類算法采用公開的X-means算法,根據(jù)四
維粗粒度屬性值(HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小、HTTP數(shù)據(jù)包總數(shù))對樣本進(jìn)行聚類,得到粗粒度聚類集C。將只存在單一樣本的聚類刪除,把其對應(yīng)的
五元數(shù)據(jù)集4 (式執(zhí)行 工特征碼生成步驟S2。然后在粗粒度的基礎(chǔ)上以聚類
Ci(c, e C)為單位,對每個粗粒度聚類中的所有樣本的所有會話連接按照四維細(xì)粒度屬性值(會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小)進(jìn)行聚類,聚類算法依舊為X-means。每一個粗粒度聚類中將會產(chǎn)生新的細(xì)粒度聚類集C' (C' e Ci).檢查c,中每個細(xì)粒度聚類的會話連接來源情況,假設(shè)c/ ec',如果c/中的會話連接來源于至少k個不同的樣本(k小于等于該粗粒度聚類Ci中樣本個數(shù),大于1,小于等于網(wǎng)絡(luò)樣本個數(shù),具體數(shù)值可自由設(shè)定),則這樣的細(xì)粒度聚類c/滿足要求。對應(yīng)的樣本具有“代表性的聚類”;否則,由于沒有涵蓋足夠多的樣本,這樣的細(xì)粒度聚類不具有代表性。如果某粗粒度類Ci中某個樣本(或者多個樣本)不存在任何“具有代表性”的細(xì)粒度聚類(即沒有涵蓋足夠多的樣本數(shù)量),對這些樣本的細(xì)粒度聚類失敗,認(rèn)為沒有找到與它們相似的且數(shù)量足夠多的樣本,將這些樣本相關(guān)的數(shù)據(jù)集傳入”URI特征碼生成模塊”。將滿足要求的細(xì)粒度聚類c/執(zhí)行一問一答包特征碼生成步驟S14。
[0110]其中,一問一答包特征碼生成步驟S14,還包括:
[0111]HTTP特征碼集合生成S141:對每個細(xì)粒度聚類Ci' (c/ e Ci )中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類Ci 1分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;
[0112]對每個細(xì)粒度聚類c/中所有會話連接進(jìn)行特征碼生成,按照一問一答包分為請求包特征碼生成和響應(yīng)包特征碼生成,采用最長公共子序列算法(LCS)作為特征碼的生成算法,產(chǎn)生令牌特征碼(形如ti代表共同的字符串,代表間隔符,表示前后公共字符串中間存在不匹配字符串)。比較計(jì)算的流程如下:假定存在a、b、C、d四個會話連接,首先a與b的請求包先通過LCS計(jì)算得到令牌特征碼t,t去掉所有的.*轉(zhuǎn)換為文本格式再與c的請求包進(jìn)行計(jì)算得到令牌特征碼s,s轉(zhuǎn)換為文本格式最后與d的請求包內(nèi)容進(jìn)行計(jì)算得到最終的請求包特征碼w ;響應(yīng)包的特征碼計(jì)算同理。經(jīng)過計(jì)算每一個細(xì)粒度聚類Ci'將會產(chǎn)生一條請求包的特征碼和一條響應(yīng)包的特征碼,對這些特征碼進(jìn)行匯總整理,標(biāo)記所涉及的樣本id,每一個粗粒度聚類Ci將會得到一個特征碼集合W。
[0113]特征碼過濾步驟S142:對HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的特征
碼,合并重復(fù)的特征碼,得到一問一答包特征碼集合T
[0114]對產(chǎn)生的一問一答包的特征碼集合W進(jìn)行相應(yīng)的過濾篩選,首先,把令牌特征碼中長度過短(例如長度低于4)的公共字符串t給刪除;然后對令牌特征碼所包含的公共字符串進(jìn)行過濾,把常見的、會經(jīng)常出現(xiàn)在合法數(shù)據(jù)包中的HTTP頭域字段及部分內(nèi)容進(jìn)行過濾(例如HTTP/1.1, Cache-Control:no-cache等);最后把重復(fù)的令牌特征碼進(jìn)行去重合并,
得到了最終一問一答包僵尸網(wǎng)絡(luò)的特征碼集合T 在過濾過程中可能存在某樣本的特征
碼因?yàn)椴环弦?過短或者均為)而被全部刪除,這樣的樣本被認(rèn)為是生成一問一答特征碼失敗,同樣被執(zhí)行URI特征碼生成步驟S2。
[0115]本發(fā)明采用了自動化生成特征碼,且生成的特征碼質(zhì)量高,可與snort等入侵檢測系統(tǒng)結(jié)合實(shí)現(xiàn)對相應(yīng)僵尸網(wǎng)絡(luò)的廣泛檢測。
[0116]本發(fā)明還提供一種HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),可單獨(dú)部署在一臺服務(wù)器或主機(jī)中(例如蜜罐主機(jī)中),獲取僵尸網(wǎng)絡(luò)樣本所產(chǎn)生的所有HTTP數(shù)據(jù);或者將本系統(tǒng)部署在指定網(wǎng)絡(luò)的網(wǎng)關(guān)位置,與網(wǎng)絡(luò)邊界上的僵尸網(wǎng)絡(luò)檢測系統(tǒng)聯(lián)動,讀取檢測系統(tǒng)后臺數(shù)據(jù)庫所存儲的僵尸網(wǎng)絡(luò)HTTP數(shù)據(jù)。
[0117]一種HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),如圖3所示,包括:包特征碼生成模塊1、URI特征碼生成模塊2和HTTP網(wǎng)絡(luò)特征碼總集合生成模塊3 ;
[0118]包特征碼生成模塊1:用于針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在所述粗粒度聚類集的基礎(chǔ)上二次聚類生
成細(xì)粒度聚類集,通過細(xì)粒度聚類集生成網(wǎng)絡(luò)樣本的一問一答包特征碼集合f.[0119]URI特征碼生成模塊2:用于針對所述網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成URI的特征碼集合f.9
[0120]HTTP網(wǎng)絡(luò)特征碼總集合生成模塊3:通過一問一答包特征碼集合f和URI的特征
碼集合f,合并生成特征碼總集合Tall。
[0121]其中,包特征碼生成模塊1,包含:[0122]白名單過濾模塊11:過濾去除訪問合法網(wǎng)站的流量;
[0123]數(shù)據(jù)提取模塊12:對網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提??;
[0124]二次聚類模塊13:根據(jù)網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和一問一答包內(nèi)容分別進(jìn)行二次聚類,生成粗粒度聚類集的基礎(chǔ)上,生成細(xì)粒度聚類集;
[0125]一問一答包特征碼生成模塊14:根據(jù)細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
[0126]其中,數(shù)據(jù)提取模塊12,還包括:
[0127]數(shù)據(jù)內(nèi)容提取模塊121:提取HTTP會話連接的一問一答包的內(nèi)容;
[0128]粗粒度聚類屬性提取模塊122:以網(wǎng)絡(luò)樣本為單位,提取粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性;
[0129]細(xì)粒度聚類屬性提取模塊123:以每個HTTP會話為單位,提取細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性;
[0130]匯總數(shù)據(jù)集模塊124:將一問一答包的內(nèi)容、粗粒度聚類屬性和細(xì)粒度聚類屬性匯總得到五元組數(shù)據(jù)集乃,五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度
聚類屬性,細(xì)粒度聚類屬性〉。
[0131]其中,二次聚類模塊13,還包括: [0132]粗粒度聚類模塊131:對五元組數(shù)據(jù)彳D自動對粗粒度聚類屬性進(jìn)行聚類,得到
粗粒度聚類集C,如果粗粒度聚類集C只屬于一個網(wǎng)絡(luò)樣本,則通過URI特征碼生成模塊生成URI特征碼;
[0133]細(xì)粒度聚類模塊132:以粗粒度聚類集C為基礎(chǔ),對每個Ci (Ci e C)中的所有會話,自動安裝細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集c' (C' e Ci);
[0134]樣本覆蓋度判斷模塊133:如果存在細(xì)粒度聚類c/ (c/ ec')中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為細(xì)粒度聚類成功,否則通過URI特征碼生成模塊生成URI特征碼。
[0135]其中,一問一答包特征碼生成模塊14,還包括:
[0136]HTTP特征碼集合生成模塊141:對每個細(xì)粒度聚類Ci' Cci/ e C')中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類c/分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;
[0137]特征碼過濾模塊142:對HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的特征碼,合并重復(fù)的特征碼,得到一問一答包特征碼集
O
[0138]當(dāng)然,本發(fā)明還可有其它多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明做出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
【權(quán)利要求】
1.一種HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述方法包括: 包特征碼生成步驟:針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在所述粗粒度聚類集的基礎(chǔ)上二次聚類生成細(xì)粒度聚類集,通過所述細(xì)粒度聚類集生成所述網(wǎng)絡(luò)樣本的一問一答包特征碼集合f URI特征碼生成步驟:針對所述網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成所述URI的特征碼集合f.HTTP網(wǎng)絡(luò)特征碼總集合生成步驟:通過所述一問一答包特征碼集合j7和所述URI的特征碼集合f,合并生成特征碼總集合Tall。
2.根據(jù)權(quán)利要求1所述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述包特征碼生成步驟,包含: 數(shù)據(jù)提取步驟:對所述網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提??;二次聚類步驟:根據(jù)所述網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和所述一問一答包內(nèi)容分別進(jìn)行二次聚類,生成所述粗粒度聚類集的基礎(chǔ)上,生成所述細(xì)粒度聚類集; 一問一答包特征碼生成步驟:根據(jù)所述細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
3.根據(jù)權(quán)利要求2所述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述數(shù)據(jù)提取步驟之前還包含: 白名單過濾步驟:過濾去除所述網(wǎng)絡(luò)樣本中訪問合法網(wǎng)站的流量。
4.根據(jù)權(quán)利要求2所述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述數(shù)據(jù)提取步驟,還包括: 數(shù)據(jù)內(nèi)容提取步驟:提取HTTP會話連接的所述一問一答包的內(nèi)容; 粗粒度聚類屬性提取步驟:以所述網(wǎng)絡(luò)樣本為單位,提取所述粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性; 細(xì)粒度聚類屬性提取步驟:以每個HTTP會話為單位,提取所述細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性; 匯總數(shù)據(jù)集步驟:將所述一問一答包的內(nèi)容、所述粗粒度聚類屬性和所述細(xì)粒度聚類屬性匯總得到五元組數(shù)據(jù)集D,所述五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性>。
5.根據(jù)權(quán)利要求2所述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述二次聚類步驟,還包括: 粗粒度聚類步驟:對所述五元組數(shù)據(jù)集乃,自動對所述粗粒度聚類屬性進(jìn)行聚類,得到粗粒度聚類集C,如果所述粗粒度聚類集C只屬于一個所述網(wǎng)絡(luò)樣本,則執(zhí)行所述URI特征碼生成步驟; 細(xì)粒度聚類步驟:以所述粗粒度聚類集C為基礎(chǔ),對每個Ci (Ci e C)中的所有會話,自動安裝所述細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集c' (Cf e Ci); 樣本覆蓋度判斷步驟:如果存在細(xì)粒度聚類(V (c/ ec')中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于所述網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為所述細(xì)粒度聚類成功,否則執(zhí)行所述URI特征碼生成步驟。
6.根據(jù)權(quán)利要求2所述HTTP網(wǎng)絡(luò)特征碼自動生成方法,其特征在于,所述一問一答包特征碼生成步驟,還包括:HTTP特征碼集合生成步驟:對所述每個細(xì)粒度聚類Ci' Cci/ ec')中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類Ci,分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;特征碼過濾步驟:對所述HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的所述特征碼,合并重復(fù)的所述特征碼,得到所述一問一答包特征碼集合f
7.一種HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),采用如權(quán)利要求1-6中任一項(xiàng)所述網(wǎng)絡(luò)特征自動生成方法,其特征在于,所述系統(tǒng)包括: 包特征碼生成模塊:用于針對多個網(wǎng)絡(luò)樣本的一問一答包提取出的特征統(tǒng)計(jì)和包內(nèi)容,通過二次聚類生成粗粒度聚類集,進(jìn)而在所述粗粒度聚類集的基礎(chǔ)上二次聚類生成細(xì)粒度聚類集,通過所述細(xì)粒度聚類集生成所述網(wǎng)絡(luò)樣本的一問一答包特征碼集合 URI特征碼生成模塊:針對所述網(wǎng)絡(luò)樣本中被劃分為單獨(dú)一類的流量,進(jìn)行URI路徑及參數(shù)特征碼的補(bǔ)充提取,生成所述URI的特征碼集合f.HTTP網(wǎng)絡(luò)特征碼總集合生成模塊:通過所述一問一答包特征碼集合f和所述URI的特 征碼集合^,合并生成特征碼總集合Tall。
8.根據(jù)權(quán)利要求7所述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述包特征碼生成模塊,包含: 白名單過濾模塊:過濾去除訪問合法網(wǎng)站的流量; 數(shù)據(jù)提取模塊:對所述網(wǎng)絡(luò)樣本的數(shù)據(jù)流特征統(tǒng)計(jì)和一問一答包內(nèi)容進(jìn)行提??;二次聚類模塊:根據(jù)所述網(wǎng)絡(luò)樣本特征統(tǒng)計(jì)和所述一問一答包內(nèi)容分別進(jìn)行二次聚類,生成所述粗粒度聚類集的基礎(chǔ)上,生成所述細(xì)粒度聚類集; 一問一答包特征碼生成模塊:根據(jù)所述細(xì)粒度聚類集,分別生成請求包和應(yīng)答包的特征碼集合。
9.根據(jù)權(quán)利要求8所述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述數(shù)據(jù)提取模塊之前還包含: 白名單過濾模塊:過濾去除所述網(wǎng)絡(luò)樣本中訪問合法網(wǎng)站的流量。
10.根據(jù)權(quán)利要求8所述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述數(shù)據(jù)提取模塊,還包括: 數(shù)據(jù)內(nèi)容提取模塊:提取HTTP會話連接的所述一問一答包的內(nèi)容; 粗粒度聚類屬性提取模塊:以所述網(wǎng)絡(luò)樣本為單位,提取所述粗粒度聚類的四維統(tǒng)計(jì)值,包括=HTTP數(shù)據(jù)流總數(shù)、每秒發(fā)送字節(jié)數(shù)、HTTP數(shù)據(jù)包平均大小和HTTP數(shù)據(jù)包總數(shù),得到粗粒度聚類屬性; 細(xì)粒度聚類屬性提取模塊:以每個HTTP會話為單位,提取所述細(xì)粒度聚類的四維統(tǒng)計(jì)值,包括:會話請求包個數(shù)、會話響應(yīng)包個數(shù)、首個請求包大小、首個響應(yīng)包大小,得到細(xì)粒度聚類屬性; 匯總數(shù)據(jù)集模塊:將所述一問一答包的內(nèi)容、所述粗粒度聚類屬性和所述細(xì)粒度聚類屬性匯總得到五元組數(shù)據(jù)D,所述五元組的格式為:〈樣本id,會話id,一問一答包內(nèi)容,粗粒度聚類屬性,細(xì)粒度聚類屬性>。
11.根據(jù)權(quán)利要求8所述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述二次聚類模塊,還包括: 粗粒度聚類模塊:對所述五元組數(shù)據(jù)集D,自動對所述粗粒度聚類屬性進(jìn)行聚類,得到粗粒度聚類集C,如果所述粗粒度聚類集C只屬于一個所述網(wǎng)絡(luò)樣本,則通過所述URI特征碼生成模塊生成所述URI特征碼; 細(xì)粒度聚類模塊:以所述粗粒度聚類集C為基礎(chǔ),對每個Ci (Ci e C)中的所有會話,自動安裝所述細(xì)粒度聚類屬性進(jìn)行聚類,得到細(xì)粒度聚類集C' (C' e Ci); 樣本覆蓋度判斷模塊:如果存在細(xì)粒度聚類(V (c/ ec')中的所有會話來源于k個樣本,k的數(shù)值大于1,小于等于所述網(wǎng)絡(luò)樣本個數(shù),則認(rèn)為所述細(xì)粒度聚類成功,否則執(zhí)行所述URI特征碼生成步驟。
12.根據(jù)權(quán)利要求8所述HTTP網(wǎng)絡(luò)特征碼自動生成系統(tǒng),其特征在于,所述一問一答包特征碼生成模塊,還包括:HTTP特征碼集合生成模塊:對所述每個細(xì)粒度聚類Ci' Cci/ ec')中所有會話連接分別進(jìn)行請求包和響應(yīng)包的特征碼生成,依次自動計(jì)算得到令牌特征碼,最終每個細(xì)粒度聚類Ci,分別獲取一個請求包的特征碼和一個響應(yīng)包的特征碼,形成HTTP特征碼集合W ;特征碼過濾模塊:對所述HTTP特征碼集合W進(jìn)行過濾篩選,去除不合格的所述特征碼,合并重復(fù)的所述特征碼,得到所述一問一答包特征碼集合T。
【文檔編號】H04L29/06GK103746982SQ201310745102
【公開日】2014年4月23日 申請日期:2013年12月30日 優(yōu)先權(quán)日:2013年12月30日
【發(fā)明者】李可, 劉潮歌, 崔翔, 李丹, 梁玉 申請人:中國科學(xué)院計(jì)算技術(shù)研究所