一種基于行為相似度的用戶異常行為檢測方法
【技術(shù)領域】
[0001]本發(fā)明涉及計算機信息安全領域,具體地說是一種基于行為相似度的用戶異常行為檢測方法。
【背景技術(shù)】
[0002]在移動互聯(lián)網(wǎng)和BYOD辦公逐步成熟的時代,信息和網(wǎng)絡安全也面臨著新的挑戰(zhàn)。網(wǎng)絡用戶異常行為成為網(wǎng)絡面臨的一大威脅。所謂異常行為,是指與正常行為相對應,由網(wǎng)絡用戶或惡意攻擊者實施的對網(wǎng)絡正常運行造成影響的行為,例如傳播惡意代碼、DDoS攻擊等。這些行為會造成網(wǎng)絡服務質(zhì)量急劇下降,網(wǎng)絡負載加重甚至癱瘓等后果。而且隨著云計算和大數(shù)據(jù)的快速發(fā)展,網(wǎng)絡用戶異常行為的新變種以及新行為層出不窮,其威脅也日益嚴重。
[0003]因此無論是加強對用戶行為的管控,還是保障網(wǎng)絡的正常運行,都要求能夠?qū)W(wǎng)絡用戶的異常行為實施快速、準確的檢測。如何有效檢測并阻斷用戶異常行為,成為業(yè)界領域中的研宄熱點。
[0004]現(xiàn)有技術(shù)中通常采用端口掃描、報文特征字段匹配等方法對異常行為進行深入分析以獲取特征,從而實現(xiàn)網(wǎng)絡用戶異常行為的檢測。然而,隨著用戶異常行為不斷變化,依靠人工對異常行為進行分析以獲取特征的代價越來越高昂甚至不可行。隨著人工智能技術(shù)的發(fā)展,機器學習更多地被用于從網(wǎng)絡數(shù)據(jù)中自動計算異常行為模式、提取其特征,從而自動產(chǎn)生檢測規(guī)則,極大地降低了開發(fā)成本。
[0005]在機器學習中,常用的相似度衡量函數(shù)主要有三種:余弦相似度、相關相似度以及修正的余弦相似度。余弦相似度函數(shù)在衡量向量相似性方面得到了廣泛的應用,它可以直接用來衡量節(jié)點評分行為之間的相似程度。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的技術(shù)任務是針對上述現(xiàn)有技術(shù)的不足,提供一種基于行為相似度的用戶異常行為檢測方法。
[0007]網(wǎng)絡環(huán)境中用戶行為一般具有相似性的性質(zhì),以相似度來刻畫。與正常行為相似度相比,異常行為相似度存在較大的差異?;诖?,本發(fā)明方法實現(xiàn)了用戶異常行為的檢測。
[0008]本發(fā)明的技術(shù)任務是按以下方式實現(xiàn)的:一種基于行為相似度的用戶異常行為檢測方法,其特點是該方法根據(jù)從Web日志中獲取的表征用戶行為的特征參數(shù),計算與用戶行為相關的時間相似度、地點相似度、URL相似度,并綜合計算形成用戶行為相似度;通過比較用戶行為相似度,若存在較大幅度的變化,則反映出用戶行為實質(zhì)性的變化,實現(xiàn)用戶異常行為的檢測。
[0009]作為優(yōu)選,上述方法包括以下步驟:
[0010](一 )特征參數(shù)提取
[0011]通過對Web日志分析獲取表征用戶行為的特征參數(shù),并用元組描述;
[0012](二)行為相似度計算:根據(jù)用戶行為特征參數(shù)元組,對參與相似度計算的參數(shù)進行量化,然后利用機器學習中相似度衡量函數(shù),分別計算與用戶行為相關的時間相似度St,地點相似度Sjp URL相似度S u
[0013]然后根據(jù)時間相似度St,地點相似度SjP URL相似度S u對于用戶行為相似度的影響程度,計算出用戶訪問路徑中的用戶行為相似度,作為用戶異常行為檢測的指標;
[0014](三)異常行為檢測
[0015]比較步驟(二)所得的用戶訪問路徑中的用戶行為相似度,若變化幅度超過一定的行為相似度閥值,則所對應的用戶行為表現(xiàn)為異常行為。
[0016]進一步的,步驟一中所述特征參數(shù)用元組(ID,IP,R,tK,tD,M,P,Ref,UA)來描述,其中ID唯一標識用戶的ID ;IP表示發(fā)送請求的客戶端IP地址;R唯一標識某個URL請求;tK為當前URL的請求時間;t D為瀏覽時長;M表示請求方法;P表示頁面訪問路徑;Ref表示請求訪問來源;UA是一個由變量、變量值構(gòu)成的二元組集合,用來描述外部環(huán)境狀態(tài)以及當前行為對環(huán)境的影響(P中所傳遞的參數(shù)變量以及變量值)。
[0017]步驟二中:
[0018]時間相似度St:采用余弦相似度函數(shù),對由主要相關參數(shù)包括但不限于t tD構(gòu)成的時間向量計算時間相似度;
[0019]地點相似度S1:采用余弦相似度函數(shù),對由主要相關參數(shù)包括但不限于ID,IP以及UA中與客戶端地址相關的參數(shù)構(gòu)成的地點向量計算地點相似度;
[0020]URL相似度Su:采用編輯距離,對由主要相關參數(shù)包括但不限于R,M,P,Ref以及UA中訪問路徑所傳遞的參數(shù)變量以及變量值構(gòu)成的URL向量計算URL相似度。
[0021 ] 為了體現(xiàn)時間相似度、地點相似度和URL相似度影響程度的不同,步驟二中進行用戶行為相似度計算時,可根據(jù)時間相似度、地點相似度和URL相似度對于用戶行為相似度的影響程度賦予不同的權(quán)重系數(shù)。
[0022]與現(xiàn)有技術(shù)相比,本發(fā)明的基于行為相似度的用戶異常行為檢測方法采用多種因素綜合檢測用戶異常行為,具有較高的檢測效率和準確性。
【附圖說明】
[0023]附圖1是本發(fā)明基于行為相似度的用戶異常行為檢測方法的原理圖。
【具體實施方式】
[0024]參照說明書附圖以具體實施例對本發(fā)明的基于行為相似度的用戶異常行為檢測方法作以下詳細地說明。
[0025]實施例:
[0026]本發(fā)明的檢測方法根據(jù)從Web日志中獲取的表征用戶行為的特征參數(shù),計算與用戶行為相關的時間相似度、地點相似度、URL相似度,并綜合計算形成用戶行為相似度;通過比較用戶行為相似度,若存在較大幅度的變化,則反映出用戶行為實質(zhì)性的變化,實現(xiàn)用戶異常行為的檢測。這種基于行為相似度的用戶異常行為檢測方法采用多種因素綜合檢測用戶異常行為,具有較高的檢測效率和準確性。本方法的用戶異常行為檢測方法原理如附圖1所示:
[0027](I)特征參數(shù)提取:通過對Web日志分析獲取表征用戶行為的特征參數(shù),用元組(ID, IP,R,tK,tD,M,P,Ref,UA)來描述,其中ID唯一標識用戶的ID ;IP表示發(fā)送請求的客戶端IP地址;R唯一標識某個URL請求;tK為當前URL的請求時間;t D為瀏覽時長;M表示請求方法;P表示頁面訪問路徑;Ref表示請求訪問來源;UA是一個由變量、變量值構(gòu)