一種基于軌跡的無線傳感器網(wǎng)絡(luò)多維數(shù)據(jù)異常值檢測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及無線傳感器領(lǐng)域,特別是無線傳感器網(wǎng)絡(luò)中多維數(shù)據(jù)異常值檢測,用 于解決無線傳感器網(wǎng)絡(luò)所收集的多維數(shù)據(jù)存在不可靠數(shù)據(jù)的問題。 技術(shù)背景
[0002] 無線傳感器網(wǎng)絡(luò)(WSNs)是由大量廉價微型節(jié)點組成,且節(jié)點之間通過無線電通 信方式交流。網(wǎng)絡(luò)的目的是通過節(jié)點之間的相互協(xié)作來完成對部署區(qū)域的監(jiān)測并將收集到 的數(shù)據(jù)傳輸給遠(yuǎn)程觀測者。由于網(wǎng)絡(luò)監(jiān)測區(qū)域多為無人監(jiān)督的惡劣環(huán)境,同時出于對部署 成本的考慮,網(wǎng)絡(luò)通常選擇低成本、低質(zhì)量的節(jié)點,導(dǎo)致傳感器所采集到的數(shù)據(jù)會存在許多 誤差數(shù)據(jù)、錯誤數(shù)據(jù)、不一致數(shù)據(jù)甚至可能丟失數(shù)據(jù)。傳感器節(jié)點所收集的數(shù)據(jù)存在如此多 的不可靠數(shù)據(jù)使得其不能被直接用于科學(xué)研究。為此,為了更好的使用WSNs數(shù)據(jù),同時為 了實現(xiàn)其各種功能,對網(wǎng)絡(luò)中的異常值進行檢測變得日趨重要。
[0003] 目前,已經(jīng)有多重異常值檢測方法:基于鄰近節(jié)點的方法,基于統(tǒng)計學(xué)的方法,基 于分簇的方法,基于聚類的方法以及基于頻譜分析的方法。但是,傳感器網(wǎng)絡(luò)的一些自身特 點使得并不是所有的現(xiàn)有檢測方法都能很好的直接用于其中。為此,為了更好的設(shè)計關(guān)于 WSNs的高效、可行的異常值檢測方法,需要考慮以下特點:
[0004] (1)節(jié)點能力受限。傳感器節(jié)點的廉價微型特性導(dǎo)致其攜帶電源的能量相當(dāng)有限。 能量的多少在一定程度上影響了傳感器節(jié)點的處理、儲存和通信收發(fā)能力。因此,在實際應(yīng) 用中,應(yīng)該充分考慮傳感器節(jié)點的各種能量和能力限制,然而多數(shù)傳統(tǒng)檢測方法很少考慮 算法在節(jié)點能力受限的情況下的性能。
[0005] (2)分布式自組織。在WSNs中,所有節(jié)點均處于相同地位,沒有任何一個節(jié)點是嚴(yán) 格意義上的"統(tǒng)治者",這種網(wǎng)絡(luò)節(jié)點之間的平等直接影響即是其通過分布式協(xié)作即可保證 網(wǎng)絡(luò)的正常運行。同時,WSNs的節(jié)點具有很強的自組織能力,其可以在任何惡劣或者動態(tài) 環(huán)境下配置網(wǎng)絡(luò),并通過特定的途徑將監(jiān)測數(shù)據(jù)傳送給遠(yuǎn)程觀測者,實現(xiàn)網(wǎng)絡(luò)的功能??紤] 網(wǎng)絡(luò)的超強自組織能力能很好降低網(wǎng)絡(luò)開銷,從而設(shè)計更有效的異常值檢測算法
[0006] (3)高能耗高負(fù)載。無線傳感器網(wǎng)絡(luò)節(jié)點的無線通信會消耗節(jié)點的大部分能量,其 是節(jié)點計算消耗的好多倍。然而,多數(shù)傳統(tǒng)異常值檢測方法采用集中處理所收集數(shù)據(jù)的方 法,大大增加了節(jié)點能耗和通信負(fù)載,降低網(wǎng)絡(luò)壽命。因此,如何可以降低通信能耗以延長 WSNs壽命是設(shè)計WSNs異常值檢測方法的一個重要考慮方面。
[0007] (4)實時性。綜合分析WSNs的應(yīng)用領(lǐng)域可以得出,對異常值的檢測都需要在線且 實時。網(wǎng)絡(luò)對事件的反應(yīng)時間與系統(tǒng)的性能成正比。因此,設(shè)計實時的異常值檢測方法是 及其有必要的。
[0008] 綜上所述,實時的、分布式的同時可以保持較低通信能耗與通信負(fù)載,并可以實現(xiàn) 較高檢測率與較低誤報率的異常值檢測方法才是適合無線傳感器網(wǎng)絡(luò)的異常值檢測算法。
[0009] 在文獻(xiàn)Statistics-basedoutlierdetectionforwirelesssensornetworks 中,作者給出幾種基于統(tǒng)計學(xué)模型的WSNs異常數(shù)據(jù)檢測方法。包括只考慮時間相關(guān)性的方 法、只考慮空間相關(guān)性的方法以及同事考慮時空相關(guān)性的方法。但是,就多維數(shù)據(jù)而言,文 章中依然采用時間序列模型及地理統(tǒng)計學(xué),沒有考慮對數(shù)據(jù)降維,大大增加了計算消耗。
[0010] 文南犬Trajectory-basedmulti-dimensionaloutlierdetectioninwireless sensornetworksusingHiddenMarkovModels中,作者利用傅里葉變換對傳感器節(jié)點收 集到的多維數(shù)據(jù)降維。同時,在隱馬爾科夫模型應(yīng)用的過程中還利用了數(shù)據(jù)之間的時間相 關(guān)性。但是,文中沒有考慮節(jié)點之間存在的空間相關(guān)性。
[0011] 文南犬Distributedonlineoutlierdetectioninwirelesssensornetworks usingellipsoidalsupportvectormachine中,作者利用超橢球支持向量機對數(shù)據(jù)分類 從而達(dá)到找出異常數(shù)據(jù)的目的。文中利用范數(shù)定義多維數(shù)據(jù)之間的距離。其在達(dá)到較高的 檢出率的同時,還保證了有很低的誤檢測率。同時,該方法還是一種在線的,實時檢方法。但 訓(xùn)練橢球支持向量機的過程需要事先明確數(shù)據(jù)的分布,需要較大能量消耗。
[0012] 文南犬AnEnergy-EfficientOutlierDetectionBasedonDataClusteringin WSNs中,通過對節(jié)點之間的空間相關(guān)性分析來對節(jié)點進行分簇,從而減少了通信交流進而 減少了能量消耗。但對于多維數(shù)據(jù)先分別對一維數(shù)據(jù)處理后再整合,增加了計算量。
[0013] 在無線傳感器網(wǎng)絡(luò)中,理論上相鄰區(qū)域內(nèi)的節(jié)點數(shù)據(jù)具有空間相關(guān)性,且同一節(jié) 點連續(xù)時間段內(nèi)數(shù)據(jù)具有時間相關(guān)性。但目前已有文獻(xiàn)只有少數(shù)異常檢測方法同時考慮了 時間和空間相關(guān)性,這必然會使得檢測準(zhǔn)確度降低或者使檢測成本增加。
【發(fā)明內(nèi)容】
[0014] 本發(fā)明的目的在于針對目前已有WSNs異常值檢測方法的不足,提出了一種同時 考慮時間和空間相關(guān)性的基于軌跡的多維數(shù)據(jù)WSNs異常值檢測方法。在詳細(xì)介紹本發(fā)明 前,首先給出三個定義。
[0015] 定義1(PermissionRange:許可半徑)d維傳感器數(shù)據(jù)集尺H =,其中 = .,/:!>/]卜這里#μ]表示第i個節(jié)點的第k維數(shù)據(jù)。其第k維許可半徑定義為:
[0016]
[0017] 這里,如果有ΜΜ- <內(nèi)| <Pi?/f,貝ij稱數(shù)據(jù)y與.<在第k維是相鄰的;如果r,與 rf在第k維相鄰,則其在第k維同屬一個簇。對節(jié)點i,j,只有當(dāng)其d維數(shù)據(jù)<與rf在所有 的第k(l<k<d)維均同屬一個簇時,才稱節(jié)點i,j屬于同一個簇。
[0018] 定義2(Clusterrange:簾K間)簾C;的簾區(qū)間記為CRZ,其中對1 <k<d有
[0019]
[0020] 其中,在第k維的簇區(qū)間。
[0021] 給定簇(^和C,,簇區(qū)間分別為和,對于第k維數(shù)據(jù),如果有:
[0022]
[0023] 則稱簇區(qū)間和在第k維重疊。
[0024] 當(dāng)簇區(qū)間C<和CKf在第k維重疊時,稱簇(;和簇Cj在第k維可合并,且新形 成的簇之簇半徑為CR= [ΜΙΝ({η?η?,η?η」}),ΜΑΧ({η?ΒΧ?,η?Βχ」})]。當(dāng)簇(^和C」在所有第 k(l<k<d)維均重疊時,簇(^和Cj可合并為新的簇。
[0025] 定義3(函數(shù)相似)定義在X上的函數(shù)g(x)和f(x)是相似的,如果當(dāng)g(x)和f(x) 平移至相同起點后,有:對任意的XeX,都有|f(x)-g(x) | <c ;
[0026] 或者有:
[0027]
[0028] 上式中,c是一個大于0的參數(shù),但不能過大,應(yīng)該遠(yuǎn)遠(yuǎn)小于1。在實際應(yīng)用中由實 際情況確定其值。
[0029] 本發(fā)明的基本技術(shù)思路:首先,根據(jù)某相同時刻傳感器節(jié)點數(shù)據(jù)對傳感器節(jié)點分 簇,對分簇后的每個簇分別訓(xùn)練超橢球并相應(yīng)計算超橢球各個軸長,將軸長比例系數(shù)作為 系數(shù)對多維數(shù)據(jù)線性降維,降維后的數(shù)據(jù)擬合成數(shù)據(jù)曲線,作為測試曲線。對次日相同時間 段的數(shù)據(jù)作相同降維、曲線擬合處理,擬合后的曲線作為檢測曲線。比較測試曲線與檢測曲 線的趨勢及曲線相似度,以此來檢測節(jié)點收集的多維數(shù)據(jù)是否存在異常數(shù)據(jù)。
[0030] 其具體實現(xiàn)步驟如下:
[0031]S1:選取相同適當(dāng)時間段傳感器節(jié)點數(shù)據(jù)(2004-03-0100 :57--2004-03-0101: 03);
[0032]S2:依據(jù)數(shù)據(jù)對節(jié)點分簇;
[0033]S3:對相應(yīng)的簇訓(xùn)練超橢球并相應(yīng)計算超橢球各個軸長;
[0034]S4:據(jù)軸長將數(shù)據(jù)降維;
[0035]S5:將降維后的數(shù)據(jù)進行非線性曲線擬合;
[0036]S6:選取節(jié)點在2004-03-0200 :57--2004-03-0201 :03時間段內(nèi)數(shù)據(jù),并根據(jù)對 應(yīng)分簇按S4、S5處理數(shù)據(jù);
[0037]S7:比較兩條曲線相似度,以確定是否存在異常數(shù)據(jù);
[0038]S8:重復(fù)S4、S5、S6、S7,直至全部節(jié)點檢測完畢。
[0039] 相對于目前已有技術(shù),本發(fā)明優(yōu)點如下:
[0040] (1)本發(fā)明分簇過程考慮了網(wǎng)絡(luò)節(jié)點之間的空間相關(guān)性,這使得數(shù)據(jù)降維過程更 加準(zhǔn)確且有針對性。
[0041] (2)本發(fā)明通過利用橢圓對數(shù)據(jù)進行線性降維,避免了直接使用多維數(shù)據(jù)造成的 計算量過大的缺點。
[0042] (3)本發(fā)明在進行異常值檢測的過程利用了節(jié)點數(shù)據(jù)之間的時間相關(guān)性,通過比 較連續(xù)兩天數(shù)據(jù)擬合曲線來實現(xiàn)檢測過程。
[0043](4)本發(fā)明可以通過適當(dāng)調(diào)節(jié)比值參數(shù)c的大小來實現(xiàn)在不同監(jiān)測環(huán)境的檢測要 求。
[0044] (5)本發(fā)明在整個檢測過程中,沒有額外通信消耗,故其同樣適用于動態(tài)變化的無 線傳感器網(wǎng)絡(luò)。
[0045] 綜上所述,本發(fā)明在檢測過程中充分利用了網(wǎng)絡(luò)相鄰節(jié)點數(shù)據(jù)之間的空間相關(guān)性 及同一節(jié)點數(shù)據(jù)的時間相關(guān)性;通過分簇對數(shù)據(jù)降維,避免了直接處理多維數(shù)據(jù)計算復(fù)雜 度較高的缺點;異常值檢測方法可以準(zhǔn)確檢測出網(wǎng)絡(luò)節(jié)點處連續(xù)出現(xiàn)異常值的情況,且檢 出率較高,誤檢率較低。
【附圖說明】
[0046] 圖1是本發(fā)明的總流程圖;
[0047] 圖2是傳感器網(wǎng)絡(luò)部署節(jié)點圖;
[0048] 圖3是節(jié)點分簇結(jié)果圖;
[0049] 圖4是超橢圓長短軸比例圖;
[0050] 圖5是節(jié)點13的數(shù)據(jù)擬合曲線;
[0051] 圖6是節(jié)點30的數(shù)據(jù)擬合曲線;
[005