一種社交網(wǎng)用戶異常行為的分析方法

文檔序號：6541028閱讀：244來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種社交網(wǎng)用戶異常行為的分析方法
【專利摘要】一種社交網(wǎng)用戶異常行為的分析方法，可用于分析社交網(wǎng)站中存在的包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財?shù)犬惓Ｊ录?。該方法基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)，采用用戶行為分析技術(shù)對這些數(shù)據(jù)進行分析和檢測，當檢測到異常時發(fā)出告警，分為三個功能單元——數(shù)據(jù)獲取、分析檢測和異常報警，每個單元完成方法的一個功能。數(shù)據(jù)獲取單元采用網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)；分析檢測單元采用用戶行為分析技術(shù)對獲取到的用戶行為數(shù)據(jù)進行分析和檢測；異常報警單元當檢測到異常時發(fā)出告警短信。本發(fā)明能夠方便、靈活、智能地檢測社交網(wǎng)中廣泛存在的異常事件，社交網(wǎng)提供商可利用本發(fā)明及時發(fā)現(xiàn)惡意用戶，減少網(wǎng)民損失。
【專利說明】一種社交網(wǎng)用戶異常行為的分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種社交網(wǎng)用戶異常行為的分析方法，用于檢測社交網(wǎng)站中發(fā)布惡意鏈接、垃圾廣告、詐騙消息等的用戶異常行為，屬于網(wǎng)絡(luò)安全檢測【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]CNNIC統(tǒng)計數(shù)據(jù)顯示，2013年我國微博用戶數(shù)量達到5.36億，此外，使用人人網(wǎng)的用戶數(shù)量也達到了 2.8億之多。由于社交網(wǎng)絡(luò)中不可或缺的重要實體(即海量用戶)的存在，促使著商務(wù)類和個人類社交不斷發(fā)展，而伴隨著網(wǎng)絡(luò)社交的蓬勃發(fā)展，各種信息資源也在社交的過程中不斷地交流和傳播，并且由于這些信息不僅可能包含用戶的隱私信息，而且可能會是某些公司的商業(yè)機密，因而其信息價值越來越被認可。伴隨著微博、人人等社交應(yīng)用的蓬勃興起，基于社交網(wǎng)絡(luò)的安全問題也越來越突出，例如，近年來利用社交網(wǎng)絡(luò)實施的釣魚欺詐行為數(shù)量正急劇增加。
[0003]社交網(wǎng)好友關(guān)系間的信任和認可，是不法分子實施惡意活動的出發(fā)點，而這也是社交網(wǎng)絡(luò)產(chǎn)生安全問題的根源。不法分子通過盜取用戶帳號來實施竊取用戶信息、誘騙廣告點擊、借錢欺詐等非法活動。近年來，許多安全公司給出的報告里都表明，有1/4左右的借錢欺詐、虛擬抽獎等網(wǎng)絡(luò)釣魚的惡意活動是通過社交網(wǎng)絡(luò)傳播的，并且這些安全公司的分析預(yù)測也稱，全方位改善社交安全將成為網(wǎng)絡(luò)安全新課題。

【發(fā)明內(nèi)容】

[0004]鑒于此，本發(fā)明的目標是針對社交網(wǎng)絡(luò)正常帳號被盜后發(fā)布詐騙、釣魚、垃圾信息等惡意消息這類異常事件，提出一種異常事件檢測方法，此方法基于網(wǎng)絡(luò)爬蟲技術(shù)爬取用戶行為數(shù)據(jù)，基于用戶行為分析技術(shù)和數(shù)學建模思想進行行為建模和分析檢測，當檢測到異常賬戶時發(fā)出短信告警，可為社交網(wǎng)提供者提供異常用戶列表，從而大大減少網(wǎng)絡(luò)詐騙、釣魚和垃圾信息對網(wǎng)民的危害，同時該方法作為Web安全檢測的一部分，對研究Web環(huán)境下的安全問題也具有一定的參考價值和指導(dǎo)意義。
[0005]本發(fā)明提出的社交網(wǎng)異常事件檢測方法基于網(wǎng)絡(luò)爬蟲技術(shù)和Web解析技術(shù)獲取用戶在社交網(wǎng)中發(fā)布的消息數(shù)據(jù)，然后對這些數(shù)據(jù)進行用戶行為分析，從而檢測出異常用戶，并進行告警。使用本方法可以檢測目標社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件，包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財?shù)鹊?。本發(fā)明主要由三個主要功能單元組成，即數(shù)據(jù)獲取單元、分析檢測單元和異常報警單元。
[0006]所述的數(shù)據(jù)獲取單元的功能特點如下:
[0007]獲得目標檢測社交網(wǎng)的操作權(quán)限，通過網(wǎng)絡(luò)爬蟲技術(shù)來完成對用戶消息數(shù)據(jù)(發(fā)布狀態(tài)、日志、照片、分享、評論等信息)的抓取，對抓取下來的數(shù)據(jù)解析后按用戶進行分類并存入文件，這些文件就是分析檢測單元的輸入。
[0008]本單元主要包括用戶登錄、數(shù)據(jù)抓取、數(shù)據(jù)解析和數(shù)據(jù)輸出四個子單元。
[0009]所述的用戶登錄子單元的功能特點如下:[0010]創(chuàng)建一個Singleton Connector 類，使用 DefaultHttpClient、HttpGet 和HttpPosttjHttpGet用來獲取人人網(wǎng)入口 URL，HttpPost中設(shè)定人人網(wǎng)登錄URL，同時設(shè)定登錄用戶的基本信息(包括用戶名、密碼、人人網(wǎng)域名等，這些參數(shù)信息可從配置單元取到)。然后執(zhí)行1ginO方法，如果進入到了登錄后的頁面，就表明已成功登錄，然后將用戶憑據(jù)信息作為Cookie保存下來，以便下次抓取時使用。
[0011]所述的數(shù)據(jù)抓取子單元的功能特點如下:
[0012]實現(xiàn)ICrawler 接口和 IParser 接口，其中 IParser 接口繼承 HtmlParser。該單兀主要包括 CrawlFeeds 類、CrawlTimelineFeed 類、FilterOpenUser 類和 FeedController類。其中FeedContiOller類嚴格意義上不屬于數(shù)據(jù)抓取單元，因為它用來控制數(shù)據(jù)抓取和數(shù)據(jù)輸出存儲。用戶登錄后，首先FilterOpenUser從登錄的用戶節(jié)點開始獲取每一個待抓用戶所有相關(guān)的URL。如果該待抓用戶是登錄用戶的好友，則可以直接爬??；如果不是好友的話，有的信息需要加了好友后才能查看，通過這樣的方式得到所有可查看的userid列表。然后 FeedController 以 FilterOpenUser 得到的 userid 列表為輸入，調(diào)用 CrawlFeeds或CrawlTimelineFeed進行爬取。在抓取的時候,采用定時器的增量式抓取方法。定時器的方法通過設(shè)定具體的時間間隔進行抓取。具體的時間間隔由配置單元設(shè)定。爬取時就是按照userid進行分別爬取。
[0013]所述的數(shù)據(jù)解析子單元的功能特點如下:
[0014]對爬取頁面進行解析，然后將爬取子單元按userid爬取到的所有數(shù)據(jù)再按照狀態(tài)、日志、分享的鏈接等進行分類，并提取出這些信息的發(fā)布時間、具體內(nèi)容等信息，還要對消息的具體內(nèi)容即html文本進行解析。該子單元主要是FeedFilter類和HtmlParser類。其中HtmlParser是一個成熟的程序庫,它是一個基于Java代碼的HTML解析類庫,它不依賴于其他的Java庫，主要用于改造和提取HTML，并能夠高速、準確地解析HTML。該單元利用HtmlParser提取出消息的文本內(nèi)容。HtmlParser通過Node、AbstractNode和Tag重新定義HTML的信息。在程序中，通過定義NodeFilter對象對html中提供文本輸入的標簽進行過濾，可以方便地找到消息文本的內(nèi)容。
[0015]所述的數(shù)據(jù)輸出子單元的功能特點如下:
[0016]通過爬蟲得到的數(shù)據(jù)結(jié)果以用userid命名的文件輸出，存儲在文件中的數(shù)據(jù)內(nèi)容格式為數(shù)據(jù)ID、數(shù)據(jù)類型、內(nèi)容、內(nèi)容語言、發(fā)布時間。
[0017]所述的分析檢測單元的功能特點如下:
[0018]以數(shù)據(jù)獲取單元得到的結(jié)果為輸入，對其進行預(yù)處理，并在分析檢測方法中提出了 7個用戶行為特征，對這7個特征分別進行建模，對用戶所有的歷史數(shù)據(jù)根據(jù)這個7個特征模型建模，得到用戶的行為輪廓。對歷史數(shù)據(jù)的最后一個時間點之后的數(shù)據(jù)，先按照7個行為特征進行分類，然后對每個行為特征得到一個異常得分，最后將7個異常得分進行計算得到總的異常得分，從而判斷該用戶是否異常。
[0019]本單元采用的分析檢測方法包括用戶行為建模，用戶消息的相似度分析，如何對消息的異常得分進行計算，以及如何最終檢測異常事件四個方面。
[0020]所述的用戶行為建模的功能特點如下:
[0021]用戶行為輪廓是通過用戶在社交網(wǎng)絡(luò)上的歷史行為得到的，它可以用來預(yù)期該用戶在將來的正常行為。為了建立用戶的行為輪廓，即用戶行為建模，就需要該用戶發(fā)布在社交網(wǎng)站上的消息流，而這些消息流正是數(shù)據(jù)獲取單元得到的結(jié)果。所以可以使用數(shù)據(jù)獲取單元得到的結(jié)果進行行為輪廓的建立。
[0022]針對社交網(wǎng)絡(luò)的特點和檢測的需要，對于每條消息，本單元設(shè)定了 7個特征，對于每個特征訓(xùn)練一個統(tǒng)計模型。其中的每個模型都反應(yīng)了該條消息某方面的特性，對某個用戶的所有消息分析完之后，就可以得到該用戶在這7個方面的特征值，就可以預(yù)期該用戶發(fā)送的消息應(yīng)該是怎樣的。下面對每條消息的7個特征模型進行詳細介紹。
[0023]1、消息發(fā)送的時間(hour/day)。這個特征模型用來捕獲一個帳號在一天中的哪些時間是活躍的。許多用戶在一天中的確定時間段是不活躍的，例如午飯時間、或者睡眠時間。通過用戶的消息流中用戶發(fā)布消息的時間，可以判定出哪些是非活躍時間，那么發(fā)布在非活躍時間的消息就被認為是異常的。
[0024]2、消息源。發(fā)布消息的應(yīng)用程序。大多數(shù)社交網(wǎng)站提供傳統(tǒng)網(wǎng)絡(luò)和移動網(wǎng)絡(luò)接入給他們的用戶，以及用于移動平臺的應(yīng)用程序例如iOS和Android。許多社交網(wǎng)絡(luò)提供多種由第三方開發(fā)者獨立創(chuàng)建的應(yīng)用程序。當然，在默認情況下，第三方應(yīng)用程序不能發(fā)消息到用戶的帳戶。然而，如果一個用戶選擇這種方式發(fā)送，他可以授予這種特權(quán)給這個應(yīng)用，這就使該第三方應(yīng)用在沒有用戶憑據(jù)的情況下能夠訪問用戶的個人資料。事實上，根據(jù)相關(guān)評估顯示，第三方應(yīng)用程序經(jīng)常被用來發(fā)送惡意消息。
[0025]該模型用來確定用戶是否以前常使用特定應(yīng)用程序，或者反過來說，這是否是第一次使用某種應(yīng)用程序來發(fā)送消息。每當用戶使用一個新的應(yīng)用程序發(fā)布消息，這個變化可能表明，一個攻擊者已成功引誘受害者授權(quán)惡意應(yīng)用程序訪問他的帳戶。
[0026]3、消息文本(語言)。用戶可以自由地使用任何語言發(fā)布消息。然而，事實上每個用戶只使用為數(shù)不多的語言種類來發(fā)布消息(通常，一個或兩個)。因此，特別是當這個模型特點(消息語言)是相對穩(wěn)定的，突然的語言變化則顯示用戶行為可疑。
[0027]要確定一個消息使用的語言,利用Iibtextcat庫。這個庫是一個執(zhí)行以n-gram為基礎(chǔ)的文本分類算法的開源庫。
[0028]4、消息話題。用戶發(fā)布的消息往往包含許多喋喋不休或世俗的信息。但是，很多用戶有一組他們經(jīng)常談?wù)摰脑掝}，比如最喜歡的運動隊，樂隊，或電視節(jié)目。當用戶發(fā)布的消息通常集中在幾個話題中，然后突然發(fā)布一些不同和無關(guān)的話題，這個新的消息應(yīng)該被評為異常。
[0029]一般，從沒有上下文的短的文本片段，推斷消息的話題是困難的。然而，社交網(wǎng)絡(luò)平臺允許用戶標記消息，明確指定他們的消息是哪個話題的。當在有標簽的情況下，它們提供了有價值的信息來源。一個眾所周知的例子的消息標記機制是人人網(wǎng)、微博的話題標簽，通常使用“ 兩個“ # ”號中間的為話題。
[0030]5、消息中的鏈接。通常情況下，發(fā)布在社交網(wǎng)站的消息包含指向其他資源的鏈接，如博客，圖片，視頻或新聞文章。從社交網(wǎng)出現(xiàn)到現(xiàn)在，消息中的鏈接都廣泛存在著，因而以前更多的關(guān)于社交網(wǎng)的安全研究工作都集中在對URL的分析，并把它作為確定消息是否為惡意的唯一的因素。論文也把消息中的URL作為用戶行為輪廓的一部分，但只是作為一個單一的特征模型。另外，確立該行為模型特征主要是用來捕捉用戶的正常活動。也就是說，本檢測方法不試圖檢測一個URL本身是否是惡意的，而是去檢測該用戶正常情況下會否發(fā)送這樣的URL。[0031]為了確定在消息中出現(xiàn)的鏈接，本方法只利用鏈接中URL的域名。其原因在于用戶可能會經(jīng)常引用在同一個域名中的內(nèi)容。例如，許多用戶往往看特定的新聞網(wǎng)站和博客，并經(jīng)常鏈接到在那里的有趣文章。惡意鏈接，另一方面，指向的是不合法的網(wǎng)站。因此，鏈接信息包含過去沒有出現(xiàn)過的域名時則表示了一種變化。該行為模型還考慮了消息中包含鏈接的頻率，以及用戶鏈接到特定網(wǎng)站的一致性。
[0032]6、用戶間交互。社交網(wǎng)絡(luò)提供單個用戶間直接進行交互的機制。最常見的方式是通過直接發(fā)送消息到接收者。不同的社交網(wǎng)絡(luò)有不同的機制。隨著時間的推移，一個用戶在社交網(wǎng)絡(luò)就建立了一個與其他用戶互動的歷史記錄。通過社交網(wǎng)的這個特性就可以捕獲一個用戶的歷史交互記錄。事實上，它跟蹤用戶帳戶所有發(fā)生過的交互。發(fā)送消息的目的是為了得到接收者的注意，因此這種用戶間的直接交互方式常被用來發(fā)送垃圾消息。
[0033]7、鄰近的地理位置。在許多情況下，用戶在社交網(wǎng)絡(luò)中的朋友就是在現(xiàn)實中與他們親近的其他用戶。例如，一個人人網(wǎng)的用戶將有很多住在同一個城市，上同一所學校，或者工作在相同的公司的朋友。如果該用戶突然開始與生活在另一個大陸的人交往，這可能是可疑的。該特征用于捕捉消息是當?shù)氐倪€是非本地的。
[0034]對于用戶的每條消息按上述7個特征模型進行建模，然后對其進行模型訓(xùn)練和評估。
[0035]所述的模型訓(xùn)練的功能特點如下:
[0036]模型訓(xùn)練的輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個消息，提取上述7個特征，例如發(fā)送消息的源程序和消息中包含的鏈接。
[0037]每一個特征模型用集合M來表示。M的每個元素是一個鍵值對元組<fv，C〉。fv是特征值(例如，英語的語言模型，或者鏈接模型examp I e.com )。c表示fv值出現(xiàn)的消息個數(shù)。此外，每個模型都存儲訓(xùn)練消息的總數(shù)N。
`[0038]將訓(xùn)練模型分為兩類:
[0039](I)必要模型是對于每一個消息都有一個特征值，并且這個特征值總是出現(xiàn)的模型。默認模型包括消息發(fā)送的時間，消息源，鄰近的地理位置和消息語言。
[0040](2)可選模型是指對于一個消息來說，該模型不一定總需要有值。同時，不同于必要模型的是，對于一個消息來說，這個模型可以對應(yīng)多個值。可選模型，包括鏈接，用戶間交互和主題。例如，一個消息可能有O個，一個或者多個鏈接。對于每個可選模型，我們保留一個fV=null，并把這個特征值的“c”值提出(例如，沒有鏈接的消息數(shù))。
[0041]對于消息發(fā)送時間這個特征模型的訓(xùn)練稍有不同?；谇懊娴拿枋?，系統(tǒng)首先提取消息發(fā)送于幾點。然后，它將存儲每個小時的fv，以及在這一小時被發(fā)布的消息數(shù)。這樣就會有一個問題，就是時間段可能是不連續(xù)的，是離散的。因此，在用戶的正常時間附近的時間點發(fā)送的消息就可能會被錯誤地認為是異常。
[0042]為了避免這個問題，在對時間模型訓(xùn)練之后調(diào)整步驟。具體來說就是，對于每個小時i，考慮與它相鄰的兩個小時。即，對于M的每個鍵值對〈i，Ci>，一個新的計算變量C’ i用來計算第i個小時Ci發(fā)布消息的平均數(shù)，變量Cg用來存儲之前那個小時發(fā)送的消息數(shù)，Ci+!用戶存儲第i小時之后的那個小時發(fā)送的消息數(shù)。當計算出C’i，就用它來代替鍵值對〈i，Ci> 中的 Ci。
[0043]所述的模型評估的功能特點如下:[0044]模型的評估，即計算7個行為特征模型的異常得分，并最終將這個7個值采用一定的算法整合為一個值，即該條消息的異常得分。
[0045]> 7個特征模型異常得分的計算:
[0046]在一般情況下，當一個消息的必要模型中的特征值沒有出現(xiàn)在用戶的信息流中，或者特征值出現(xiàn)的次數(shù)與M中的鍵值對不匹配，那么這個消息就是異常的。
[0047]對于必要模型的特征模型，消息的異常得分是通過如下方式計算的:
[0048]1、首先要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個元素的鍵值對，那么就可以從M中提取整個鍵值對。如果M中不存在以fv為第一個值的鍵值對，那么這個消息就是異常的，那么程序在這里就會返回異常得分I。
[0049]2、第二步，根據(jù)用戶的行為輪廓分析fv是否是異常的。c和M進行比較，基于公式:
【權(quán)利要求】
1.一種社交網(wǎng)用戶異常行為的分析方法，可以檢測目標社交網(wǎng)站(人人網(wǎng)、微博等)存在的異常事件，包括盜取帳號發(fā)廣告、發(fā)布惡意鏈接、網(wǎng)絡(luò)“灌水”、騙取社交好友錢財?shù)鹊?。其特征在于，基于網(wǎng)絡(luò)爬蟲技術(shù)獲取用戶行為數(shù)據(jù)，將這些數(shù)據(jù)作為用戶行為分析的基礎(chǔ)，對用戶發(fā)布的消息進行建模和訓(xùn)練，提取出用戶的行為輪廓，根據(jù)用戶的行為輪廓評估新消息是否異常，當檢測到異常事件時發(fā)出告警。該方法主要由三個功能單元組成，即數(shù)據(jù)獲取、分析檢測和異常報警，其中: 數(shù)據(jù)獲取，旨在獲取到社交網(wǎng)中用戶的Deep Web數(shù)據(jù)，即用戶發(fā)布和分享的狀態(tài)、日志，鏈接等數(shù)據(jù)，這些數(shù)據(jù)需要采用網(wǎng)絡(luò)爬蟲方法對社交網(wǎng)絡(luò)進行深層網(wǎng)絡(luò)爬蟲，即基于在目標檢測社交網(wǎng)站注冊的有效登錄用戶帳號，采用該帳號登錄目標檢測網(wǎng)站從而獲取網(wǎng)站授權(quán)，爬取出用戶的Deep Web數(shù)據(jù)。分析檢測，根據(jù)數(shù)據(jù)獲取單元得到的用戶數(shù)據(jù)建立用戶行為模型，并對其進行訓(xùn)練和評估，然后對每個用戶的行為數(shù)據(jù)進行基于內(nèi)容的相似度分類，最后根據(jù)特定算法進行異常檢測。異常報警，當檢測到異常用戶時發(fā)生報警，提供短信發(fā)送和報警查詢功能。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)獲取功能單元，其特征在于:獲取該方法的分析基礎(chǔ)——社交網(wǎng)用戶數(shù)據(jù)，首先需要取得目標檢測社交網(wǎng)站的身份授權(quán)，然后采用網(wǎng)絡(luò)爬蟲技術(shù)獲得從登錄節(jié)點起始的所有具有查看權(quán)限的用戶種子集，針對該種子集可采用時間軸數(shù)據(jù)進行種子集中所有用戶數(shù)據(jù)的抓取，從爬取到的結(jié)果集中按照userid，userid即用戶唯一 ID號，再進行分析，獲得該userid對應(yīng)的用戶的所有新鮮事，可提取出該userid發(fā)布和分享的所有狀態(tài)、日志、鏈接等數(shù)據(jù)信息，然后對這些數(shù)據(jù)信息進行HTML文本解析和語言解析，解析后用以userid命名的文件形式輸出，文件內(nèi)容包括數(shù)據(jù)Id、發(fā)布時間、數(shù)據(jù)類型、內(nèi)容、語言類型、是否包含鏈接、鏈接地址等。
3.根據(jù)權(quán)利要求1所·述的分析檢測單元中用戶行為建模方法，其特征在于:通過用戶發(fā)布在社交網(wǎng)站上的消息流建立用戶的行為輪廓，而這些消息流正是數(shù)據(jù)獲取單元得到的輸出。針對社交網(wǎng)絡(luò)的特點和檢測的需要，對于每條消息，本單元設(shè)定7個特征，針對每個特征訓(xùn)練一個統(tǒng)計模型。每個模型都反應(yīng)該條消息某方面的特性，在對某用戶的所有消息分析完之后，可以得到該用戶在此7個方面的特征值，從而可預(yù)期該用戶發(fā)送的消息內(nèi)容。
4.根據(jù)權(quán)利要求3所述7種特征，其特征在于:7種特征對應(yīng)每條消息的7個特征模型，分別為消息發(fā)送的時間(hour/day)、發(fā)布消息的應(yīng)用程序、語言類型、話題、鏈接、用戶間交互和地理位置，并將此7種特征分為兩類: (1)必要模型是對于每一個消息都有一個特征值，并且這個特征值總是出現(xiàn)。默認特征包括消息發(fā)送的時間，消息源，鄰近的地理位置和消息語言。 (2)可選模型是指對于一個消息來說，該特征不一定總需要有值。同時，不同于必要模型的是，對于一個消息來說，這個特征可以對應(yīng)多個值?？蛇x模型，包括鏈接，用戶間交互和主題。例如，一個消息可能有O個，一個或者多個鏈接。對于每個可選模型，我們保留一個fv=null,并把這個特征值的“c”值提出(例如,沒有鏈接的消息數(shù))。fv指某特征值，c表示fv出現(xiàn)的消息個數(shù)。
5.根據(jù)權(quán)利要求1所述分析檢測單元中用戶行為模型的訓(xùn)練和評估，其特征在于:對于模型的訓(xùn)練: 輸入是數(shù)據(jù)獲取單元爬取的一系列的消息(消息流)。對于每一個消息，提取上述7個特征，例如發(fā)送消息的源程序和消息中包含的鏈接。每一個特征模型用集合M來表示。M的每個元素是一個鍵值對元組<fV，c〉。fv是特征值(例如，英語的語言模型，或者鏈接模型example, com)。c表示fv值出現(xiàn)的消息個數(shù)。此外，每個模型都存儲訓(xùn)練消息的總數(shù)N。對于消息發(fā)送時間這個特征模型的訓(xùn)練稍有不同。具體來說就是，對于每個小時i，考慮與它相鄰的兩個小時。即，對于M的每個鍵值對<i，CiX—個新的計算變量C%用來計算第i個小時Ci發(fā)布消息的平均數(shù)，變量C^1用來存儲之前那個小時發(fā)送的消息數(shù)，Cf1用戶存儲第i小時之后的那個小時發(fā)送的消息數(shù)。當計算出C’ i，就用它來代替鍵值對<i，Ci)中的C” 對于模型的評估: 即計算一條消息的異常得分，看這條消息是否不符合用戶的行為輪廓。對于的特征模型，消息的異常得分是通過如下方式計算的: (1)首先必要模型要從消息中提取待分析特征模型的fv值。如果M中包含以fv作為第一個元素的鍵值對，那么就可以從M中提取整個鍵值對。如果M中不存在以fv為第一個值的鍵值對，那么這個消息就是異常的，那么程序在這里就會返回異常得分I。 (2)根據(jù)用戶的行為輪廓分析fv是否是異常的。c和巧進行比較，基于公式:
6.根據(jù)權(quán)利要求1所述分析檢測單元中基于內(nèi)容的相似度分類，其特征在于:所述分析檢測單元中基于內(nèi)容的相似度分類，帳號異常檢測需要進行基于內(nèi)容的相似度分析的原因是基于這樣一個事實:釣魚、詐騙等消息是需要大量傳播的。所以當只有一條消息被判定為異常時，并不認為其對應(yīng)帳號發(fā)生異常，需要進一步觀察更多的其他類似消息，只有類似消息達到一定數(shù)量時，才認定發(fā)送這些消息的帳號為異常帳號。內(nèi)容相似度的計算有兩種方法:一是文本內(nèi)容相似度；二是包含的URL相似度。
7.根據(jù)權(quán)利要求1所述分析檢測單元中異常檢測，其特征在于:主要檢測兩類異常:一是受侵害的可疑用戶群組；二是非受侵害的可疑用戶或應(yīng)用。它們的不同之處在于:前者存在正常的用戶行為輪廓，之后發(fā)布了大量相似的消息；后者從頭到尾都在發(fā)布大量相似的消息。數(shù)據(jù)獲取單元得到的是一定時間間隔的用戶數(shù)據(jù)，因而在分析檢測單元中，基于內(nèi)容分類的消息也是在一定時間間隔內(nèi)的。這每個時間間隔內(nèi)的數(shù)據(jù)叫做一個分組。對于每個分組，本方法檢查所有用戶帳戶的消息是否違反了其用戶行為輪廓。基于這樣的分析，就能檢測出一個賬戶是否是異常的。異常帳號檢測的規(guī)則是:每個分組中只要有消息的個人行為模型異常評分超過一定閥值，就判定這個分組為異常消息組，則其中所有消息對應(yīng)的帳號為異常帳號。閥值的計算方式為:
th (n) =max (0.1, kn+d) 其中η為分組數(shù)量，通過實驗得到當k=-0.005, d=0.82時結(jié)果最準確。由公式可知，分組規(guī)模小的異常消息判定閥值較高，分組規(guī)模大的閥值較低。
8.根據(jù)權(quán)利要求1所述的異常報警單元，其特征在于:所述報警單元提供報警提示和報警查詢兩種服務(wù)，并提供三種調(diào)用方式——Curl, Thrift和Json方式。其中，報警提示以發(fā)送短信的方式提供?！?br> 【文檔編號】G06F17/30GK103853841SQ201410101728
【公開日】2014年6月11日申請日期:2014年3月19日優(yōu)先權(quán)日:2014年3月19日
【發(fā)明者】閆丹鳳, 吳海莉, 徐佳申請人:北京郵電大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：閆丹鳳;吳海莉;徐佳
技術(shù)所有人：北京郵電大學
我是此專利的發(fā)明人

上一篇：一種體感游戲機及其體感游戲的登錄方法和裝置制造方法
上一篇：曲線圖顯示裝置以及曲線圖顯示方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

社交網(wǎng)絡(luò)用戶行為分析相關(guān)技術(shù)

2016社交用戶行為分析相關(guān)技術(shù)

社交媒體用戶行為分析相關(guān)技術(shù)

異常用戶行為分析模型相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種社交網(wǎng)用戶異常行為的分析方法