日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法

文檔序號:9687526閱讀:965來源:國知局
一種產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法
【技術領域】
[0001] 本發(fā)明屬于數(shù)據(jù)庫技術領域,尤其涉及一種產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方 法。
【背景技術】
[0002] 隨著社會信息化程度的持續(xù)加深和Web2. 0技術的不斷發(fā)展,社交媒體(Social Media)逐漸盛行,并在人類生活中發(fā)揮著越來越重要的作用。同時,社交媒體上的數(shù)據(jù)也呈 現(xiàn)指數(shù)級的擴增趨勢。
[0003] 社交媒體的用戶達到數(shù)億規(guī)模,送些海量用戶可W在社交媒體上創(chuàng)建消息(即微 博),送就產(chǎn)生了大量半結(jié)構(gòu)化或無結(jié)構(gòu)化的用戶生成數(shù)據(jù),因此送些數(shù)據(jù)具有數(shù)據(jù)量大、 數(shù)據(jù)復雜和非結(jié)構(gòu)化等特點。同時,送些龐大的數(shù)據(jù)也為社會科學家和必理學家研究用戶 的行為提供來源。因此,有效的管理和挖掘社交媒體數(shù)據(jù)不論在學術界還是工業(yè)界都是一 項挑戰(zhàn)。
[0004] 社交媒體數(shù)據(jù)是實質(zhì)上是一系列非結(jié)構(gòu)化的時序的信息。此外,由于轉(zhuǎn)發(fā)和回復 機制的存在,送些信息是可W鏈接的,也就是說一條信息可W轉(zhuǎn)發(fā)或回復另一條信息。因 此,社交媒體的管理和分析就是用一些相關的簡單模型處理送些時序化數(shù)據(jù)的過程。
[0005] 伴隨著社交媒體的興盛與發(fā)展,越來越多的應用出現(xiàn)在社交媒體平臺上。高效 的管理和分析社交媒體數(shù)據(jù)變成社交媒體應用取得成功的基石。基準測試則是作為衡量 系統(tǒng)性能的重要手段。目前,已經(jīng)存在一些用來比較和衡量送些技術或系統(tǒng)的基準,例如 Linke地ench和BSMA。為了更加有效的測試送些技術,我們需要一個能夠靈活的、有效的、 產(chǎn)生"真實的"數(shù)據(jù)的生成器。同時,送樣的數(shù)據(jù)生成器還可W幫助我們更好的了解人們在 社交媒體中的集體行為,例如,利用數(shù)據(jù)生成器產(chǎn)生的數(shù)據(jù)與真實的數(shù)據(jù)進行比較,從而驗 證送個數(shù)據(jù)生成器背后的假設是否正確等。
[0006] 現(xiàn)有的生成數(shù)據(jù)技術并不能直接應用到社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的生成,由于產(chǎn) 生的數(shù)據(jù)模型不同,相似工作中缺少轉(zhuǎn)發(fā)信息,并且不能夠靈活的產(chǎn)生時間軸數(shù)據(jù)。為了能 夠靈活的、有效的產(chǎn)生"真實的"社交媒體時間軸結(jié)構(gòu)數(shù)據(jù),本發(fā)明提出了一種產(chǎn)生社交媒 體時間軸結(jié)構(gòu)數(shù)據(jù)的方法。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明公開了一種產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法,包括W下步驟:
[0008] 信息預處理步驟;針對某一用戶在社交媒體中發(fā)布和轉(zhuǎn)發(fā)的微博信息建立模型, 該模型用于模擬下一條微博信息的發(fā)布時間,W及確定每條微博信息為所述用戶轉(zhuǎn)發(fā)的微 博信息或者由所述用戶發(fā)布的被他人轉(zhuǎn)發(fā)的微博信息;
[0009] 框架構(gòu)建步驟:構(gòu)建由第一緩沖池和第二緩沖池構(gòu)成的框架,所述框架利用所述 模型模擬每一個用戶的下一條微博信息的發(fā)布時間,W及確定每條微博信息為轉(zhuǎn)發(fā)的微博 信息或者被他人轉(zhuǎn)發(fā)的微博信息,所述第一緩沖池用于緩存當前時間之后的下一條微博, 所述第二緩沖池用于存儲當前時間之前的歷史微博信息,通過更新和維護所述第一緩沖池 和所述第二緩沖池來建立微博信息的索引;
[0010] 數(shù)據(jù)生成步驟:將所述框架配置到社交媒體的系統(tǒng)中,利用所述框架為所述系統(tǒng) 中的微博信息建立時間軸結(jié)構(gòu)數(shù)據(jù);
[0011] 其中,所述時間軸構(gòu)建步驟包括:1)將下一條微博信息存入所述第一緩沖池;2) 從所述第一緩沖池中移除發(fā)布時間最早的微博信息,若所述微博信息為轉(zhuǎn)發(fā)的微博信息, 則獲取被轉(zhuǎn)發(fā)的源微博信息及其轉(zhuǎn)發(fā)信息組成完整的微博信息;3)將所述微博信息存入 所述第二緩沖池中,所述第二緩沖池將超出給定時間窗口的微博信息轉(zhuǎn)移至存儲設備,并 建立索引。
[0012] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,在所述信息預處理步 驟中,利用非齊次泊松過程模擬下一條微博信息的發(fā)布時間,所述非齊次泊松過程包括如 下步驟:步驟al ;統(tǒng)計一時間區(qū)間內(nèi)用戶發(fā)布微博信息的總數(shù),求得用戶發(fā)送微博信息的 平均速率;步驟a2 ;將時間區(qū)間劃分為兩個W上時間段,統(tǒng)計用戶在每個時間段內(nèi)發(fā)布微 博信息的頻率參數(shù),記為時間調(diào)整函數(shù);步驟a3 ;結(jié)合所述平均速率和時間調(diào)整函數(shù)及其 頻率參數(shù),利用相乘運算模擬出下一條微博信息的發(fā)布時間。
[0013] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,在所述時間軸構(gòu)建步 驟中,獲取所述轉(zhuǎn)發(fā)信息包括如下步驟:步驟bl ;獲取被用戶轉(zhuǎn)發(fā)的由他人所發(fā)布的源微 博信息;步驟b2 ;設定一個初始的時間范圍,利用所述時間范圍縮小所述源微博信息,根據(jù) 轉(zhuǎn)發(fā)延遲分布利用逆變換確定一個時間延遲,從而確定所述時間范圍;步驟b3 ;利用概率 值確定所述源微博信息的轉(zhuǎn)發(fā)信息,所述概率值W如下公式表示:
[0014]
[0015] 其中,m表示用戶發(fā)布的微博信息,η表示被轉(zhuǎn)發(fā)的源微博信息,P(m - η)是m轉(zhuǎn) 發(fā)η的概率值,D (η)表示用戶的微博信息m被發(fā)布時源微博信息η被轉(zhuǎn)發(fā)的數(shù)量,F(xiàn)'。表 示經(jīng)時間范圍縮小的源微博信息,i表示F'。中任一微博。
[0016] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,所述社交媒體的系統(tǒng) 為分布式架構(gòu)的文件系統(tǒng),在所述數(shù)據(jù)生成步驟中,建立一個主節(jié)點和多個從屬節(jié)點W適 應于所述分布式架構(gòu)的文件系統(tǒng)和產(chǎn)生高吞吐量數(shù)據(jù);所述主節(jié)點用于將社交媒體中的分 區(qū)指定給所述從屬節(jié)點,所述從屬節(jié)點利用所述框架對所述分區(qū)中用戶的微博信息建立局 部時間軸數(shù)據(jù),所述主節(jié)點通過合并各個從屬節(jié)點的局部時間軸數(shù)據(jù),生成所述時間軸結(jié) 構(gòu)數(shù)據(jù)。
[0017] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,在所述數(shù)據(jù)生成步驟 中,當從屬節(jié)點中的微博信息為轉(zhuǎn)發(fā)的微博信息且其轉(zhuǎn)發(fā)信息不在所屬分區(qū)時,通知所述 主節(jié)點,由所述主節(jié)點指定與轉(zhuǎn)發(fā)信息對應的從屬節(jié)點進行確定轉(zhuǎn)發(fā)信息的任務,并將確 定的轉(zhuǎn)發(fā)信息返回至所述主節(jié)點中,所述主節(jié)點利用所述轉(zhuǎn)發(fā)信息補全所述轉(zhuǎn)發(fā)的微博信 息。
[0018] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,在所述數(shù)據(jù)生成步驟 中,使用異步模型W處理所述分布式架構(gòu)的文件系統(tǒng)的數(shù)據(jù),所述異步模型是指:當本地的 從屬節(jié)點處理的一條微博信息需要從其他節(jié)點上遠程確定其轉(zhuǎn)發(fā)信息指針時,所述本地的 從屬節(jié)點將確定指針的任務發(fā)送到相應的遠程的從屬節(jié)點中,所述本地的從屬節(jié)點不產(chǎn)生 中斷W等待與遠程的從屬節(jié)點的數(shù)據(jù)交互,而是繼續(xù)處理下一條微博信息。
[0019] 本發(fā)明提出的所述產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的方法中,在所述數(shù)據(jù)生成步驟 中,使用延遲更新策略W處理所述分布式架構(gòu)的文件系統(tǒng)的數(shù)據(jù),所述延遲更新策略是指; 當所述從屬節(jié)點確定一條微博信息的轉(zhuǎn)發(fā)信息,且所述微博信息的發(fā)布時間晚于所述從屬 節(jié)點產(chǎn)生下一條微博信息的發(fā)布時間時,所述從屬節(jié)點繼續(xù)產(chǎn)生下一條微博信息,直到所 述微博信息的發(fā)布時間等于或早于所述從屬節(jié)點產(chǎn)生下一條微博信息的發(fā)布時間時,所述 從屬節(jié)點才利用單節(jié)點確定指針來確定一條微博信息的轉(zhuǎn)發(fā)信息。
[0020] 本發(fā)明中:
[0021] 完整的微博信息是指:利用一個Η元組<t,u,f〉,t表示該微博的發(fā)布時間,U是送 條微博的發(fā)布者,f是一個指針,當該微博為原始微博時,f為空,當該微博為轉(zhuǎn)發(fā)微博時,f 指向轉(zhuǎn)發(fā)信息。
[0022] 不完整的微博信息是指;相對于上述Η元組而言,缺少指針信息的微博信息<t, U>〇
[0023] 轉(zhuǎn)發(fā)的微博信息是指;由某一用戶發(fā)布的微博信息m是在他人發(fā)布的微博信息η 的基礎上進行轉(zhuǎn)發(fā),則微博信息m為轉(zhuǎn)發(fā)的微博信息,微博信息η為被轉(zhuǎn)發(fā)的源微博信息。
[0024] 本發(fā)明的有益效果在于;能有效產(chǎn)生社交媒體時間軸結(jié)構(gòu)數(shù)據(jù)的框架,使用用戶 可配置數(shù)據(jù)參數(shù),該框架可部署
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1