日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法

文檔序號:39710654發(fā)布日期:2024-10-22 12:56閱讀:2來源:國知局
一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法

(一)本發(fā)明涉及主題建模,具體是一種以關(guān)鍵詞圖為基礎(chǔ)的專屬主題檢測方法。


背景技術(shù):

0、(二)背景技術(shù)

1、在21世紀(jì),社交媒體具有龐大的用戶量且海量的社交網(wǎng)絡(luò)數(shù)據(jù)也隨著產(chǎn)生,它們滲透在人們的生活中的方方面面,這種對社交網(wǎng)絡(luò)服務(wù)的廣泛使用引發(fā)了關(guān)于社交媒體數(shù)據(jù)的研究。雖然人們享受了社交網(wǎng)絡(luò)帶來的便利性,但是在海量數(shù)據(jù)中很難發(fā)現(xiàn)每個時刻中主干信息中潛在的異常細(xì)微變化。通過局部專屬主題檢測,可以幫助人們更加清晰地了解到在數(shù)據(jù)流中熱門的主題或事件在每個時隙的細(xì)微變化。

2、主題檢測(topic?detection)本質(zhì)在于從文檔集合中發(fā)現(xiàn)隱藏的主題,每個主題用一組語義關(guān)聯(lián)的詞語進(jìn)行解釋。近些年,基于社交媒體的主題檢測研究不斷發(fā)展。為了增強(qiáng)主題模型的性能,(enriching?tweets?for?topic?modeling?via?linking?to?thewikipedia)將推文合并為長文檔,并連接到維基百科使用lda用于進(jìn)行潛在主題發(fā)現(xiàn)。在將推文合并為長文本的過程中,利用推文名稱實體識別對推文進(jìn)行分類和提取實體。然后將每個推文的實體與維基百科結(jié)合,構(gòu)建一個新的推文數(shù)據(jù)集;(micro-blog?topicdetection?method?based?on?btm?topic?model?and?k-means?clustering?algorithm)設(shè)計了k-means聚類和btm的混合模型,用于噪聲較小的微博主題檢測;(sensing?trendingtopics?in?twitter?for?greater?jakarta?area)利用nmf在特定城市附近的推特上檢測該城市的趨勢主題;(topic?extraction?method?using?red-nmf?algorithm?fordetecting?outbreak?of?some?disease?on?twitter)開發(fā)了一種基于nmf的正則表達(dá)式發(fā)現(xiàn)(red)算法,用于推特上的疾病爆發(fā)主題提??;這些主題檢測模型基于傳統(tǒng)的主題檢測模型lda、btm和nmf來改進(jìn)以實現(xiàn)在社交媒體中的信息提取,并結(jié)合其他技術(shù)使得模型能夠從更高層次的語義信息中提取主題。

3、然而,很少有工作關(guān)注時隙內(nèi)的局部專屬細(xì)節(jié)信息和特征。相較于全域主題檢測,局部專屬主題檢測需要先完成局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)的建模和全域主題相關(guān)數(shù)據(jù)的跟蹤,再通過全域圖與當(dāng)前局部圖之間的差運(yùn)算,得到當(dāng)前時隙的局部專屬關(guān)系矩陣。為了完成數(shù)據(jù)流中與主干相關(guān)的局部專屬細(xì)節(jié)信息提取,在數(shù)據(jù)流中跟蹤局部變化,并發(fā)現(xiàn)局部專屬主題。本發(fā)明通過關(guān)鍵詞圖來建模局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)以及跟蹤全域主題相關(guān)數(shù)據(jù),并利用正交投影的方法來更好得完成局部專屬主題相關(guān)數(shù)據(jù)結(jié)構(gòu)建模,提出了exbtm來完成局部專屬主題語義提取。


技術(shù)實現(xiàn)思路

0、(三)
技術(shù)實現(xiàn)要素:

1、本發(fā)明的技術(shù)內(nèi)容如下:

2、步驟一、將整個時間軸按照固定時間長度的時隙進(jìn)行劃分,并在此基礎(chǔ)上進(jìn)一步按照固定數(shù)據(jù)量在時隙內(nèi)設(shè)置分段時間步長。

3、步驟二、在每個時隙內(nèi)對短文本數(shù)據(jù)進(jìn)行預(yù)處理,提取數(shù)據(jù)中的關(guān)鍵詞、詞頻及共現(xiàn)關(guān)系等信息。

4、步驟三、將當(dāng)前時隙新到達(dá)的數(shù)據(jù)使用關(guān)鍵詞圖進(jìn)行局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)建模。得到當(dāng)前時隙的關(guān)鍵詞圖和對應(yīng)的關(guān)系矩陣wt。

5、步驟四、引入一個全域關(guān)系矩陣wst來對全域主題相關(guān)數(shù)據(jù)進(jìn)行跟蹤。基于步驟三,把每個新到達(dá)的局部關(guān)系矩陣加權(quán)融合到全域關(guān)系矩陣當(dāng)中。

6、步驟五、引入一個參數(shù)λ,其中0≤λ≤1。將局部關(guān)系矩陣劃分為可解釋部分λwt和不可解釋部分(1-λ)wt。

7、步驟六、使用格拉姆-斯密特方法得到的一組wst的正交基{u1,…,un},用于表示wst的子空間。

8、步驟七、使用vi表示矩陣wt中的向量,計算vi在矩陣wst的子空間中的正交投影

9、步驟八、為了保證投影可以合理解釋向量vi,引入一個參數(shù)ξ,ξ的取值為λvi和之間除0之外對應(yīng)元素之間比值的最小值。使用ri表示wt的每個向量vi與它在矩陣wst的子空間中的正交投影進(jìn)行等比例相減后的結(jié)果。

10、步驟九、引入一個殘差矩陣rc表示wt和全域關(guān)系矩陣wst等比例相減后的剩余部分。將步驟八中得到的結(jié)果存儲到rc中。

11、步驟十、為了保存局部專屬數(shù)據(jù)的結(jié)果,引入一個矩陣wex,將不可解釋部分(1-λ)wt和殘差矩陣rc合并的結(jié)果存儲到wex中。

12、步驟十一、將步驟十得到的局部專屬關(guān)系矩陣wex輸入到exbtm模型中,提取局部專屬主題語義。

13、本發(fā)明的有益效果為:

14、本發(fā)明利用關(guān)鍵詞圖來進(jìn)行局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)的建模和全域主題相關(guān)數(shù)據(jù)的跟蹤,可以實時將短文本數(shù)據(jù)流中的數(shù)據(jù)建模成圖的形式。將局部關(guān)系矩陣和全域關(guān)系矩陣進(jìn)行加減操作完成局部專屬主題建模,可以保留與全域主題相關(guān)的內(nèi)容,也能夠突出局部專屬的細(xì)節(jié)特征。



技術(shù)特征:

1.本發(fā)明公開了一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法,其主要包括:按照固定時間長度進(jìn)行時隙劃分,在時隙內(nèi)按照固定數(shù)據(jù)量設(shè)定時間步長,并對時隙內(nèi)獲取的數(shù)據(jù)進(jìn)行預(yù)處理,并構(gòu)建關(guān)鍵詞圖。對每個時隙內(nèi)的短文本數(shù)據(jù)進(jìn)行局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)建模;將歷史數(shù)據(jù)進(jìn)行老化處理,并與當(dāng)前時隙數(shù)據(jù)加權(quán)融合實現(xiàn)全域主題相關(guān)數(shù)據(jù)的跟蹤。接下來,基于當(dāng)前時隙的關(guān)鍵詞圖和全域關(guān)鍵詞圖,得到對應(yīng)的關(guān)系矩陣,結(jié)合關(guān)系矩陣進(jìn)行全域圖與當(dāng)前局部圖之間的差運(yùn)算,得到當(dāng)前時隙的局部專屬關(guān)系矩陣;在局部專屬關(guān)系矩陣基礎(chǔ)上,通過吉布斯采樣提取局部專屬主題。

2.根據(jù)權(quán)利要求1所述的一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法,其特征在于:使用關(guān)鍵詞圖可以實時進(jìn)行局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)的建模。通過不斷地跟隨時間線加權(quán)融合局部關(guān)鍵詞圖,完成全域主題相關(guān)數(shù)據(jù)的跟蹤,可以記錄整個時間軸上的全域詞共現(xiàn)關(guān)系。通過局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)的建模和全域主題相關(guān)數(shù)據(jù)的跟蹤,全域圖與當(dāng)前局部圖之間的差運(yùn)算,得到當(dāng)前時隙的局部專屬關(guān)系矩陣,可以很好地實時跟蹤數(shù)據(jù)流中的局部變化,并發(fā)現(xiàn)局部專屬主題。

3.根據(jù)權(quán)利要求1所述的一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法,其特征在于:利用正交投影的方法來更好得完成局部專屬主題相關(guān)數(shù)據(jù)結(jié)構(gòu)建模。通過獲取數(shù)據(jù)流中熱門的主題或事件在每個時隙的具體細(xì)節(jié),可以實時發(fā)現(xiàn)主干信息中潛在的異常細(xì)微變化。


技術(shù)總結(jié)
通過獲取數(shù)據(jù)流中熱門的主題或事件在每個時隙的具體細(xì)節(jié),可以更好地知曉事件在社交媒體中的發(fā)展過程。在此,本發(fā)明公開了一種基于短文本數(shù)據(jù)流的局部專屬主題檢測方法,其主要包括:按照固定時間長度進(jìn)行時隙劃分,在時隙內(nèi)按照固定數(shù)據(jù)量設(shè)定時間步長,并對時隙內(nèi)獲取的數(shù)據(jù)進(jìn)行預(yù)處理,并構(gòu)建關(guān)鍵詞圖。對每個時隙內(nèi)的短文本數(shù)據(jù)進(jìn)行局部主題相關(guān)數(shù)據(jù)結(jié)構(gòu)建模;將歷史數(shù)據(jù)進(jìn)行老化處理,并與當(dāng)前時隙數(shù)據(jù)加權(quán)融合實現(xiàn)全域主題相關(guān)數(shù)據(jù)的跟蹤。接下來,基于當(dāng)前時隙的關(guān)鍵詞圖和全域關(guān)鍵詞圖,得到對應(yīng)的關(guān)系矩陣,結(jié)合關(guān)系矩陣進(jìn)行全域圖與當(dāng)前局部圖之間的差運(yùn)算,得到當(dāng)前時隙的局部專屬關(guān)系矩陣;最后提出了ExBTM,在詞之間相互關(guān)系基礎(chǔ)上通過吉布斯采樣提取局部專屬主題。本發(fā)明致力于局部專屬信息的跟蹤,并通過引入關(guān)鍵詞圖結(jié)合ExBTM來檢測數(shù)據(jù)流中與主干信息相關(guān)的局部專屬細(xì)節(jié)的局部專屬主題。

技術(shù)研發(fā)人員:朱創(chuàng)營,俞斌超
受保護(hù)的技術(shù)使用者:桂林電子科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1