大規(guī)模文本分類的方法

文檔序號：8282404閱讀：272來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

大規(guī)模文本分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，更具體地涉及集成學(xué)習(xí)以及大規(guī)模文本分類的方法。
【背景技術(shù)】
[0002] 文本分類（Text categorization)是指在給定分類體系下，根據(jù)文本內(nèi)容自動(dòng)確定文本類別的過程，按預(yù)先指定的標(biāo)準(zhǔn)對文檔進(jìn)行歸類這樣用戶不僅可以方便地瀏覽文檔而且可以通過類別來查詢所需的文檔，20世紀(jì)90年代以前，占主導(dǎo)地位的文本分類方法一直是基于知識工程的分類方法，即由專業(yè)人員手工進(jìn)行分類。人工分類非常費(fèi)時(shí)，效率非常低。90年代以來，眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng)文本分類，文本分類技術(shù)的研宄引起了研宄人員的極大興趣。目前在國內(nèi)也已經(jīng)開始對中文文本分類進(jìn)行研宄，并在信息檢索、Web文檔自動(dòng)分類、數(shù)字圖書館、自動(dòng)文摘、分類新聞組、文本過濾、單詞語義辨析以及文檔的組織和管理等多個(gè)領(lǐng)域得到了初步的應(yīng)用。
[0003] 文本分類的研宄可以追溯到上世紀(jì)六十年代，早期的文本分類主要是基于知識工程（Knowledge Engineering)，通過手工定義一些規(guī)則來對文本進(jìn)行分類，這種方法費(fèi)時(shí)費(fèi) 力，且必須對某一領(lǐng)域有足夠的了解，才能寫出合適的規(guī)則。到上世紀(jì)九十年代，隨著網(wǎng)上在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起，大規(guī)模的文本（包括網(wǎng)頁）分類和檢索重新引起研宄者的興趣。文本分類系統(tǒng)首先通過在預(yù)先分類好的文本集上訓(xùn)練，建立一個(gè)判別規(guī)則或分類器，從而對未知類別的新樣本進(jìn)行自動(dòng)歸類。大量的結(jié)果表明它的分類精度比得上專家手工分類的結(jié)果，并且它的學(xué)習(xí)不需要專家干預(yù)，能適用于任何領(lǐng)域的學(xué)習(xí)，使得它成為目前文本分類的主流方法。
[0004] 但由于近年數(shù)據(jù)集規(guī)模逐漸增大，使得計(jì)算機(jī)處理大規(guī)模數(shù)據(jù)信息的時(shí)間成本急速增加，而現(xiàn)有的分類方法更多側(cè)重于分類精度的提高，對大規(guī)模文本分類不能很好地解決。因此人們開始嘗試將集成學(xué)習(xí)框架應(yīng)用于分類算法之中，應(yīng)用多分類器共同工作和共同決策的方法分擔(dān)大規(guī)模數(shù)據(jù)的工作量，以擴(kuò)大傳統(tǒng)分類方法的應(yīng)用范圍，提高分析大規(guī) 模數(shù)據(jù)的效率，但仍然存在擴(kuò)展性的問題，難以滿足大規(guī)模文本分類的要求。
[0005] 目前將集成學(xué)習(xí)框架應(yīng)用于大規(guī)模文本分類的研宄并不多，現(xiàn)有技術(shù)中，期干U''（IJCSIS) International Journal of Computer Science and Information Security, Vol. 12, No. 8, August 2014" 2014 年 8 月出版的第 12 期第 8 卷中的由 Ahmad Basheer Hassanat，Mohammad Ali Abbadij
[0006] Ghada Awad Altarawneh，Karak，Jordan 所著的論文 "Solving the Problem of the K Parameter in the KNN Classifier Using an Ensemble Learning Approach 中提出了應(yīng)用集成學(xué)習(xí)方法解決KNN分類器中K值的問題。其中，將集成學(xué)習(xí)方法引入文本分類，很好的在傳統(tǒng)KNN分類方法上（圖1)，實(shí)現(xiàn)了多個(gè)不同K值的KNN分類器同時(shí)對待測樣本進(jìn)行決策的功能。具體地，該方法針對不同的待測樣本的向量信息，選取距離樣本最近的士個(gè)樣本作為子集，同時(shí)對不同K值的KNN分類器給與不同的權(quán)重對待測樣本進(jìn)行決策，以權(quán)重最大的類別作為結(jié)果輸出（圖2)。
[0007] 上述方法雖然將集成學(xué)習(xí)應(yīng)用于文本分類之中，但是它在擴(kuò)展度上仍然有局限性，和現(xiàn)有的算法類似，其目的是提高決策結(jié)果的精度，并不能使現(xiàn)有方法在處理數(shù)據(jù)的規(guī) 模上得到強(qiáng)化。在實(shí)際應(yīng)用中，大規(guī)模文本數(shù)據(jù)會(huì)對該方法有很大的影響，例如該方法針對大量待測樣本時(shí)，運(yùn)算非常耗時(shí)。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明是鑒于以上所述的一個(gè)或多個(gè)問題做出的。
[0009] 本發(fā)明提出了一種大規(guī)模文本分類的方法，其特征在于步驟如下：
[0010] 步驟1 :將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù)：
[0011] 將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF向量數(shù)據(jù)，使文本數(shù)據(jù)成為多維向量數(shù)據(jù)；
[0012] 步驟2 :分割大規(guī)模文本數(shù)據(jù)集為子集；
[0013] 步驟3 :以分布式計(jì)算方法訓(xùn)練子分類器：
[0014] 根據(jù)樣本分割結(jié)果，以各個(gè)子集分別訓(xùn)練各自的子分類器；
[0015] 步驟4 :選擇分類器處理待測樣本：
[0016] 根據(jù)測試樣本的向量數(shù)據(jù)，選取所需的子分類器對測試樣本進(jìn)行分類；
[0017] 步驟5 :多個(gè)子分類器共同決策：
[0018] 這是集成學(xué)習(xí)方法在大規(guī)模文本分類中的應(yīng)用，為實(shí)現(xiàn)兼顧精度的大規(guī)模文本分類，通過構(gòu)建具有大差異性的多個(gè)子分類器，并實(shí)現(xiàn)多個(gè)子分類器對測試樣本共同決策。
[0019] 步驟2中依據(jù)每個(gè)樣本的向量數(shù)據(jù)，計(jì)算樣本間距，不斷將相互間距小的樣本合并生成子集，當(dāng)子集中的樣本數(shù)目大于λ m后，將子集分割成為樣本數(shù)量不少于m的數(shù)個(gè)子集；其中λ，m為整數(shù)，λ取值為1?3, m取值大于1000。
[0020] 訓(xùn)練過程采用分布式計(jì)算的方式，由多臺電腦同時(shí)負(fù)責(zé)子分類器的訓(xùn)練，提高了大規(guī)模文本數(shù)據(jù)集訓(xùn)練分類器的效率。對于訓(xùn)練子分類器的算法，并不局限一種特定的算法，現(xiàn)有的文本分類算法如SVM, KNN, NB等算法均可適用于本分類系統(tǒng)。
[0021] 步驟4中具體如下：當(dāng)測試樣本D進(jìn)行分類時(shí)，首先通過D的向量信息，選取距離 D最近的數(shù)個(gè)（3-5個(gè)）子集所對應(yīng)的子分類器，組成子分類器集合距離計(jì)算公式為
【主權(quán)項(xiàng)】
1. 一種大規(guī)模文本分類的方法，其特征在于步驟如下：步驟1;將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù)：將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF向量數(shù)據(jù)，使文本數(shù)據(jù)成為多維向量數(shù)據(jù)；步驟2 ;分割大規(guī)模文本數(shù)據(jù)集為子集；步驟3 分布式計(jì)算方法訓(xùn)練子分類器：根據(jù)樣本分割結(jié)果，W各個(gè)子集分別訓(xùn)練各自的子分類器；步驟4 ;選擇分類器處理待測樣本：根據(jù)測試樣本的向量數(shù)據(jù)，選取所需的子分類器對測試樣本進(jìn)行分類；步驟5 ;多個(gè)子分類器共同決策：該是集成學(xué)習(xí)方法在大規(guī)模文本分類中的應(yīng)用，為實(shí)現(xiàn)兼顧精度的大規(guī)模文本分類，通過構(gòu)建具有大差異性的多個(gè)子分類器，并實(shí)現(xiàn)多個(gè)子分類器對測試樣本共同決策。
2. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法，其特征在于：步驟2中依據(jù)每個(gè)樣本的向量數(shù)據(jù)，計(jì)算樣本間距，不斷將相互間距小的樣本合并生成子集，當(dāng)子集中的樣本數(shù) 目大于Am后，將子集分割成為樣本數(shù)量不少于m的數(shù)個(gè)子集；其中A，m為整數(shù)，A取值為1?3, m取值大于1000。
3. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法，其特征在于：步驟3中訓(xùn)練子分類器的算法為SVM，KNN或NB。
4. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法，其特征在于：步驟4中當(dāng)測試樣本D 進(jìn)行分類時(shí)，首先通過D的向量信息，選取距離D最近的數(shù)個(gè)子集所對應(yīng)的子分類器，組成子分類器集合距離計(jì)算公式為
之后選取子分類器與D的夾角余弦最小的1-2個(gè)子分類器加入集合M ;然后對M中的各子分類器給予不同的權(quán)重，權(quán)重依據(jù)子集與D的距離而定，w(i) =E d(i)/d(i)，W為權(quán) 重，d為距離，i為M中的子分類器序號，之后使用M中的各子分類器對D進(jìn)行分類，投票決策結(jié)果取決于各分類器對待測樣本的分類結(jié)果的權(quán)重和，將結(jié)果按照類別，把權(quán)重相加，取權(quán)重最大的類別作為待測樣本的結(jié)果。
【專利摘要】大規(guī)模文本分類的方法涉及計(jì)算機(jī)領(lǐng)域，為實(shí)現(xiàn)兼顧精度的大規(guī)模學(xué)習(xí)，需要通過構(gòu)建具有最大差異性的多個(gè)分類器及實(shí)現(xiàn)多個(gè)分類器的高效集成決策來實(shí)現(xiàn)。該大規(guī)模文本分類的方法包括：將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù)，分割大規(guī)模文本數(shù)據(jù)集為子集；以分布式計(jì)算的方法使用子集訓(xùn)練子分類器；選擇分類器；對待測樣本進(jìn)行分類，實(shí)現(xiàn)多分類器共同決策。本發(fā)明將集成學(xué)習(xí)框架應(yīng)用于大規(guī)模文本分類上，可以使現(xiàn)有的分類方法適用于大規(guī)模文本分類，提高分類效率。
【IPC分類】G06K9-62, G06F17-30
【公開號】CN104598586
【申請?zhí)枴緾N201510024552
【發(fā)明人】趙旭, 李建強(qiáng), 桂琪, 亢陽陽, 孫靖超, 田猛
【申請人】北京工業(yè)大學(xué)
【公開日】2015年5月6日
【申請日】2015年1月18日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：趙旭;李建強(qiáng);桂琪;亢陽陽;孫靖超;田猛;
技術(shù)所有人：北京工業(yè)大學(xué);
我是此專利的發(fā)明人

上一篇：發(fā)票真?zhèn)尾樵兎椒ê拖到y(tǒng)的制作方法
上一篇：信息搜索方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本分類的方法相關(guān)技術(shù)

文本分類方法相關(guān)技術(shù)

文本分類特征選擇方法相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

大規(guī)模文本分類的方法