日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

大規(guī)模文本分類的方法

文檔序號:8282404閱讀:272來源:國知局
大規(guī)模文本分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,更具體地涉及集成學(xué)習(xí)以及大規(guī)模文本分類的方法。
【背景技術(shù)】
[0002] 文本分類(Text categorization)是指在給定分類體系下,根據(jù)文本內(nèi)容自動(dòng)確 定文本類別的過程,按預(yù)先指定的標(biāo)準(zhǔn)對文檔進(jìn)行歸類這樣用戶不僅可以方便地瀏覽文檔 而且可以通過類別來查詢所需的文檔,20世紀(jì)90年代以前,占主導(dǎo)地位的文本分類方法一 直是基于知識工程的分類方法,即由專業(yè)人員手工進(jìn)行分類。人工分類非常費(fèi)時(shí),效率非常 低。90年代以來,眾多的統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法應(yīng)用于自動(dòng)文本分類,文本分類技術(shù)的研 宄引起了研宄人員的極大興趣。目前在國內(nèi)也已經(jīng)開始對中文文本分類進(jìn)行研宄,并在信 息檢索、Web文檔自動(dòng)分類、數(shù)字圖書館、自動(dòng)文摘、分類新聞組、文本過濾、單詞語義辨析以 及文檔的組織和管理等多個(gè)領(lǐng)域得到了初步的應(yīng)用。
[0003] 文本分類的研宄可以追溯到上世紀(jì)六十年代,早期的文本分類主要是基于知識工 程(Knowledge Engineering),通過手工定義一些規(guī)則來對文本進(jìn)行分類,這種方法費(fèi)時(shí)費(fèi) 力,且必須對某一領(lǐng)域有足夠的了解,才能寫出合適的規(guī)則。到上世紀(jì)九十年代,隨著網(wǎng)上 在線文本的大量涌現(xiàn)和機(jī)器學(xué)習(xí)的興起,大規(guī)模的文本(包括網(wǎng)頁)分類和檢索重新引起 研宄者的興趣。文本分類系統(tǒng)首先通過在預(yù)先分類好的文本集上訓(xùn)練,建立一個(gè)判別規(guī)則 或分類器,從而對未知類別的新樣本進(jìn)行自動(dòng)歸類。大量的結(jié)果表明它的分類精度比得上 專家手工分類的結(jié)果,并且它的學(xué)習(xí)不需要專家干預(yù),能適用于任何領(lǐng)域的學(xué)習(xí),使得它成 為目前文本分類的主流方法。
[0004] 但由于近年數(shù)據(jù)集規(guī)模逐漸增大,使得計(jì)算機(jī)處理大規(guī)模數(shù)據(jù)信息的時(shí)間成本急 速增加,而現(xiàn)有的分類方法更多側(cè)重于分類精度的提高,對大規(guī)模文本分類不能很好地解 決。因此人們開始嘗試將集成學(xué)習(xí)框架應(yīng)用于分類算法之中,應(yīng)用多分類器共同工作和共 同決策的方法分擔(dān)大規(guī)模數(shù)據(jù)的工作量,以擴(kuò)大傳統(tǒng)分類方法的應(yīng)用范圍,提高分析大規(guī) 模數(shù)據(jù)的效率,但仍然存在擴(kuò)展性的問題,難以滿足大規(guī)模文本分類的要求。
[0005] 目前將集成學(xué)習(xí)框架應(yīng)用于大規(guī)模文本分類的研宄并不多,現(xiàn)有技術(shù)中, 期 干U''(IJCSIS) International Journal of Computer Science and Information Security, Vol. 12, No. 8, August 2014" 2014 年 8 月出版的第 12 期第 8 卷中的由 Ahmad Basheer Hassanat,Mohammad Ali Abbadij
[0006] Ghada Awad Altarawneh,Karak,Jordan 所著的論文 "Solving the Problem of the K Parameter in the KNN Classifier Using an Ensemble Learning Approach 中 提出了應(yīng)用集成學(xué)習(xí)方法解決KNN分類器中K值的問題。其中,將集成學(xué)習(xí)方法引入文本 分類,很好的在傳統(tǒng)KNN分類方法上(圖1),實(shí)現(xiàn)了多個(gè)不同K值的KNN分類器同時(shí)對待測 樣本進(jìn)行決策的功能。具體地,該方法針對不同的待測樣本的向量信息,選取距離樣本最近 的士個(gè)樣本作為子集,同時(shí)對不同K值的KNN分類器給與不同的權(quán)重對待測樣本進(jìn)行決 策,以權(quán)重最大的類別作為結(jié)果輸出(圖2)。
[0007] 上述方法雖然將集成學(xué)習(xí)應(yīng)用于文本分類之中,但是它在擴(kuò)展度上仍然有局限 性,和現(xiàn)有的算法類似,其目的是提高決策結(jié)果的精度,并不能使現(xiàn)有方法在處理數(shù)據(jù)的規(guī) 模上得到強(qiáng)化。在實(shí)際應(yīng)用中,大規(guī)模文本數(shù)據(jù)會(huì)對該方法有很大的影響,例如該方法針對 大量待測樣本時(shí),運(yùn)算非常耗時(shí)。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明是鑒于以上所述的一個(gè)或多個(gè)問題做出的。
[0009] 本發(fā)明提出了一種大規(guī)模文本分類的方法,其特征在于步驟如下:
[0010] 步驟1 :將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù):
[0011] 將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF向量數(shù)據(jù),使文本數(shù)據(jù)成為多維向量數(shù)據(jù);
[0012] 步驟2 :分割大規(guī)模文本數(shù)據(jù)集為子集;
[0013] 步驟3 :以分布式計(jì)算方法訓(xùn)練子分類器:
[0014] 根據(jù)樣本分割結(jié)果,以各個(gè)子集分別訓(xùn)練各自的子分類器;
[0015] 步驟4 :選擇分類器處理待測樣本:
[0016] 根據(jù)測試樣本的向量數(shù)據(jù),選取所需的子分類器對測試樣本進(jìn)行分類;
[0017] 步驟5 :多個(gè)子分類器共同決策:
[0018] 這是集成學(xué)習(xí)方法在大規(guī)模文本分類中的應(yīng)用,為實(shí)現(xiàn)兼顧精度的大規(guī)模文本分 類,通過構(gòu)建具有大差異性的多個(gè)子分類器,并實(shí)現(xiàn)多個(gè)子分類器對測試樣本共同決策。
[0019] 步驟2中依據(jù)每個(gè)樣本的向量數(shù)據(jù),計(jì)算樣本間距,不斷將相互間距小的樣本合 并生成子集,當(dāng)子集中的樣本數(shù)目大于λ m后,將子集分割成為樣本數(shù)量不少于m的數(shù)個(gè)子 集;其中λ,m為整數(shù),λ取值為1?3, m取值大于1000。
[0020] 訓(xùn)練過程采用分布式計(jì)算的方式,由多臺電腦同時(shí)負(fù)責(zé)子分類器的訓(xùn)練,提高了 大規(guī)模文本數(shù)據(jù)集訓(xùn)練分類器的效率。對于訓(xùn)練子分類器的算法,并不局限一種特定的算 法,現(xiàn)有的文本分類算法如SVM, KNN, NB等算法均可適用于本分類系統(tǒng)。
[0021] 步驟4中具體如下:當(dāng)測試樣本D進(jìn)行分類時(shí),首先通過D的向量信息,選取距離 D最近的數(shù)個(gè)(3-5個(gè))子集所對應(yīng)的子分類器,組成子分類器集合距離計(jì)算公式為
【主權(quán)項(xiàng)】
1. 一種大規(guī)模文本分類的方法,其特征在于步驟如下: 步驟1;將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù): 將文本數(shù)據(jù)轉(zhuǎn)換為TF-IDF向量數(shù)據(jù),使文本數(shù)據(jù)成為多維向量數(shù)據(jù); 步驟2 ;分割大規(guī)模文本數(shù)據(jù)集為子集; 步驟3 分布式計(jì)算方法訓(xùn)練子分類器: 根據(jù)樣本分割結(jié)果,W各個(gè)子集分別訓(xùn)練各自的子分類器; 步驟4 ;選擇分類器處理待測樣本: 根據(jù)測試樣本的向量數(shù)據(jù),選取所需的子分類器對測試樣本進(jìn)行分類; 步驟5 ;多個(gè)子分類器共同決策: 該是集成學(xué)習(xí)方法在大規(guī)模文本分類中的應(yīng)用,為實(shí)現(xiàn)兼顧精度的大規(guī)模文本分類, 通過構(gòu)建具有大差異性的多個(gè)子分類器,并實(shí)現(xiàn)多個(gè)子分類器對測試樣本共同決策。
2. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法,其特征在于:步驟2中依據(jù)每個(gè)樣 本的向量數(shù)據(jù),計(jì)算樣本間距,不斷將相互間距小的樣本合并生成子集,當(dāng)子集中的樣本數(shù) 目大于Am后,將子集分割成為樣本數(shù)量不少于m的數(shù)個(gè)子集;其中A,m為整數(shù),A取值 為1?3, m取值大于1000。
3. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法,其特征在于:步驟3中訓(xùn)練子分類 器的算法為SVM,KNN或NB。
4. 根據(jù)權(quán)利要求1所述的大規(guī)模文本分類的方法,其特征在于:步驟4中當(dāng)測試樣本D 進(jìn)行分類時(shí),首先通過D的向量信息,選取距離D最近的數(shù)個(gè)子集所對應(yīng)的子分類器,組成 子分類器集合距離計(jì)算公式為
之后選取子分類器與D的夾角余弦最小的1-2個(gè)子分類器加入集合M ;然后對M中的 各子分類器給予不同的權(quán)重,權(quán)重依據(jù)子集與D的距離而定,w(i) =E d(i)/d(i),W為權(quán) 重,d為距離,i為M中的子分類器序號,之后使用M中的各子分類器對D進(jìn)行分類,投票決 策結(jié)果取決于各分類器對待測樣本的分類結(jié)果的權(quán)重和,將結(jié)果按照類別,把權(quán)重相加,取 權(quán)重最大的類別作為待測樣本的結(jié)果。
【專利摘要】大規(guī)模文本分類的方法涉及計(jì)算機(jī)領(lǐng)域,為實(shí)現(xiàn)兼顧精度的大規(guī)模學(xué)習(xí),需要通過構(gòu)建具有最大差異性的多個(gè)分類器及實(shí)現(xiàn)多個(gè)分類器的高效集成決策來實(shí)現(xiàn)。該大規(guī)模文本分類的方法包括:將文本數(shù)據(jù)轉(zhuǎn)換為向量數(shù)據(jù),分割大規(guī)模文本數(shù)據(jù)集為子集;以分布式計(jì)算的方法使用子集訓(xùn)練子分類器;選擇分類器;對待測樣本進(jìn)行分類,實(shí)現(xiàn)多分類器共同決策。本發(fā)明將集成學(xué)習(xí)框架應(yīng)用于大規(guī)模文本分類上,可以使現(xiàn)有的分類方法適用于大規(guī)模文本分類,提高分類效率。
【IPC分類】G06K9-62, G06F17-30
【公開號】CN104598586
【申請?zhí)枴緾N201510024552
【發(fā)明人】趙旭, 李建強(qiáng), 桂琪, 亢陽陽, 孫靖超, 田猛
【申請人】北京工業(yè)大學(xué)
【公開日】2015年5月6日
【申請日】2015年1月18日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1