日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法和系統(tǒng)的制作方法

文檔序號:6573680閱讀:353來源:國知局
專利名稱:在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及搜索引擎技術,特別涉及一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法和系統(tǒng)。
背景技術
隨著因特網(wǎng)的迅猛發(fā)展,搜索引擎提供的導航服務已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡服務。搜索引擎為用戶提供信息“檢索”服務,它使用搜索程序把因特網(wǎng)上的所有信息歸類以幫助用戶在海量的互聯(lián)網(wǎng)信息中搜尋其所需要的信息。搜索引擎的原理主要包括三步1)從互聯(lián)網(wǎng)上抓取網(wǎng)頁(crawler階段,爬取階段),2)建立索引數(shù)據(jù)庫,3)在索引數(shù)據(jù)庫中搜索排序。
其中,對搜索結果的排序要用到網(wǎng)頁等級值(pagerank),Pagerank用于指示對應網(wǎng)頁的鏈接廣泛度(Link Popularity),與用戶的搜索要求相匹配的網(wǎng)頁的pagerank越大,其在搜索結果頁面的排序往往越靠前。PageRank依賴于唯一的網(wǎng)絡法則,就是用大量的鏈接結構為依據(jù)為網(wǎng)頁計算得分。從本質(zhì)上來說,一個從A頁到B頁的鏈接a,算A投B一票。高質(zhì)量的網(wǎng)站會得到較高PageRank。
但是,目前網(wǎng)絡中存在大量的懸空網(wǎng)頁節(jié)點(Dangling節(jié)點),這樣的節(jié)點約占整個網(wǎng)頁數(shù)目的6%左右,Dangling節(jié)點的存在會影響pagerank的有效計算。Dangling節(jié)點指那些只有入鏈、沒有出鏈(向外鏈接)的網(wǎng)頁(節(jié)點),例如一些非常有價值的doc文檔、pdf文檔等都是Dangling節(jié)點。Dangling節(jié)點的存在使得搜索引擎中pagerank的計算出現(xiàn)了偏差。如果不處理Dangling節(jié)點,一方面導致pagerank的計算不能有效地進行,另一方面,可能導致具有Dangling節(jié)點的有價值的網(wǎng)頁的pagerank降低,影響網(wǎng)頁搜索排名,進而影響搜索結果的質(zhì)量。
目前對于dangling節(jié)點的處理方法是在網(wǎng)絡中增加一個虛擬節(jié)點,所有的dangling節(jié)點都有一個到該虛擬節(jié)點的虛擬出鏈,該虛擬節(jié)點有到每個非dangling節(jié)點的虛擬出鏈,這樣,整個網(wǎng)頁就不存在dangling節(jié)點。其缺陷是①對dangling節(jié)點pagerank的分配不合理,從而影響了網(wǎng)頁搜索排序;②增加了過多的虛擬鏈接,影響pagerank的計算速度。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法和系統(tǒng),可以克服現(xiàn)有技術的缺陷。
本發(fā)明的技術方案是在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法,包括以下步驟A1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁的同時獲取所述網(wǎng)頁的從屬網(wǎng)站信息;A2,判斷所述網(wǎng)頁是否為懸空網(wǎng)頁,如果是則在計算所述網(wǎng)頁的等級時執(zhí)行步驟B1;B1,為所述懸空網(wǎng)頁增加到至少一個非懸空網(wǎng)頁的虛擬出鏈;所述非懸空網(wǎng)頁與所述懸空網(wǎng)頁從屬于同一個網(wǎng)站。
作為優(yōu)選,步驟A2中,判斷所述網(wǎng)頁為懸空網(wǎng)頁時,為所述網(wǎng)頁做懸空網(wǎng)頁標記。
作為優(yōu)選,步驟A2中,判斷所述網(wǎng)頁為非懸空網(wǎng)頁時,為所述網(wǎng)頁做非懸空網(wǎng)頁標記。
本發(fā)明還提供了一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng),包括網(wǎng)頁抓取模塊,用于從互聯(lián)網(wǎng)上獲取網(wǎng)頁,同時獲得所述網(wǎng)頁的來源網(wǎng)站信息;分類模塊,用于將所述網(wǎng)頁分類為懸空網(wǎng)頁或非懸空網(wǎng)頁;虛擬鏈接建立模塊,用于為所述懸空網(wǎng)頁建立到至少一個非懸空網(wǎng)頁的虛擬出鏈;且所述非懸空網(wǎng)頁與所述懸空網(wǎng)頁從屬于一個網(wǎng)站。
作為優(yōu)選,所述系統(tǒng)還包括存儲模塊,用于存儲所述網(wǎng)頁抓取模塊獲得的網(wǎng)頁和其來源網(wǎng)站信息。
作為優(yōu)選,所述分類模塊還用于將分類為懸空網(wǎng)頁的網(wǎng)頁做懸空網(wǎng)頁標記,并保存。
作為優(yōu)選,所述分類模塊在判斷所述網(wǎng)頁不是懸空網(wǎng)頁時,也為所述網(wǎng)頁做標記。
本發(fā)明的有益效果在于(1)通過為每個懸空網(wǎng)頁節(jié)點增加到其同屬站點的虛擬出鏈(站內(nèi)虛擬鏈接),使得在pagerank計算中不存在dangling節(jié)點,有利于pagerank的計算;(2)增加站內(nèi)虛擬鏈接符合pagerank的思想,使得dangling節(jié)點的pagerank計算合理化,使網(wǎng)頁搜索排序更加理想,提高搜索引擎搜索結果的質(zhì)量。


圖1是本發(fā)明在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng)的結構圖;圖2是本發(fā)明較佳實施例中在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法的流程圖;圖3是本發(fā)明另一實施例中在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法的流程圖。
具體實施例方式
下面根據(jù)附圖和具體實施例對本發(fā)明作進一步闡述。
如圖1所示,一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點(Dangling節(jié)點)的系統(tǒng)10包括網(wǎng)頁抓取模塊100、分類模塊101、存儲模塊102和虛擬鏈接建立模塊103。
其中,網(wǎng)頁抓取模塊100負責自動從互聯(lián)網(wǎng)獲取網(wǎng)頁和對應網(wǎng)頁的從屬網(wǎng)站信息,并將獲取到的信息發(fā)送到分類模塊101(或同時保存在存儲模塊102中)。一般的做法是網(wǎng)頁抓取模塊100通過能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的網(wǎng)絡蜘蛛程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL(統(tǒng)一資源定位器)爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集到存儲模塊102中。可通過網(wǎng)頁的URL和內(nèi)部結構信息知道該網(wǎng)頁屬于哪個站點,從而得知哪些網(wǎng)頁屬于同一個站點。一般搜索引擎中的自動信息搜集功能分兩種,一種是定期搜索,即每隔一段時間(比如28天),網(wǎng)頁抓取模塊100主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,“蜘蛛”程序會自動提取網(wǎng)站的信息和網(wǎng)址加入存儲模塊102;另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,搜索引擎的網(wǎng)頁抓取模塊100會在一定時間內(nèi)(2天到數(shù)月不等)定期對應網(wǎng)站派出“蜘蛛”程序,掃描網(wǎng)站并將有關信息存入存儲模塊102。
分類模塊101負責將網(wǎng)頁抓取模塊100獲得的網(wǎng)頁分為Dangling網(wǎng)頁和非Dangling網(wǎng)頁,并分別標以不同的標記,最后將做了標記的網(wǎng)頁及其來源網(wǎng)站信息保存到存儲模塊102中。分類模塊101可通過對網(wǎng)頁的源代碼進行分析以判斷對應網(wǎng)頁是否有向外鏈接來進行區(qū)分。本發(fā)明的其它實施例中,可只對Dangling網(wǎng)頁作標記,不對非Dangling網(wǎng)頁作標記。
虛擬鏈接建立模塊103負責在接收到計算Dangling網(wǎng)頁pagerank的命令后,為對應Dangling網(wǎng)頁建立到一個到非Dangling網(wǎng)頁的虛擬出鏈,且該非Dangling網(wǎng)頁與該Dangling網(wǎng)頁從屬于一個網(wǎng)站。虛擬鏈接建立模塊103可通過查詢存儲模塊102以獲得上述非Dangling網(wǎng)頁。本發(fā)明的其它實施例中,可為對應Dangling網(wǎng)頁建立到其同屬站點的兩個或兩個以上的非Dangling網(wǎng)頁的虛擬出鏈。這樣,在進行pagerank計算時就不存在Dangling網(wǎng)頁節(jié)點了。
由于從網(wǎng)頁A導向網(wǎng)頁B的鏈接被看作是頁面A對頁面B的支持投票,搜索引擎根據(jù)這個投票數(shù)來判斷頁面的重要性。如果一個網(wǎng)頁A是dangling節(jié)點,而網(wǎng)頁B,C,D與網(wǎng)頁A是同屬一個站點的三個網(wǎng)頁,那么增加網(wǎng)頁A到網(wǎng)頁B,網(wǎng)頁A到網(wǎng)頁C,網(wǎng)頁A到網(wǎng)頁D的三個虛擬鏈接并不影響pagerank的計算——因為網(wǎng)頁A,B,C,D屬于同一個站點,A給B,C,D的“投票”是理所當然的。正如為www.sky.com的某個網(wǎng)頁A增加虛擬鏈接鏈向www.sky.com的某個網(wǎng)頁B,是非常符合現(xiàn)有搜索引擎的思想的。且,增加的虛擬鏈接的數(shù)量非常有限,有效地利用了Web所擁有的龐大鏈接構造的特性。
綜上所述,如圖2所示,本發(fā)明一個實施例中,在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法包括以下步驟步驟S1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁的同時獲取對應網(wǎng)頁的從屬網(wǎng)站信息。
步驟S2,判斷獲得的網(wǎng)頁是否為Dangling網(wǎng)頁,對Dangling網(wǎng)頁和非Dangling網(wǎng)頁分別標以不同的標記,并保存。
步驟S3,在計算Dangling網(wǎng)頁的等級(pagerank)前在存儲模塊中搜索,獲得與該Dangling網(wǎng)頁從屬于同一個網(wǎng)站的至少一個非Dangling網(wǎng)頁,并為該Dangling網(wǎng)頁增加到上述非Dangling網(wǎng)頁的虛擬出鏈。
如圖3所示,本發(fā)明另一個實施例中,在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法包括以下步驟步驟S21,從互聯(lián)網(wǎng)上獲取網(wǎng)頁的同時獲取對應網(wǎng)頁的從屬網(wǎng)站信息,并保存。
步驟S22,在計算網(wǎng)頁的等級(pagerank)時,判斷該網(wǎng)頁是否為Dangling網(wǎng)頁,如果是執(zhí)行步驟S23,否則執(zhí)行步驟S25。
步驟S23,從存儲模塊中搜索,獲得與該Dangling網(wǎng)頁從屬于同一個網(wǎng)站的至少一個非Dangling網(wǎng)頁。
步驟S24,為該Dangling網(wǎng)頁增加到上述非Dangling網(wǎng)頁的虛擬出鏈。
步驟S25,計算該網(wǎng)頁的等級。
以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的權利要求范圍之內(nèi)。
權利要求
1.在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法,其特征在于,包括以下步驟A1,從互聯(lián)網(wǎng)上獲取網(wǎng)頁的同時獲取所述網(wǎng)頁的從屬網(wǎng)站信息;A2,判斷所述網(wǎng)頁是否為懸空網(wǎng)頁,如果是則在計算所述網(wǎng)頁的等級時執(zhí)行步驟B1;B1,為所述懸空網(wǎng)頁增加到至少一個非懸空網(wǎng)頁的虛擬出鏈;所述非懸空網(wǎng)頁與所述懸空網(wǎng)頁從屬于同一個網(wǎng)站。
2.根據(jù)權利要求1所述的在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法,其特征在于步驟A2中,判斷所述網(wǎng)頁為懸空網(wǎng)頁時,為所述網(wǎng)頁做懸空網(wǎng)頁標記。
3.根據(jù)權利要求1或2所述的在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法,其特征在于步驟A2中,判斷所述網(wǎng)頁為非懸空網(wǎng)頁時,為所述網(wǎng)頁做非懸空網(wǎng)頁標記。
4.在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng),其特征在于,包括網(wǎng)頁抓取模塊,用于從互聯(lián)網(wǎng)上獲取網(wǎng)頁,同時獲得所述網(wǎng)頁的來源網(wǎng)站信息;分類模塊,用于將所述網(wǎng)頁分類為懸空網(wǎng)頁或非懸空網(wǎng)頁;虛擬鏈接建立模塊,用于為所述懸空網(wǎng)頁建立到至少一個非懸空網(wǎng)頁的虛擬出鏈;且所述非懸空網(wǎng)頁與所述懸空網(wǎng)頁從屬于一個網(wǎng)站。
5.根據(jù)權利要求4所述的在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng),其特征在于所述系統(tǒng)還包括存儲模塊,用于存儲所述網(wǎng)頁抓取模塊獲得的網(wǎng)頁和其來源網(wǎng)站信息。
6.根據(jù)權利要求4或5所述的在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng),其特征在于所述分類模塊還用于將分類為懸空網(wǎng)頁的網(wǎng)頁做懸空網(wǎng)頁標記,并保存。
7.根據(jù)權利要求6所述的在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng),其特征在于所述分類模塊在判斷所述網(wǎng)頁不是懸空網(wǎng)頁時,也為所述網(wǎng)頁做標記。
全文摘要
本發(fā)明公開了一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點的方法,包括步驟從互聯(lián)網(wǎng)上獲取網(wǎng)頁的同時獲取所述網(wǎng)頁的從屬網(wǎng)站信息;判斷所述網(wǎng)頁是否為懸空網(wǎng)頁,如果是則在計算所述網(wǎng)頁的等級時執(zhí)行步驟為所述懸空網(wǎng)頁增加到至少一個非懸空網(wǎng)頁的虛擬出鏈;該非懸空網(wǎng)頁與所述懸空網(wǎng)頁從屬于同一個網(wǎng)站。本發(fā)明還公開了一種在搜索引擎中處理懸空網(wǎng)頁節(jié)點的系統(tǒng)。本發(fā)明通過為每個懸空網(wǎng)頁節(jié)點增加其站內(nèi)虛擬鏈接,有利于pagerank的計算,使懸空節(jié)點的pagerank計算合理化,提高搜索引擎搜索結果的質(zhì)量。
文檔編號G06F17/30GK101079058SQ20071007359
公開日2007年11月28日 申請日期2007年3月21日 優(yōu)先權日2007年3月21日
發(fā)明者文勖 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1