日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

對網(wǎng)頁和網(wǎng)站評級的方法

文檔序號:86942閱讀:500來源:國知局
專利名稱:對網(wǎng)頁和網(wǎng)站評級的方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡信息搜索技術(shù)領(lǐng)域
,特別是涉及根據(jù)網(wǎng)絡節(jié)點(例如網(wǎng)頁或者網(wǎng)站)之間的鏈接關(guān)系而對節(jié)點評級的方法,例如在互聯(lián)網(wǎng)搜索引擎中,利用網(wǎng)頁之間的超文本鏈接,對所收錄的網(wǎng)頁和網(wǎng)站的質(zhì)量或者重要性進行區(qū)分、衡量并評級的方法。
背景技術(shù)
隨著計算機技術(shù)和網(wǎng)絡技術(shù)的不斷發(fā)展,特別是隨著互聯(lián)網(wǎng)應用的日益普及,對網(wǎng)絡中的信息進行有效的搜索成為一項非常重要的日常活動和研究課題。當前,搜索引擎已經(jīng)成為與電子郵件等類似的使用最為頻繁的互聯(lián)網(wǎng)應用之一。因此,提高網(wǎng)絡信息搜索技術(shù)具有重要的意義和價值。經(jīng)過近年來持續(xù)不斷的研發(fā)和市場競爭,互聯(lián)網(wǎng)搜索引擎技術(shù)已經(jīng)有了長足的發(fā)展,形成了比較成熟的技術(shù)體系和商業(yè)模式。一方面,傳統(tǒng)的文本信息檢索技術(shù)在搜索引擎中獲得了廣泛、深入的應用;另一方面,針對網(wǎng)絡信息特性的一些新的技術(shù)也被開發(fā)出來,并產(chǎn)生了積極、顯著的效果。
網(wǎng)絡信息的一大特征是豐富的鏈接關(guān)系信息分布在網(wǎng)絡的各個節(jié)點上,節(jié)點之間通過具有特定語義的鏈接而互相關(guān)聯(lián)、互相參照或者互相引用。例如,互聯(lián)網(wǎng)中的萬維網(wǎng)(the World-Wide Web)就是一個通過超文本鏈接(基于超文本傳輸協(xié)議HTTP)而連接起來的一個巨大的信息節(jié)點網(wǎng)絡,其基本的信息節(jié)點是網(wǎng)頁,其中可以設置數(shù)量、目標和顯示格式等都不受限的超文本鏈接(hypertext links,以下簡稱為“超鏈接”或“鏈接”);同時,網(wǎng)頁的分布還具有較高一層的結(jié)構(gòu),即網(wǎng)頁都是通過網(wǎng)站來訪問的,因而網(wǎng)站又構(gòu)成了萬維網(wǎng)的更大一級的信息節(jié)點。另外,網(wǎng)站中的網(wǎng)頁還具有中間層次的目錄結(jié)構(gòu),而且網(wǎng)站之間還可通過域名(domain name)形成更高級別的層次結(jié)構(gòu)。因此,網(wǎng)絡的信息節(jié)點可包括網(wǎng)頁、網(wǎng)站以及其它粒度的信息節(jié)點,例如域名節(jié)點、某一級文件目錄節(jié)點等。節(jié)點之間豐富的鏈接關(guān)系和層次化的結(jié)構(gòu)成為網(wǎng)絡信息區(qū)別于常規(guī)的文本、圖像、音視頻等信息的重要特性。對這些特性加以充分利用有助于提升網(wǎng)絡信息搜索的技術(shù)水平。因此,當前獲得主流應用的互聯(lián)網(wǎng)搜索引擎都普遍使用了網(wǎng)絡信息的鏈接關(guān)系。這類技術(shù)通常被稱為“鏈接分析(link analysis)”技術(shù)。其目的在于通過網(wǎng)頁或者網(wǎng)站等信息節(jié)點之間的鏈接關(guān)系,對信息節(jié)點作內(nèi)容、屬性分析或者評級。對節(jié)點的評級即賦予節(jié)點一個或多個級別數(shù)值,以便定量地區(qū)分其質(zhì)量、重要性、權(quán)威性或者受歡迎程度等性質(zhì)。
美國專利第6,285,999號(US Patent No.6,285,999.標題Method for node ranking in alinked database.發(fā)明人Lawrence Page)公開了一種鏈接分析方法。該方法通常被稱為PageRank,是目前為止獲得最廣泛的關(guān)注和研究、并取得最成功應用的一種鏈接分析方法。(它也是Google.com搜索引擎所使用過的專有技術(shù)。)該方法完全基于節(jié)點之間的鏈接關(guān)系并根據(jù)超鏈接的有向性,為各個節(jié)點賦予一個級別分數(shù),該分數(shù)為鏈接到該節(jié)點的各個節(jié)點(即鏈出節(jié)點)的分數(shù)的加權(quán)求和,且鏈出節(jié)點的分數(shù)的權(quán)值為該節(jié)點的出度(outdegree,即外出鏈接的總數(shù))的倒數(shù)。由PageRank確定的網(wǎng)頁級別是一種整體的、與搜索查詢無關(guān)的網(wǎng)頁流行程度的描述,它為定量地區(qū)分大量網(wǎng)頁的質(zhì)量或者重要程度提供了一種間接的度量。這種整體性的評級結(jié)果一方面可用作指導網(wǎng)頁收集的優(yōu)先級別,以便將重要的網(wǎng)頁盡快收集或者更新;另一方面,它還可以同常規(guī)的針對具體查詢關(guān)鍵詞的搜索結(jié)果評分機制結(jié)合起來,提升高質(zhì)量網(wǎng)頁的排名,從而實現(xiàn)效果更佳的對搜索結(jié)果的排序。PageRank自1998年提出之后,獲得了產(chǎn)業(yè)界和學術(shù)界的普遍關(guān)注與研究,并有大量相關(guān)論文發(fā)表。有關(guān)PageRank的詳細性質(zhì)、算法、參數(shù)調(diào)整和改進的一個綜合性的論述可參見文獻Deeper Inside PageRank(作者A.Langville和C.Meyer.期刊InternetMathematics Vol.1,No.3,p335-380.網(wǎng)址http://www.internetmathematics.org/volumes/1/3/Langville.pdf)。
同時,也可以利用PageRank方法對網(wǎng)站進行評級。類似于網(wǎng)頁的PageRank是該網(wǎng)頁被某種隨機瀏覽過程選中的概率,網(wǎng)站的PageRank是該網(wǎng)站被瀏覽者隨機選中的概率。網(wǎng)站PageRank可以簡單地定義為其所包含的所有網(wǎng)頁的PageRank之和,也可以定義為某種專門的網(wǎng)站質(zhì)量或者可信任程度的度量。例如,可以將一少部分高質(zhì)量的網(wǎng)站挑選出來,根據(jù)經(jīng)驗值分別賦予較高的質(zhì)量級別或者信用級別(或稱為trust rank),然后按照PageRank方法計算這些高質(zhì)量網(wǎng)站的級別傳遞到其它各個網(wǎng)站的結(jié)果,從而比較各個網(wǎng)站的質(zhì)量或者信用度。網(wǎng)站之間的鏈接關(guān)系可通過網(wǎng)頁之間的鏈接關(guān)系而構(gòu)造,例如可以簡單地將網(wǎng)頁之間的鏈接關(guān)系合并到各個網(wǎng)站節(jié)點并忽略網(wǎng)站內(nèi)部的鏈接,或者對網(wǎng)站之間的網(wǎng)頁鏈接與網(wǎng)站內(nèi)部網(wǎng)頁之間的鏈接設置不同的權(quán)重等。所獲得的網(wǎng)站評級結(jié)果對于網(wǎng)頁搜集調(diào)度、網(wǎng)站分類和反作弊、以及最終的搜索結(jié)果排序都可以提供重要作用。
盡管PageRank方法為互聯(lián)網(wǎng)信息搜索提供了革新性的技術(shù)并在市場應用中獲得了巨大的成功,其完全基于鏈接關(guān)系和單向的網(wǎng)頁級別傳遞的性質(zhì)也顯現(xiàn)了一些不足的方面。特別是,在PageRank方法被搜索引擎普遍應用之后,出現(xiàn)了一種利用PageRank單向傳遞特點的搜索引擎作弊技術(shù),稱為鏈接作弊(link spamming)。作弊者只要不斷地增加包含指向某個網(wǎng)頁的鏈接的網(wǎng)頁,所指網(wǎng)頁的PageRank就能不斷提高。這種作弊行為難以在PageRank的機制內(nèi)得到判別和處理,而必須花費大量人力物力并使用奇特的方法進行專門檢查。而這些反鏈接作弊方法通常被當作商業(yè)機密嚴加保守,不予公開。這也正好顯示出了PageRank算法本身的脆弱性。
總體而言,經(jīng)過近年來的大規(guī)模應用和檢驗,PageRank方法的優(yōu)點與諸多不足之處已經(jīng)較為明確。其主要不足之處包括如下幾個方面(其中一些方面是鏈接分析本身帶來的問題)■只依靠網(wǎng)頁的反向鏈接即進入鏈接(in-bound links)進行評級,網(wǎng)頁的級別總是隨著入鏈的增加而單增,并且不區(qū)分入鏈是否具有相關(guān)性及其相關(guān)程度,由此導致其網(wǎng)頁級別容易受到鏈接交換、鏈接接力堆積等作弊行為的操縱;■直接基于網(wǎng)頁之間的鏈接關(guān)系,忽略了網(wǎng)頁在網(wǎng)站一級和其它層次上的聚集關(guān)系,鏈接關(guān)系的粒度過細,由此導致PageRank計算量大、更新慢,并且對于最新出現(xiàn)的網(wǎng)頁因缺少鏈接關(guān)系而失效;■同一網(wǎng)站內(nèi)的網(wǎng)頁所包含的鏈接大都為站內(nèi)鏈接,因而難以對網(wǎng)站作出精確的評級。盡管可以對站內(nèi)鏈接與站間鏈接設置不同的權(quán)重,但不同網(wǎng)站的權(quán)重值設定并無確切依據(jù);■有商業(yè)競爭關(guān)系的公司網(wǎng)站之間幾乎不會有任何鏈接關(guān)系,即使它們的內(nèi)容是非常相關(guān)的,這將影響評級的精確性。相互競爭的網(wǎng)站之間通常會有比較多的共引用(co-citation)和共指(coreference)等關(guān)系(詳見下文說明),但現(xiàn)有評級方法并未對此加以應用;■外出鏈接(out-bound links)或稱為正向鏈接傾向于引起網(wǎng)頁的級別及其所在網(wǎng)站的總的級別下降,這個性質(zhì)不利于鼓勵網(wǎng)頁作者積極創(chuàng)作外出鏈接,特別是鼓勵設置指向高質(zhì)量、內(nèi)容更相關(guān)、并無業(yè)務關(guān)系的網(wǎng)站和網(wǎng)頁的鏈接;相反地,這通常導致網(wǎng)站之間大量交換或者買賣所謂“互惠鏈接”;■所假定的網(wǎng)頁之間的均勻隨機跳躍概率與人們?yōu)g覽網(wǎng)頁的實際行為方式相差甚遠。這個不足通??梢酝ㄟ^引入一個“個性化向量”(作為網(wǎng)頁瀏覽隨機過程的外部概率源)來克服,但是如何設置個性化向量是一個更為復雜、計算成本極高的問題,因此個性化向量實際上并未被廣泛應用;■與文本內(nèi)容無關(guān)、完全基于超鏈接關(guān)系,即完全忽略了文檔的內(nèi)容信息,因而不能實質(zhì)地改善文檔和查詢語義匹配誤差等問題。
由此可見,PageRank還是一種比較簡單和初級的鏈接分析方法。對于PageRank的這些問題,可以進行一些針對性的改進。例如對于PageRank與網(wǎng)頁文本或查詢詞無關(guān)的不足,可以設計相對一批預定的查詢主題的擴展PageRank(或稱為topic-sensitive PageRank)。但是這類改進方法的應用領(lǐng)域特定性與實現(xiàn)的復雜性都會引起更大范圍的問題,實際效果并不明顯。目前已知的改進方法大都屬于局部性的調(diào)整或特定場合的變種,其新的技術(shù)效果尚未在大規(guī)模實際應用中得到驗證,或者因計算復雜性過高而難以實現(xiàn)。更重要的是,已知的這些改進方法都沒有對PageRank的單向傳遞性質(zhì)作出改進,因而并不能提供實質(zhì)性的改進效果以及更為有效的抗作弊性能。總之,由于存在諸多方面的簡化或省略,PageRank方法及其現(xiàn)有的改進方法尚未能精確、全面地或更為充分地利用網(wǎng)頁之間的鏈接關(guān)系對網(wǎng)頁和網(wǎng)站做出評級,并且易于受到人為操縱和鏈接作弊的影響。
因此,有必要研究比現(xiàn)有技術(shù)更全面、更細致、更穩(wěn)固和抗作弊、并且能被高效實現(xiàn)的網(wǎng)絡信息節(jié)點評級技術(shù),提供技術(shù)效果更好的對網(wǎng)頁和網(wǎng)站評級的方法和系統(tǒng)。

發(fā)明內(nèi)容本發(fā)明的一個目的是提出一種綜合性的網(wǎng)頁評級方法,平衡地利用網(wǎng)頁之間鏈接關(guān)系的多種特性對網(wǎng)頁進行更全面和穩(wěn)定的評級。所使用的多種特性包括鏈接的雙向關(guān)系、由鏈接導出的共引用關(guān)系和共指關(guān)系,以及這些關(guān)系的頻次、權(quán)重等屬性。
本發(fā)明的另一個目的是提出一種網(wǎng)站評級方法,綜合地利用網(wǎng)站之間鏈接關(guān)系的多種性質(zhì)對網(wǎng)站進行全面、細致和穩(wěn)定性強的評級。
本發(fā)明的再一個目的是提供一種基于計算機的網(wǎng)頁和網(wǎng)站評級系統(tǒng),利用高效率的算法實現(xiàn)上述網(wǎng)頁和網(wǎng)站的評級方法,并使之能夠應用于極大規(guī)模的網(wǎng)頁集合與網(wǎng)站集合,例如用于對某一個地區(qū)內(nèi)的或者全球范圍內(nèi)的萬維網(wǎng)中的網(wǎng)頁和網(wǎng)站進行評級。
為達到上述目的,本發(fā)明采取的技術(shù)方案是一種以計算機實現(xiàn)的對網(wǎng)絡節(jié)點評級的方法,根據(jù)節(jié)點之間的有向鏈接關(guān)系而賦予各個節(jié)點一個表示其級別的數(shù)值,其特征在于包括如下步驟a.設置至少一種如下所述的權(quán)重對至少一部分鏈接,各設置一個正向權(quán)重;對至少一部分鏈接,各設置一個反向權(quán)重;對至少一部分節(jié)點的共引用關(guān)系,各設置一個權(quán)重;對至少一部分節(jié)點的共指關(guān)系,各設置一個權(quán)重;b.根據(jù)至少一個如下所列舉的因素確定各個節(jié)點的級別鏈接到該網(wǎng)頁的各個節(jié)點的級別,以及這些鏈接的正向權(quán)重;該節(jié)點所鏈接的各個節(jié)點的級別,以及這些鏈接的反向權(quán)重;與該節(jié)點有共引用關(guān)系的各個節(jié)點的級別,以及這些共引用的權(quán)重;與該節(jié)點有共指關(guān)系的各個節(jié)點的級別,以及這些共指的權(quán)重。
其中,所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重分別依賴于節(jié)點的出度、節(jié)點的入度、共引用的頻次、共指的頻次。節(jié)點的級別是其入鏈的正向權(quán)重與入鏈的源節(jié)點的級別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標節(jié)點的級別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點的級別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點的級別的加權(quán)和,也可以是這4類加權(quán)和的進一步的加權(quán)和。節(jié)點的級別還可包括一個表示先驗概率分布的常數(shù)級別。上述網(wǎng)絡節(jié)點可以是網(wǎng)頁,也可以是網(wǎng)站所對應的超級網(wǎng)頁,該超級網(wǎng)頁代表網(wǎng)站內(nèi)的所有網(wǎng)頁之間的鏈接關(guān)系。
與現(xiàn)有技術(shù)對比,本技術(shù)方案具備如下優(yōu)點由于使用了信息節(jié)點鏈接關(guān)系的多種性質(zhì)進行評級,本方法提供的評級結(jié)果能夠更為全面和準確地反映節(jié)點由鏈接關(guān)系而形成的質(zhì)量、重要性與權(quán)威性,并且具有較好的穩(wěn)定性,可加大鏈接作弊的難度、更好地抵抗作弊行為的影響。本方法的評級結(jié)果因此能夠為網(wǎng)頁搜集、網(wǎng)站分類和搜索結(jié)果排序提供更佳的技術(shù)效果。
本說明書包含7個附圖。
圖1是本發(fā)明所使用的雙向級別傳遞關(guān)系及其權(quán)重的示意圖。
圖2是本發(fā)明所使用的由鏈接而形成的節(jié)點之間共引用關(guān)系示意圖。
圖3是本發(fā)明所使用的由鏈接而形成的節(jié)點之間共指關(guān)系示意圖。
圖4是本發(fā)明一個實施例的對網(wǎng)頁評級方法的流程圖。
圖5是本發(fā)明的網(wǎng)頁評級方法對一個包含3個網(wǎng)頁的網(wǎng)絡的評級結(jié)果圖示。
圖6是本發(fā)明的一個實施例使用冪乘積方法迭代計算節(jié)點的級別向量的流程圖。
圖7是本發(fā)明一個實施例的對網(wǎng)站評級方法的流程圖。
具體實施方式下面結(jié)合附圖和實施例對上述技術(shù)方案作進一步的說明。在以下部分,首先詳細說明了本發(fā)明的方法如何用于對網(wǎng)頁節(jié)點進行評級;在最后部分則說明了本方法如何按照相同思路,同理地利用網(wǎng)站之間的鏈接關(guān)系對網(wǎng)站評級。
本發(fā)明的實施例通過一個互聯(lián)網(wǎng)搜索引擎系統(tǒng)而實現(xiàn)。該搜索引擎系統(tǒng)為一個包括公知的軟硬件體系結(jié)構(gòu)的計算機系統(tǒng),通過運行特定的指令序列(即程序)而完成各種功能。該系統(tǒng)由文檔搜集、文檔索引和查詢處理三個子系統(tǒng)組成,分別實現(xiàn)互聯(lián)網(wǎng)服務器站點上的網(wǎng)頁(即HTML或XML文檔)及其它數(shù)據(jù)格式文件的發(fā)現(xiàn)和收集、索引文檔庫中的文檔、對搜索用戶提交的查詢請求進行處理并返回搜索結(jié)果等功能。系統(tǒng)通過提取、分析和整理文檔庫中各個網(wǎng)頁所包含的對其它網(wǎng)頁的有向超鏈接而建立起網(wǎng)頁之間和網(wǎng)站之間的鏈接關(guān)系。這些鏈接關(guān)系通常以有向圖的格式存放在一個或多個文件中。系統(tǒng)使用整數(shù)對網(wǎng)頁庫中的各個網(wǎng)頁和網(wǎng)站進行編號,分別稱為網(wǎng)頁的文檔標識號(doc ID)和網(wǎng)站標識號(site ID)。以下論述中,用G表示網(wǎng)頁或網(wǎng)站由鏈接關(guān)系構(gòu)成的有向圖;用i、j或did等變量名表示網(wǎng)頁編號,其取值范圍從1到N(N是網(wǎng)頁的總數(shù));用I、J或者sid等變量名表示網(wǎng)站編號,其取值范圍從1到Ns(Ns是網(wǎng)站的總數(shù))。如果網(wǎng)頁i(或網(wǎng)站I)在有向圖G中,則記為i∈G(或I∈G)。如果網(wǎng)頁i包含指向網(wǎng)頁j的鏈接,則表示為i→j,并且稱i為鏈接i→j的源網(wǎng)頁,稱j為鏈接i→j的目標網(wǎng)頁。如果G中存在鏈接i→j,則記為i→j∈G。
■基本模型對網(wǎng)頁(或網(wǎng)站)評級,就是通過某種數(shù)值計算模型對G中的每個網(wǎng)頁i(或網(wǎng)站I)確定一個數(shù)值R(i)(或R(I)),以此定量地區(qū)分其質(zhì)量、重要性或者權(quán)威性。在以下論述中,用R(i)表示網(wǎng)頁i的級別?;阪溄臃治龅脑u級是根據(jù)網(wǎng)頁或網(wǎng)站之間的鏈接關(guān)系而確定其級別的數(shù)值。這種級別是一種與用戶查詢詞無關(guān)的全局性級別。眾所周知的PageRank評級方法是利用網(wǎng)頁之間的超鏈接關(guān)系,將網(wǎng)頁的初始級別單向地沿著鏈接傳遞,而最終的網(wǎng)頁級別的分布就是這種單向性的級別值傳遞過程達到穩(wěn)定狀態(tài)的結(jié)果。在數(shù)學上這種級別傳遞過程等價于N個節(jié)點上的概率分布P(i)=R(i)的Markov鏈過程,而最后的評級結(jié)果就是該Markov鏈到達平穩(wěn)態(tài)的概率分布。PageRank的主要思想認為網(wǎng)頁之間的超鏈接可作為一種引用與推薦關(guān)系,被很多網(wǎng)頁推薦的網(wǎng)頁具有較大的重要性;而且,來自重要網(wǎng)頁的推薦具有更重要的價值;各個網(wǎng)頁的級別隨著其所包含的鏈接平均地向外傳遞,而一個網(wǎng)頁所得到的級別就是所有沿著指向它的鏈接所傳遞的級別的總和。該總和是鏈接到該網(wǎng)頁的各個鏈出網(wǎng)頁的級別的加權(quán)求和,其中每個鏈出網(wǎng)頁的權(quán)值為其外出鏈接的總數(shù)(即出度,outdegree)的倒數(shù)。
如前所述,PageRank的單向傳遞性質(zhì)具有一系列的不足之處,易于受到人為設置鏈接的操縱,并且未充分利用節(jié)點之間鏈接關(guān)系的多種性質(zhì)。本發(fā)明的評級方法通過使用鏈接關(guān)系的多種性質(zhì)進行評級,以便更為全面、客觀和準確地反映節(jié)點由鏈接關(guān)系而形成的質(zhì)量、重要性或權(quán)威性的差異,并更好地減少鏈接作弊行為的影響。
根據(jù)本發(fā)明的實施例,能夠影響網(wǎng)頁級別的鏈接關(guān)系的性質(zhì)至少包括如下4類■正向的鏈接,以及這些鏈接的正向權(quán)重;■反向的鏈接,以及這些鏈接的反向權(quán)重;■節(jié)點之間的共引用(co-citation)關(guān)系及其屬性;■節(jié)點之間的共指(co-reference)關(guān)系及其屬性。
任一個網(wǎng)頁的級別可以根據(jù)上述4類鏈接關(guān)系性質(zhì)的一部分或全部,由其它網(wǎng)頁的級別遞歸地確定。這為定量地利用多種鏈接關(guān)系特性計算網(wǎng)頁的級別提供了可實現(xiàn)的算法,即網(wǎng)頁i的級別R(i)可以由所有與網(wǎng)頁i有鏈接關(guān)系的其它網(wǎng)頁j的級別R(j)的某種線性疊加(加權(quán)和)而確定。具體而言,根據(jù)本發(fā)明實施例,確定網(wǎng)頁i的級別R(i)(i=1,2,...,N)的基本模型為R(i)=c1·Σj→i∈GW+(j,i)·R(j)+c2·Σi→j∈GW-(i,j)·R(j)+---(1)]]>c3·Σj∈GWC(i,j)·R(j)+c4·Σj∈GWR(i,j)·R(j)+D(i),]]>式中所有求和都是對指標j進行,并且j≠i(除非有鏈接關(guān)系特別指定了網(wǎng)頁對自己的鏈接、共引用或共指)。其中,4個求和中的函數(shù)W+(j,i)、W-(i,j)、WC(i,j)、WR(i,j)分別是鏈接j→i的正向權(quán)重、i→j的反向鏈接權(quán)重、網(wǎng)頁i同j的共引用權(quán)重、網(wǎng)頁i同j的共指權(quán)重;c1,c2,c3,c4是常系數(shù),表示各種鏈接關(guān)系性質(zhì)對級別的貢獻比例,其值可根據(jù)實際使用的模型而確定;D(i)i=1,2,...,N是N個常數(shù),表示網(wǎng)頁級別的某種先驗分布(也就是在沒有任何鏈接關(guān)系影響的情況下,即各個權(quán)重函數(shù)W+=W-=WC=WR=0時,各網(wǎng)頁的級別值)。也可以把D(i)改寫為如下形式D(i)=d·E(i),d=Σi∈GD(i),]]>Σi∈GE(i)=1,]]>其中E(i)=D(i)/d是一個歸一化的向量,可看作是網(wǎng)頁級別的先驗概率分布。
公式(1)實際上是對網(wǎng)頁級別的4類鏈接關(guān)系級別傳遞的加權(quán)和的進一步的加權(quán)和,而系數(shù)c1,c2,c3,c4是后一次加權(quán)和的權(quán)重。下面分別對上述各種鏈接關(guān)系性質(zhì)及其權(quán)重函數(shù)W+(j,i)、W-(i,j)、WC(i,j)、WR(i,j)加以詳細說明。
如附圖1所示,與任一網(wǎng)頁i具有直接的鏈接關(guān)系的網(wǎng)頁可分為兩大類一類是鏈接到網(wǎng)頁i的網(wǎng)頁j所組成的集合;另一類是被網(wǎng)頁i鏈接的網(wǎng)頁j′所組成的集合。前者所包含的指向網(wǎng)頁i的鏈接稱為網(wǎng)頁i的進入鏈接(in-bound links),或者簡稱為“入鏈”(in-links);入鏈的數(shù)目稱為網(wǎng)頁i的入度,記為函數(shù)形式in-degree(i);而網(wǎng)頁i所包含的指向其它網(wǎng)頁的鏈接稱為網(wǎng)頁i的外出鏈接(out-bound links),或者簡稱為“出鏈”(out-links);出鏈的數(shù)目稱為網(wǎng)頁i的出度,記為out-degree(i).
在網(wǎng)頁評級過程中,網(wǎng)頁的級別是通過(直接或間接的)鏈接關(guān)系而傳遞的。首先,與網(wǎng)頁i的入度相關(guān)的各個網(wǎng)頁j對網(wǎng)頁i的級別R(i)具有直接的貢獻,其中每個網(wǎng)頁j的貢獻是其自身級別R(j)的某個百分比例。這個貢獻為網(wǎng)頁j的級別R(j)按鏈接j→i對網(wǎng)頁i的正向傳遞,所傳遞的比例系數(shù)W+(j,i)稱為鏈接j→i的正向權(quán)重。因此,網(wǎng)頁i的級別R(i)首先是其入鏈的正向權(quán)重與入鏈的源網(wǎng)頁的級別的加權(quán)和。此即公式(1)的右邊第一項。
因此,根據(jù)本發(fā)明,對同一網(wǎng)頁i,來自不同網(wǎng)頁j的入鏈的重要性是不同的。入鏈的重要程度由鏈接j→i的正向權(quán)重W+(j,i)來表示。按此評級原理,來自重要網(wǎng)頁的重要鏈接的推薦具有更大的重要性。顯然,網(wǎng)頁j本身所包含的(外出)鏈接越多,其對被鏈接網(wǎng)頁的級別的貢獻就應該越小。這個關(guān)系可以利用網(wǎng)頁j的出度來表示,可認為鏈接j→i的正向權(quán)重W+(j,i)與網(wǎng)頁j的出度out-degree(j)成反比,即W+(j,i)∝1/out-degree(j).通過引入一個比例因子w+(j,i),可將此關(guān)系表示為W+(j,i)=w+(j,i)/out-degree(j). (2)比例因子w+(j,i)取決于與鏈接j→i相關(guān)的多種屬性(詳見下面說明)。而在本方法的簡化應用模型中,可以取為w+(j,i)≡1.0,對所有鏈接j→i;w+(j,i)=0,當不存在鏈接j→i. (3)其次,根據(jù)本發(fā)明的評級方法,網(wǎng)頁之間的超鏈接對網(wǎng)頁級別的影響是雙向的。與上述沿鏈接正向傳遞級別的機制相對應,沿鏈接反方向傳遞級別也可作為一種有價值的網(wǎng)絡節(jié)點評級的機制。本發(fā)明將此機制集成到評級方法中。如附圖1所示,與網(wǎng)頁i的出度相關(guān)的各個網(wǎng)頁j′也會對網(wǎng)頁i的級別R(i)產(chǎn)生影響。其主要思想在于網(wǎng)頁中的超鏈接的設置完全是由網(wǎng)頁作者任意決定的;雖然網(wǎng)頁作者不能控制指向其網(wǎng)頁的鏈接,但他們可以任意選擇被其網(wǎng)頁鏈接的網(wǎng)站和網(wǎng)頁,而反向的網(wǎng)頁級別傳遞可以對網(wǎng)頁鏈接設置的這種自發(fā)行為形成有效的制約和積極的影響,即如果網(wǎng)頁作者主動指向高質(zhì)量的網(wǎng)頁,則作為鼓勵,其網(wǎng)頁的級別有可能獲得較大幅度的提高;而如果指向低質(zhì)量的網(wǎng)頁,則其網(wǎng)頁的級別只會有很小的增加,不會獲得實質(zhì)性的提升。在某些反作弊技術(shù)中,已存在應用類似機制的方法,例如,對包含指向已知作弊網(wǎng)站的鏈接的網(wǎng)頁或網(wǎng)站進行一定程度的懲罰(在網(wǎng)頁搜集、更新和搜索結(jié)果排序方面降低其優(yōu)先級)。
另一方面,從被指向的高質(zhì)量的網(wǎng)頁所能獲得的級別提升好處又是與被指網(wǎng)頁的入度有關(guān)的。如果指向某個高質(zhì)量的網(wǎng)頁的鏈接較多,則該網(wǎng)頁對主動鏈接過來的網(wǎng)頁的級別貢獻會較小。因而本發(fā)明通過在評級方法中集成反方向的級別傳遞機制,能夠較好地對各種人為可控的要素加以平衡。
因此,與網(wǎng)頁i的出度相關(guān)的各個網(wǎng)頁j′也會將其級別R(j′)的一部分貢獻給網(wǎng)頁i的級別R(i).這個貢獻為網(wǎng)頁j′的級別R(j′)按鏈接i→j′對網(wǎng)頁i的級別的反向傳遞,因而其貢獻的比例系數(shù)W-(i,j′)稱為鏈接i→j′的反向權(quán)重。這樣,網(wǎng)頁i的級別R(i)還包括其出鏈的反向權(quán)重與出鏈的目標網(wǎng)頁的級別的加權(quán)和,即公式(1)的右邊第二項。
如上所述,同一網(wǎng)頁i的不同出鏈的重要性是不同的。出鏈的重要程度由鏈接i→j′的反向權(quán)重W-(i,j′)來表示。按此評級原理,設置指向高質(zhì)量網(wǎng)頁的高質(zhì)量(大權(quán)重)的鏈接可以在較大程度上提高該網(wǎng)頁的質(zhì)量,而指向低質(zhì)量網(wǎng)頁則不會獲得實質(zhì)的質(zhì)量提升(即使該鏈接具有較大的反向權(quán)重)。
與正向權(quán)重同理,對于鏈接i→j′的反向權(quán)重W-(i,j′),網(wǎng)頁j′所具有的入鏈越多,其對主動鏈接來的網(wǎng)頁i的級別的貢獻就應該越小??梢杂镁W(wǎng)頁j′的入度來表示這個關(guān)系,即鏈接i→j′的反向權(quán)重W-(i,j′)與網(wǎng)頁j′的入度in-degree(j′)成反比,即W-(i,j′)∝1/in-degree(j′).通過引入一個比例因子w-(i,j),可將此關(guān)系表示為W-(i,j)=w-(i,j)/in-degree(j). (4)因子w-(i,j)取決于鏈接i→j的多種屬性(詳見下面說明),在簡化應用情形可取為w-(i,j)≡1.0,當存在鏈接i→j∈G;w-(i,j)=0,當不存在鏈接i→j∈G. (5)綜合上述鏈接的雙向傳遞性質(zhì)和雙向權(quán)重,根據(jù)本發(fā)明實施例,來自重要網(wǎng)頁的重要鏈接的推薦(入鏈)、以及指向重要網(wǎng)頁的重要鏈接的引用(出鏈)都可以對網(wǎng)頁的重要性產(chǎn)生較大的影響。這種機制可以鼓勵指向高質(zhì)量網(wǎng)頁的高質(zhì)量(大權(quán)重)的鏈接,提高超鏈接關(guān)系的總體質(zhì)量,并在很大程度上減少對低質(zhì)量信息的鏈接和鏈接交換。
再次,根據(jù)本發(fā)明的評級方法,具有共引用關(guān)系和共指關(guān)系的網(wǎng)頁或網(wǎng)站之間也存在級別傳遞關(guān)系,也就是說共引用關(guān)系和共指關(guān)系能夠充當網(wǎng)頁或網(wǎng)站之間的某種間接的“互惠鏈接”關(guān)系,使得彼此之間的級別數(shù)值能夠互相傳遞、相互增長。
如附圖2所示,編號為2和3的網(wǎng)頁之間沒有任何直接的鏈接關(guān)系,但存在另一個編號為1的網(wǎng)頁,包含了同時指向網(wǎng)頁2和3的鏈接1→2,1→3.也就是說,網(wǎng)頁2和3同時被網(wǎng)頁1引用,或者說網(wǎng)頁1包含了對網(wǎng)頁2和3的共引用(co-citation)。這樣,網(wǎng)頁2和3通過網(wǎng)頁1而形成了一種間接的關(guān)系,此即上述網(wǎng)頁之間的共引用關(guān)系。顯然,這是一種相互的(即雙向的)間接鏈接關(guān)系。
在附圖3,網(wǎng)頁2和3之間也沒有任何直接的鏈接關(guān)系,但是二者同時指向了另一個編號為1的網(wǎng)頁。這樣,網(wǎng)頁2和3通過直接的鏈接關(guān)系2→1和3→1而形成了另一種間接關(guān)系,即共指(co-reference)關(guān)系。共指關(guān)系的鏈接方向正好與共引用關(guān)系的相反(等價于“反向的co-citation”)。這也是一種相互的、雙向的關(guān)系(對應雙向的級別傳遞)。
被很多網(wǎng)頁共引用的兩個網(wǎng)頁,以及指向多個相同網(wǎng)頁的兩個網(wǎng)頁,一般具有較大的相關(guān)性,例如相同的領(lǐng)域、主題或?qū)︻愋拖嗨频馁Y源的引用等。通常,有商業(yè)競爭關(guān)系的公司網(wǎng)站之間一般不會有任何鏈接關(guān)系,然而它們的內(nèi)容則具有很強的相關(guān)性。從整體上看,這些相互競爭的商業(yè)網(wǎng)站之間會存在比較多的共引用和共指關(guān)系,即有較多的第三方網(wǎng)頁會同時引用它們,而它們也可能會指向某些相同的第三方網(wǎng)頁或者網(wǎng)站。PageRank方法等現(xiàn)有技術(shù)并未對這種導出性的鏈接關(guān)系特性加以應用。本發(fā)明的評級方法將上述兩種間接的鏈接關(guān)系集成到評級模型中,以此進一步提高評級結(jié)果的客觀性和穩(wěn)定性。
顯然,這種通過第三方網(wǎng)頁或網(wǎng)站而間接形成的“互惠鏈接”關(guān)系較為客觀地反映了節(jié)點之間在主題、內(nèi)容或類型方面的聯(lián)系,可以更好地反映網(wǎng)絡的鏈接結(jié)構(gòu)對節(jié)點的全局影響;同時它又遠比直接的單向超鏈接關(guān)系難以被人為操縱,因而具備極強的抗拒鏈接作弊的性能。依靠網(wǎng)頁鏈接的共引用和共指關(guān)系進行作弊的難度比鏈接堆積、鏈接交換等作弊方式要困難得多。綜合經(jīng)濟成本、技術(shù)難度、競爭等因素,通過人為設置大量共引用或共指關(guān)系而達到顯著提升自己的網(wǎng)頁級別、同時不增加競爭對手的網(wǎng)頁級別的目的實際上難以實現(xiàn)。
根據(jù)本發(fā)明實施例,與網(wǎng)頁i有共引用關(guān)系的各個網(wǎng)頁j會將其級別R(j)的一部分貢獻給網(wǎng)頁i的級別R(i),其比例系數(shù)WC(i,j)稱為網(wǎng)頁i與j的共引用權(quán)重;而與網(wǎng)頁i有共指關(guān)系的各個網(wǎng)頁j會將其級別R(j)的一部分貢獻給網(wǎng)頁i的級別R(i),其比例系數(shù)WR(i,j)稱為網(wǎng)頁i與j的共指權(quán)重。這兩方面的貢獻分別構(gòu)成公式(1)右邊的第三項和第四項。
進一步地,權(quán)重WC(i,j)和WR(i,j)還可以通過引入兩個新的函數(shù)coci-degree(i,j)和coref-degree(i,j)來確定,后者分別表示共引用和共指關(guān)系的頻次屬性。對于存在共引用關(guān)系得網(wǎng)頁i和網(wǎng)頁j,如果同時收錄二者的第三方網(wǎng)頁越多,則在總體上網(wǎng)頁i、j被同時瀏覽的概率就會增大,表現(xiàn)為這兩個網(wǎng)頁之間有較大的躍遷概率。共引用權(quán)重WC(i,j)就是從網(wǎng)頁j到網(wǎng)頁i的這種躍遷的概率強度。因此,WC(i,j)是與網(wǎng)頁i和網(wǎng)頁j之間的共引用的次數(shù)(或稱為共引用頻次)相關(guān)的一個函數(shù)。用coci-degree(i,j)表示共引用頻次對于從網(wǎng)頁i跳躍到網(wǎng)頁j的概率的貢獻,則共引用權(quán)重WC(i,j)∝coci-degree(i,j).引入一個比例因子wC(i,j),將此關(guān)系表示為WC(i,j)∝wC(i,j)·coci-degree(i,j). (6)因子wC(i,j)依賴于網(wǎng)頁i與j的屬性(詳見下面說明),在簡化應用情形可取為wC(i,j)≡1.0,當i與j存在共引用;wC(i,j)=0,當不存在共引用. (7)相應地,可以認為共指權(quán)重WR(i,j)是由共指關(guān)系引起的從網(wǎng)頁j到網(wǎng)頁i的躍遷概率強度,并且是與網(wǎng)頁i和網(wǎng)頁j之間的共指的次數(shù)(或稱為共指頻次)成正比的一個函數(shù)。用coref-degree(i,j)表示共指頻次對于從網(wǎng)頁i跳躍到網(wǎng)頁j的概率的貢獻,引入比例因子wR(i,j),可將WR(i,j)表示為WR(i,j)∝wR(i,j)·coref-degree(i,j). (8)因子wR(i,j)依賴于網(wǎng)頁i與j的屬性(詳見下面說明),在簡化應用情形可取為wR(i,j)≡1.0,當i與j存在共指;wR(i,j)=0,當不存在共指. (9)根據(jù)本發(fā)明實施例,系數(shù)coci-degree(i,j)為網(wǎng)頁i和網(wǎng)頁j之間的共引用頻次coci_freq(i,j)的函數(shù),即
coci-degree(i,j)=f(coci_freq(i,j)).
在本發(fā)明優(yōu)選實施例的系統(tǒng)配置中,coci-degree(i,j)正比于網(wǎng)頁i和網(wǎng)頁j之間的共引用頻次,并可定義為coci-degree(i,j)=coci_freq(i,j).當i=j,可認為coci_freq(i,j)=in-degree(i).即coci-degree(i,j)=coci_freq(i, j),i≠j;coci-degree(i,i)=in-degree(i). (10)本發(fā)明也可以使用其它的函數(shù)形式f實現(xiàn)coci-degree(i,j),從而分析共引用關(guān)系對網(wǎng)頁或網(wǎng)站評級的其它方面的技術(shù)效果。例如,f(coci_freq)可以為log(coci_freq)或者(coci_freq)1/2等形式。
類似地,根據(jù)本發(fā)明實施例,系數(shù)coref-degree(i,j)為網(wǎng)頁i和網(wǎng)頁j之間的共指頻次coref_freq(i,j)的函數(shù),即coref-degree(i,j)=g(coref_freq(i,j)).
在優(yōu)選系統(tǒng)配置中,coref-degree(i,j)正比于網(wǎng)頁i和網(wǎng)頁j之間的共指頻次,并定義為coref-degree(i,j)=coref_freq(i,j).當i=j時,coref_freq(i,j)=out-degree(i)。即coref-degree(i,j)=coref_freq(i,j),i≠j;coref-degree(i,i)=out-degree(i). (11)本發(fā)明也可以按需要使用其它的函數(shù)形式g,例如log(coref_freq(i,j))或者[coref_freq(i,j)]1/2等形式。
■評級算法綜合上述各個評級因素,本發(fā)明實施例的評級流程如附圖4所示。在步驟410,根據(jù)網(wǎng)頁節(jié)點之間的鏈接關(guān)系,按照上述描述,為節(jié)點之間的每個鏈接設置一個正向權(quán)重W+和一個反向權(quán)重W-,并為任兩個節(jié)點之間的每個共引用設置一個權(quán)重WC、為任兩個節(jié)點之間的每個共指設置一個權(quán)重WR。然后在步驟420,根據(jù)上述公式(1)所描述的評級模型以及公式(2)~(11)所述的4類鏈接關(guān)系性質(zhì),按下列因素逐一確定各個網(wǎng)頁i的級別R(i),即鏈接到網(wǎng)頁i的各個網(wǎng)頁j的級別R(j),以及這些鏈接的正向權(quán)重W+(j,i);網(wǎng)頁i所鏈接的各個網(wǎng)頁j的級別R(j),以及這些鏈接的反向權(quán)重W-(i,j);與網(wǎng)頁i有共引用關(guān)系的各個網(wǎng)頁j的級別R(j),以及這些共引用的權(quán)重WC(i,j);與網(wǎng)頁i有共指關(guān)系的各個網(wǎng)頁j的級別R(j),以及這些共指的權(quán)重WR(i,j)。根據(jù)這些因素,可對每個網(wǎng)頁i的級別值R(i)作精確求解。
上述評級過程包含了一個具體的算法,該算法可由如下概率轉(zhuǎn)移公式描述。這是一個由N個方程組成的N元線性方程組,其中網(wǎng)頁的級別R(i)等價網(wǎng)頁i被隨機選中(瀏覽或點擊)的概率R(i)=c1·Σj→i∈Gw+(j,i)out-degree(j)R(j)+c2·Σi→j∈Gw-(i,j)in-degree(j)R(j)+]]>c3·Σj∈G,j≠icoci-degree(i,j)·wC(i,j)α(j)R(j)+---(12)]]>c4·Σj∈G,j≠icoref-degree(i,j)·wR(i,j)β(j)R(j)+d·E(i),]]>
式中α(j)和β(j)為概率矩陣的歸一化因子,而w+、w-、wC和wR分別是上述4類概率躍遷機制的相應的權(quán)重因子。根據(jù)概率轉(zhuǎn)移變換的要求,常數(shù)c1,c2,c3,c4和d滿足如下關(guān)系d=1-(c1+c2+c3+c4). (13)歸一化的向量E(i)滿足條件Σi∈GE(i)=1,]]>其作用為一個概率外源(external source),d·E(i)表示網(wǎng)頁瀏覽者不沿著網(wǎng)頁之間的鏈接關(guān)系、而是在整體上隨機挑選各個節(jié)點i的概率,在此稱為“個性化評級向量”。其基本性質(zhì)與PageRank中的個性化向量相同。在本發(fā)明實施例優(yōu)選配置中,外部概率源向量E(i)的各個分量都取為1/N,即取平均的先驗概率分布。
由上述算法確定的N個網(wǎng)頁的級別R(i)已是按鏈接關(guān)系瀏覽網(wǎng)頁的隨機過程達到穩(wěn)定狀態(tài)的概率分布,因此滿足如下非負和歸一條件i,R(i)≥0;Σi=1NR(i)≡1.---(14)]]>將上述N個網(wǎng)頁的級別R(i)組成一個列向量R,可將上述公式寫為矩陣形式R=M(c1,c2,c3,c4)·R (15)其中矩陣M是多個矩陣的線性組合M(c1,c2,c3,c4)=c1M++c2M-+c3MC+c4MR+dM0, (16)對于網(wǎng)頁i,j,x∈G,右邊各個矩陣分別定義如下Mi,j+=w+(j,i)out-degree(j),]]>(對于鏈接j→i) (17)Mi,j-=w-(i,j)in-dergree(j),]]>(對于鏈接i→j) (18)Mi,jC=coci-degree(i,j)·wC(i,j)α(j),]]>(對于共引用關(guān)系x→i,x→j) (19)Mi,jR=coref-degree(i,j)·wR(i,j)β(j),]]>(對于共指關(guān)系i→x,j→x) (20)Mi,j0=E(i),]]>對于任意網(wǎng)頁j=1,2,...,N. (21)以上對矩陣M0的推導利用了級別向量R的如下非負和歸一屬性。
上述矩陣M以及M+、M-、MC和MR的每一個都是一個Markov鏈的概率轉(zhuǎn)移矩陣,它們都滿足概率轉(zhuǎn)移矩陣的一個基本屬性對于G中的任意節(jié)點i,轉(zhuǎn)移矩陣的任意一列的元素之和為1,即
i,Mk∈{M,M+,M-,MC,MR,M0}Σi∈GMi,jk=1.---(22)]]>此性質(zhì)保證向量R的上述非負和歸一屬性不因概率轉(zhuǎn)移矩陣的變換而改變。由(17)、(18),有如下關(guān)系式Σi∈Gw+(j,i)=out-degree(j),]]>Σi∈Gw-(i,j)=in-degree(j).---(23)]]>而對于歸一因子α和β,根據(jù)上述概率轉(zhuǎn)移矩陣屬性(19)、(20),二者的定義為α(j)=Σi∈G,i≠jcoci-degree(i,j)·wC(i,j),]]>∃i:wC(i,j)≠0;elseα(j)=1,---(24)]]>β(j)=Σi∈G,i≠jcoref-degree(i,j)·wR(i,j),]]>∃i:wR(i,j)≠0;elseβ(j)=1.---(25)]]>因此,因子α(j)表示網(wǎng)頁j所參與的共引用關(guān)系的總的頻次(加權(quán)和),而比值coci-degree(i,j)/α(j)則為網(wǎng)頁j的級別R(j)由于共引用關(guān)系而分配給網(wǎng)頁i的比例;β(j)表示網(wǎng)頁j所參與的共指關(guān)系的總的頻次(加權(quán)和),coref-degree(i,j)/β(j)為網(wǎng)頁j的級別R(j)由共指關(guān)系分配給網(wǎng)頁i的比例。
上述概率轉(zhuǎn)移矩陣M(c1,c2,c3,c4)表示本發(fā)明實施例的一個綜合模型,可看作是基于雙向鏈接權(quán)重和雙向的共引用關(guān)系的增強PageRank模型。當常數(shù)c1,c2,c3,c4的一部分取值為0時,可由矩陣M(c1,c2,c3,c4)得到不同的簡化模型。例如,PageRank實際上就是由矩陣M(1-d,0,0,0)所表示的一種簡化模型特例,并且其中進一步假設了所有正向鏈接權(quán)重w+(i,j)=1。其它幾種重要的簡化模型包括R+-=M(c1,c2,0,0)·R+-R+C=M(c1,0,c3,0)·R+CR+R=M(c1,0,0,c4)·R+R以及R+-C=M(c1,c2,c3,0)·R+-CR+-R=M(c1,c2,0,c4)·R+-RR+CR=M(c1,0,c3,c4)·R+CR這些評級模型分別利用了一部分評級因素,可用于對同一個網(wǎng)絡結(jié)構(gòu)給出多種評級結(jié)果。這些結(jié)果可以單獨或者聯(lián)合地應用于不同目的。例如,級別向量R+-可單獨地用于對“主動鏈接到高質(zhì)量網(wǎng)頁”情況的度量,部分地顯示創(chuàng)建高質(zhì)量超鏈接行為的效果。
另外,在保證上述各個轉(zhuǎn)移矩陣的任意一列元素之和為1的屬性時,還有一個需要特殊處理的問題,即在實際的網(wǎng)絡鏈接結(jié)構(gòu)中,通常都存在出度或者入度為0的節(jié)點。例如,對于某個非網(wǎng)頁的文檔(包括PDF文件、Word DOC文件等)或者尚未/無法成功下載的網(wǎng)頁j,有out-degree(j)=0;而對于某些沒有被其它任何網(wǎng)頁鏈接的網(wǎng)站首頁k,則in-degree(k)=0.對于前者,矩陣M+的相應列元素都是0,因而將不能滿足上述歸一公式(22)。對于后者,矩陣M-的相應的列元素都是0,不滿足上述公式(22)。而且,這些網(wǎng)頁的存在還有可能導致矩陣MC和MR存在全部元素為0的列,不能滿足公式(22)。
在相應的Markov鏈過程中,這些入度或者出度為0的節(jié)點被稱為“搖擺節(jié)點”(dangling nodes)。本發(fā)明實施例應用一種標準化的數(shù)學技巧對這些節(jié)點進行特殊處理,即如果網(wǎng)絡中的節(jié)點總數(shù)為N,則對于入度為0的節(jié)點,其入度被修正為N;而對于出度為0的節(jié)點,其出度被修正為N;而且,對于這些被修正的節(jié)點所具備的新鏈接(稱為“虛鏈接”virtual links),其正向和反向的鏈接權(quán)重都是1.0,即對于任何源節(jié)點或者目標節(jié)點為被修正的節(jié)點的鏈接,w±=1.0;另外,被修正的節(jié)點不參與共引用頻次和共指頻次的計算。(其它節(jié)點則不做任何處理。)經(jīng)過這樣處理之后,網(wǎng)絡中的任何節(jié)點的入度和出度都不會為0,因而上述矩陣M(c1,c2,c3,c4)對于任何網(wǎng)絡鏈接結(jié)構(gòu)都將是合格的概率轉(zhuǎn)移矩陣。
由上述公式(12)或(15)描述的評級算法所獲得的結(jié)果實際上是N維矩陣M(c1,c2,c3,c4)的主特征向量。該算法可以被高效地實現(xiàn)(詳見后文描述)。
■參數(shù)與權(quán)重因子設置在上述評級方法中,模型參數(shù)c1,c2,c3,c4以及d可按具體應用調(diào)整。其中參數(shù)d具有特殊的作用,它一方面表示網(wǎng)頁瀏覽者不依靠鏈接關(guān)系而是隨機挑選各個網(wǎng)頁節(jié)點的概率強度,另一方面它與評級算法的迭代計算收斂速率有關(guān)d值越大,迭代的收斂越快,但評級結(jié)果越偏離實際的網(wǎng)絡鏈接結(jié)構(gòu)。數(shù)學上,引入?yún)?shù)d(即外部概率源)的目的在于加快Markov鏈達到平穩(wěn)狀態(tài)。
為較小地偏離網(wǎng)絡結(jié)構(gòu)并較快地收斂,通??扇≈10%,即c1+c2+c3+c4≈90%.而c1,c2,c3,c4的比例又可以按需調(diào)整,由此調(diào)整各種鏈接關(guān)系性質(zhì)對級別貢獻的權(quán)重。如果需要強調(diào)直接的鏈接關(guān)系的作用,則可適當增大參數(shù)c1和c2;如果需要強調(diào)由第三方網(wǎng)頁或網(wǎng)站間接形成的“互惠鏈接”關(guān)系的效應,則可增大c3和c4。而c1和c2以及c3和c4二者之間的相對比例也可按同理調(diào)整。
上述評級算法所涉及的權(quán)重因子w+、w-、wC和wR分別表示網(wǎng)頁之間的4種鏈接關(guān)系性質(zhì)對概率轉(zhuǎn)移(即級別傳遞)的強度系數(shù)(傳遞比例),它們都是具體的網(wǎng)頁i和j的多種相關(guān)屬性的函數(shù)。
根據(jù)本發(fā)明實施例,權(quán)重因子w+、w-、wC和wR的一個或多個可以取常數(shù)值。在本方法的一個簡化應用的模型中,w+、w-、wC和wR都為常數(shù),并分別按公式(3)、(5)、(7)、(9)取值,可綜合表示為w+=w-=wC=wR=1.0,當存在相應的鏈接關(guān)系;=0,當無相應關(guān)系時. (26)而當權(quán)重因子wC和wR取為1時,對于網(wǎng)頁i和j之間非空的共引用和共指關(guān)系,由上述定義,歸一因子α和β簡化為α(j)=Σi∈G,i≠jcoci-degree(i,j),]]>β(j)=Σi∈G,i≠jcoref-degree(i,j).---(27)]]>
即分別為網(wǎng)頁j所參與的共引用關(guān)系和共指關(guān)系的總的頻次。
作為一個示例,可將本評級方法的上述簡化模型應用到如附圖5所示的網(wǎng)絡,其中包括N=3個網(wǎng)頁(或者網(wǎng)站)節(jié)點及4個鏈接。根據(jù)這些鏈接關(guān)系,有out-degree(1)=2,out-degree(2)=1,out-degree(3)=1;in-degree(1)=1, in-degree(2)=1,in-degree(3)=2;coci-degree(2,3)=coci-degree(3,2)=1;coref-degree(1,2)=coref-degree(2,1)=1;w-(1,2)=w-(1,3)=w-(2,3)=w-(3,1)=1.0,w+(i,j)=0對其它i,j;w+(2,1)=w+(3,1)=w+(3,2)=w+(1,3)=1.0,w+(i,j)=0對其它i,j;wC(2,3)=wC(3,2)=1.0,wC(i,j)=0對其它i,j;wR(1,2)=wR(2,1)=1.0,wR(i,j)=0對其它i,j;由α和β定義及公式(27)得α(1)=1,α(2)=1,α(3)=1;β(1)=1,β(2)=1,β(3)=1.
將上述各因子以及先驗概率分布E(i)=1/3代入評級公式(12),得到以下線性方程組R(1)=(c2+c4)·R(2)+(c1+c2/2)·R(3)+d/3,R(2)=(c1/2+c4)·R(1)+(c2/2+c3)·R(3)+d/3,R(3)=(c1/2+c2)·R(1)+(c1+c3)·R(2)+d/3.]]>以及約束條件R(1)+R(2)+R(3)=1.
顯然,R(i)是參數(shù)參數(shù)c1,c2,c3,c4及d的函數(shù)。作為簡單示例,設d=0、加權(quán)系數(shù)c1=c2=c3=c4=1/4(即等權(quán)重),則得到評級結(jié)果為R(1)=36/121≈0.2975,R(2)=3/11≈0.2727,R(3)=52/121≈0.4298.
當應用本發(fā)明的方法進行更細致的網(wǎng)頁評級時,權(quán)重因子w+(j,i)、w-(i,j)、wC(i,j)和wR(i,j)可根據(jù)網(wǎng)頁i和j的具體屬性進行定義和調(diào)整,以便更準確地反映網(wǎng)頁之間的上述4種鏈接關(guān)系性質(zhì)對網(wǎng)頁級別傳遞的效果。例如,設函數(shù)A1(i)、A2(j)、A3(i,j)分別表示網(wǎng)頁i的屬性、網(wǎng)頁j的屬性、鏈接i→j或j→i的屬性對權(quán)重因子的作用,則鏈接權(quán)重因子w+或w-可以表示為w+,-(i,j)=A1(i)·A2(j)·A3(i,j),而共引用和共指權(quán)重因子wC、wR可表示為wC(i,j)=A1(i)·A2(j)·∑x∈G[A3(x,i)·A3(x,j)],wR(i,j)=A1(i)·A2(j)·∑x∈G[A3(i,x)·A3(j,x)],其中x是與i、j形成共引用或共指關(guān)系的網(wǎng)頁。
所述網(wǎng)頁的屬性包括該網(wǎng)頁的URL以及該URL的屬性,該網(wǎng)頁的創(chuàng)建、搜集和/或更新時間,該網(wǎng)頁的訪問次數(shù)、訪問頻度,該網(wǎng)頁的上一次評級的結(jié)果等。而網(wǎng)頁的URL屬性又包括主機名和域名的屬性(域名注冊信息、主機IP地址及其地域等),文件目錄的深度,文件名稱及其長度等。
鏈接i→j的屬性包括該鏈接在網(wǎng)頁i中的屬性、網(wǎng)頁j的屬性。后者如上所述;前者包括鏈接在網(wǎng)頁i中的位置(是否處于頁面頂端或中間等),鏈接文字以及鏈接描述文字(包括文字長度、關(guān)鍵詞的數(shù)量、關(guān)鍵詞的主題類別等),鏈接的排版格式信息(包括字體大小、顏色,鏈接圖形的相對大小和視覺效果,以及其它HTML標簽信息),該鏈接在此網(wǎng)頁中被點擊的次數(shù)、頻度、以及點擊者的來源等信息。同時,鏈接i→j的屬性還包括網(wǎng)頁i的屬性與網(wǎng)頁j的屬性的對比情況,包括網(wǎng)頁i的URL與網(wǎng)頁j的URL的比較屬性(例如二者主機之間的IP地址距離或?qū)嶋H地理位置距離、二者文件目錄深度的比較等),二者被訪問次數(shù)的差異、訪問者來源的差異,網(wǎng)頁i、j的文本屬性的差異(包括各自的字符數(shù)長度、關(guān)鍵詞數(shù)量、關(guān)鍵詞和鏈接的密度,以及二者的文本的相似程度)。
在本發(fā)明方法的實際應用中,可根據(jù)上述屬性的一部分或者全部分別調(diào)整各個權(quán)重因子。例如,對于正向鏈接權(quán)重因子w+(j,i),可主要根據(jù)鏈接在源網(wǎng)頁j中的位置、顯示視覺等屬性,區(qū)分各個外出鏈接的權(quán)重,從而更準確地模擬在源網(wǎng)頁j中的各個鏈接向外傳遞網(wǎng)頁j的級別的比例因子。而對于反向鏈接權(quán)重因子w-(i,j),可主要考慮網(wǎng)頁i和j的相關(guān)性(包括標題、鏈接描述文字、主要內(nèi)容、URL中的主機信息等的相關(guān)程度),鏈接i→j及其指向的網(wǎng)頁j同網(wǎng)頁i的相關(guān)性越強,則網(wǎng)頁j的級別對網(wǎng)頁i的級別的貢獻比例即w-(i,j)就越大。
兩個網(wǎng)頁i、j的共引用權(quán)重因子wC(i,j)表示某個與網(wǎng)頁i具有共引用關(guān)系的某個網(wǎng)頁j在所有與網(wǎng)頁i的具有共引用關(guān)系的網(wǎng)頁集合中的重要程度。確定該權(quán)重的過程為共引用權(quán)重分析(co-citation weighting)。在簡單的情況下,所有與網(wǎng)頁i的具有共引用關(guān)系的網(wǎng)頁都具有相同的重要性,即wC(i,j)=1,公式(1)中的共引用權(quán)重WC(i,j)只是正比于共引用頻次coci-degree(i,j).而在一般的情況下,權(quán)重因子wC(i,j)通過比較上述網(wǎng)頁i的屬性、所有與網(wǎng)頁i具有共引用關(guān)系的網(wǎng)頁j的各種相關(guān)的屬性而確定,其中還包括了同時指向網(wǎng)頁i和j的網(wǎng)頁x的屬性,以及鏈接x→j、x→j的屬性。通過這些屬性,可確定網(wǎng)頁i與網(wǎng)頁j之間的某種距離特征,則與網(wǎng)頁i的距離較小的網(wǎng)頁j將具有較大的權(quán)重因子wC(i,j)。
共指權(quán)重因子wR(i,j)表示某個與網(wǎng)頁i具有共指關(guān)系的某個網(wǎng)頁j在所有與網(wǎng)頁i的具有共指關(guān)系的網(wǎng)頁集合中的重要程度。確定該權(quán)重的過程為共指權(quán)重分析(coreferenceweighting)。在簡單的情況下,所有與網(wǎng)頁i的具有共指關(guān)系的網(wǎng)頁具有相同的重要性,即wR(i,j)=1,公式(1)中的共指權(quán)重WR(i,j)只是正比于共指頻次coref-degree(i,j).而在一般的情況下,權(quán)重因子wR(i,j)通過上述各項網(wǎng)頁屬性和各項鏈接屬性而確定,并反映網(wǎng)頁i與網(wǎng)頁j之間的某種距離特征,即如果網(wǎng)頁i、j的距離較小,則權(quán)重因子wR(i,j)被相應地加大。
■評級算法的實現(xiàn)根據(jù)公式(12)或(15)的評級算法所獲得的結(jié)果R(i)是N維矩陣M(c1,c2,c3,c4)的主特征向量(即最大的特征值所對應的特征向量)。在本發(fā)明實施例的上述搜索引擎系統(tǒng)中,該算法的高效率實現(xiàn)需要使用一批關(guān)鍵的數(shù)據(jù)結(jié)構(gòu),即矩陣M+、M-、MC和MR的存儲信息與格式。算法所涉及的外部概率源向量E(i)則不需特別處理。當取等概率分布即E(i)=1/N時,E(i)向量不需要存儲,在計算步驟中直接使用即可;而當取E(i)為某個其它的個性化向量時,則可以把它存放在文件中,其中E(i)各個分量按網(wǎng)頁編號i的順序存放。
根據(jù)本發(fā)明實施例,上述4個矩陣M+、M-、MC和MR的存儲方式各為一個稀疏矩陣文件,分別稱為Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。公式(12)所述的網(wǎng)頁節(jié)點級別的計算方法可按照如下方式實現(xiàn)●首先分析網(wǎng)頁,提取其中包含的鏈接,生成一個Outdegree文件(M+的稀疏矩陣表示),其記錄單位是每個網(wǎng)頁的外出鏈接信息,包括被鏈接網(wǎng)頁的編號和該出鏈的正向權(quán)重。Outdegree文件中的每個網(wǎng)頁記錄的格式為src_didn,(linked_did1,w+1),......,(linked_didn,w+n). (28)其中src_did為鏈出的源網(wǎng)頁的編號,linked_didj為被鏈接網(wǎng)頁的編號,w+j為該鏈接的正向權(quán)重w+(src_did,linked_didj),而整數(shù)n即為網(wǎng)頁src_did的出度out-degree(src_did).
●生成一個Indegree文件(M-的稀疏矩陣表示),記錄每個網(wǎng)頁的所有進入鏈接的信息,包括所有入鏈的反向權(quán)重和該入鏈的鏈出網(wǎng)頁的編號。Indegree文件中每個網(wǎng)頁的記錄格式為lided_didn,(src_did1,w-1),......,(src_didn,w-n). (29)其中l(wèi)inke_did為被鏈接的目標網(wǎng)頁的編號,src_didj為鏈出網(wǎng)頁的編號,w-j為該鏈接的反向權(quán)重w-(src_didj,linked_did),整數(shù)n為網(wǎng)頁linked_did的入度in-degree(linked_did).
根據(jù)本發(fā)明的實施例,Indegree文件可以根據(jù)Outdegree文件來生成,其方法為利用稀疏矩陣的高效轉(zhuǎn)置算法,對Outdegree文件中由src_did與linked_did張成的矩陣進行轉(zhuǎn)置運算(行、列互換);再由鏈接src_did→linked_did的各種屬性計算其反向權(quán)重w-(src_did,linked_did)。
●由Indegree文件生成一個Cocitation文件(MC的稀疏矩陣表示),記錄每個網(wǎng)頁的共引用信息,其記錄格式為didn,(coci_did1,coci_degree1,wc1),......,(coci_didn,coci_degreen,wcn). (30)其中整數(shù)n為后續(xù)三元組的數(shù)目;對于每個與網(wǎng)頁did有共引用關(guān)系的網(wǎng)頁coci_didi,分別用一個三元組來記錄該共引用關(guān)系的頻次信息coci_degreei=coci-degree(coci_didi,did)及其權(quán)重wci=wc(coci_didi,did)。由于與did相關(guān)的歸一因子α(did)可以直接按其定義求出,故不必存放在Cocitation文件中。
●由Outdegree文件生成一個Coreference文件(MR的稀疏矩陣表示),記錄每個網(wǎng)頁的共指信息,其記錄格式為didn,(coref_did1,coref_degree1,wR1),......,(coref_didn,coref_degreen,wRn).(31)其中整數(shù)n為后續(xù)三元組的數(shù)目;對于每個與網(wǎng)頁did有共指關(guān)系的網(wǎng)頁coref_didi,分別用一個三元組記錄該共指關(guān)系的頻次信息coref_degreei=coref-degree(coref_didi,did),以及權(quán)重wRi=wR(coref_didi,did)。與did相關(guān)的歸一因子β(did)可以直接按其定義求出,不必存放在Coreference文件中。
●生成上述4個稀疏矩陣文件之后,即可使用冪方法,進行迭代計算R(n+1)=M(c1,c2,c3,c4)·R(n).
本發(fā)明實施例的網(wǎng)頁級別R(包括R+、R-、R0等)是所對應的M矩陣的主特征向量(即最大的特征值所對應的特征向量)。計算矩陣主特征向量的冪方法(Power Method)適用于這種計算,它是一種迭代計算,從一個任選的非零初始向量R(0)開始,用矩陣M反復對R(0)作乘法運算R(n+1)=M·R(n)=M2·R(n-1)=......=Mn·R(0), (32)直到下述增量小于某個指定的誤差值δ||R(n+1)-R(n)||1=∑i|R(n+1)(i)-R(n)(i)|≤δ, (33)根據(jù)冪方法的收斂性質(zhì),迭代計算R(n+1)=M·R(n)的收斂速率整體上為數(shù)值(1-d)m趨近于0的速率,即limm(1-d)m→0,其中m是迭代次數(shù),而d是公式(12)中的隨機跳躍概率系數(shù)。由(1-d)m≤δ可得到上述迭代計算達到指定誤差δ所需要的迭代次數(shù)為m=log10δ/log10(1-d). (34)根據(jù)本發(fā)明實施例,誤差δ設為0.0001,網(wǎng)絡節(jié)點之間隨機跳躍系數(shù)d=0.1,則可估計出所需的迭代計算次數(shù)至多為m=88.
冪方法的迭代計算流程如圖6所示。在步驟610,系統(tǒng)打開組成矩陣M(c1,c2,c3,c4)的4個矩陣M+、M-、MC和MR的各個稀疏矩陣文件,即上述Outdegree文件、Indegree文件、Cocitation文件和Coreference文件。在步驟620,一個表示網(wǎng)頁的初始級別分布的N維向量R(0)的文件被打開并設置為順序讀入(該文件中每個記錄R(0)(i)一般是1,或者是上一次計算的結(jié)果)。
在步驟630~640,進行迭代計算,其具體步驟如下對于n=0,1,2,...,m-1,在磁盤文件中存放初始級別向量R(n)(i),并在內(nèi)存中分配表示級別向量R(n+1)(i)的數(shù)組;逐行讀取上述4個矩陣M+、M-、MC和MR的稀疏矩陣文件,并逐個讀取向量R(n)(i)的各個分量,按照公式(12),將各個初始級別R(n)(i)逐一傳遞給各個指定的向量R(n+1)(i)中的分量;遍歷完磁盤文件中的向量R(n)(i)的各個分量之后,將內(nèi)存中的向量R(n+1)(i)寫入該文件(即用R(n+1)(i)各個分量替代R(n)(i)的各個分量),然后再以R(n+1)(i)為初始向量,同理計算新的向量R(n+2)(i);重復此過程,直到新的向量R(m)(i)滿足預定的精度。則在步驟650,得到網(wǎng)頁的評級結(jié)果為R(i)=R(m)(i).
在此計算過程中,為保證浮點數(shù)運算的精度,可以將各個向量分量R(n)(i)乘以常數(shù)N(網(wǎng)頁總數(shù)),然后在計算結(jié)束之后再將每個分量R(n)(i)除以N即為網(wǎng)頁的實際級別R(i)。
另外,在上述計算步驟,對于非常大的網(wǎng)頁集合,向量R(i)的全部分量通常無法存放在單個計算機的內(nèi)存中。根據(jù)本發(fā)明實施例,可采用如下分段處理的方法計算超大網(wǎng)頁集合的級別向量將網(wǎng)頁的文檔編號i=1,2,...,N分成等長度的s段,使得向量的每一段R(i)(i=1,2...,s;s+1,...,2s;...)可以存放在內(nèi)存中;同時,將上述4個矩陣M+、M-、MC和MR的稀疏矩陣文件的每一行也按照同樣的文檔號分段方式劃分,從而將每個稀疏矩陣文件按其矩陣列號而分解成為s個較小的文件;隨后即可按上述迭代算法,由初始級別向量R(n)(i)文件和各分段的稀疏矩陣文件,依次計算新的級別向量R(n+1)(i)的每一段;將算好的R(n+1)(i)的每一段按文檔號順序?qū)懭氪疟P文件中,從而得到完整的新的級別向量R(n+1)(i);重復此過程,直到新的向量R(m)(i)滿足預定的精度。
根據(jù)本發(fā)明實施例,上述分段計算過程還可采用分布式計算的方法進行使用s個由高速網(wǎng)絡鏈接的節(jié)點計算機;將初始級別向量R(n)(i)文件分配到各個節(jié)點計算機,并且將上述4個矩陣M+、M-、MC和MR的稀疏矩陣的分段劃分文件按照文檔號分段區(qū)間分配給各個節(jié)點計算機;每個節(jié)點計算機分別計算新的向量R(n+1)(i)的某一段;然后將算好的向量R(n+1)(i)的各段組合成為新的向量R(n+1)(i);再以R(n+1)(i)為初始向量分配給各個節(jié)點計算機,按同樣的分段方式分布計算新的向量R(n+2)(i);重復此過程,直到由各段組合而成的新的向量R(m)(i)滿足指定的精度。
另一方面,由Outdegree文件生成Coreference文件(MR的稀疏矩陣表示)和由Indegree文件生成Cocitation文件(MC的稀疏矩陣表示)的過程也都可以通過分段與分布式計算的方式加快處理過程,即將Outdegree文件和Indegree文件每一行按照文檔號分段方式劃分,然后分配到多個節(jié)點計算機進行處理,再將各個節(jié)點計算機生成的部分Coreference文件和部分Cocitation文件的每一行按照矩陣列號順序合并起來,即分別得到所需要的MR和MC的稀疏矩陣文件。
在上述計算過程中還可應用一些技巧以進一步提高計算效率。在最初計算時,存放在文件中的初始級別向量R(0)可以選取為均勻概率分布,即對于所有網(wǎng)頁i,取R(i)=1/N(N為網(wǎng)頁總數(shù))。在之后的更新計算中,對于新搜集的網(wǎng)頁i,取R(i)=1/N,而對于已存在的網(wǎng)頁j,可取R(j)為上一次計算的結(jié)果。在冪方法計算中,如果適當選擇初始向量R(0),使得它能夠與最后所收斂到的向量接近,則可以使迭代次數(shù)大為減少。對于更新頻度或者程度較小的網(wǎng)頁集,選擇上一次計算得到的評級結(jié)果作為下一次計算的初始級別向量,可以顯著加快計算過程。另外,矩陣計算中有關(guān)加快特征向量計算收斂的其它方法也可以應用到上述計算過程。
本計算方法還可應用于簡化的評級模型中。根據(jù)本發(fā)明實施例,一種簡化情形是將公式(12)中的各個權(quán)重因子w+、w-、wC和wR都取定為常數(shù),例如取w+=w-=wC=wR=1.0(當存在相應的鏈接關(guān)系),則上述計算過程在時/空效率方面可以進行相應優(yōu)化,包括稀疏矩陣文件可直接按照網(wǎng)頁之間的鏈接關(guān)系生成,而不需分析這些權(quán)重所涉及的鏈接和網(wǎng)頁的諸多屬性與元信息記錄;在稀疏矩陣文件中不需存儲這些權(quán)重值,等。
■對網(wǎng)站的評級上述評級方法及其算法實現(xiàn)并不限于對網(wǎng)頁的評級,而是可以直接應用于由任何形式的節(jié)點通過任意的有向鏈接關(guān)系而組成的網(wǎng)絡。上述雙向級別傳遞性質(zhì)、共引用關(guān)系和共指關(guān)系對于各種形式的網(wǎng)絡都是普遍成立的。因此,本發(fā)明的評級算法同樣適用于對網(wǎng)站的評級,只要事先給定了網(wǎng)站之間任意某種形式的鏈接關(guān)系。通常,網(wǎng)站之間并不存在直接的鏈接關(guān)系,但通過對網(wǎng)頁之間的鏈接關(guān)系進行某種變換,可導出網(wǎng)站之間的各種鏈接關(guān)系。由網(wǎng)頁鏈接關(guān)系導出網(wǎng)站鏈接關(guān)系的變換可以有多種形式。由不同變換得到的各種網(wǎng)站鏈接網(wǎng)絡,都可以由本發(fā)明的評級方法對其中的網(wǎng)站節(jié)點進行評級。
在本發(fā)明實施例的搜索引擎系統(tǒng)中,各個網(wǎng)站編號用整數(shù)編號,作為唯一的網(wǎng)站標識號(site ID)。下面用I、J或sid等變量名表示網(wǎng)站的編號,用G表示網(wǎng)站鏈接關(guān)系所構(gòu)成的有向圖,用I→J表示網(wǎng)站I到網(wǎng)站J的鏈接。根據(jù)本發(fā)明實施例,可以用以下方法從網(wǎng)頁之間的鏈接關(guān)系構(gòu)造出網(wǎng)站之間的鏈接關(guān)系
■首先,為每個網(wǎng)站構(gòu)造一個超級網(wǎng)頁,它代表該網(wǎng)站內(nèi)的所有網(wǎng)頁。例如,可以簡單地把一個網(wǎng)站內(nèi)所有網(wǎng)頁的內(nèi)容(特別是其中包含的外出鏈接URL)都線性地合并到一個大網(wǎng)頁文件中,以此網(wǎng)頁文件為超級網(wǎng)頁;或者利用網(wǎng)頁布局方式,對網(wǎng)站內(nèi)不同目錄路徑下的網(wǎng)頁在排版、位置、格式等方面進行區(qū)分,由多個網(wǎng)頁的內(nèi)容組成超級網(wǎng)頁的內(nèi)容。
■然后進行鏈接合并,即將網(wǎng)頁之間的超鏈接關(guān)系轉(zhuǎn)換成為相應的超級網(wǎng)頁之間的鏈接關(guān)系,以此表示網(wǎng)站之間的鏈接關(guān)系。
將網(wǎng)頁鏈接關(guān)系合并為超級網(wǎng)頁鏈接關(guān)系包括如下不同的處理方式。網(wǎng)頁之間的鏈接可分為站內(nèi)鏈接和站間鏈接兩類。對于站間鏈接,即不同網(wǎng)站上的網(wǎng)頁之間的鏈接,可以把任意兩個網(wǎng)站之間的站間網(wǎng)頁鏈接簡化為對應的兩個超級網(wǎng)頁之間的一個鏈接,而這又有兩種具體的方式一種是簡單地將對應的超級網(wǎng)頁之間的鏈接的雙向權(quán)重W+和W-都設置為常數(shù),例如為1.0;另一種是根據(jù)站間之間的網(wǎng)頁鏈接的數(shù)目對超級網(wǎng)頁之間鏈接的權(quán)重W+和W-進行調(diào)整,網(wǎng)頁之間的鏈接數(shù)越多,對應的超級網(wǎng)頁鏈接的權(quán)重越大。
而對于站內(nèi)鏈接,即同一網(wǎng)站上的網(wǎng)頁之間的鏈接,也有兩種處理方式一是忽略站內(nèi)鏈接,即同一網(wǎng)站內(nèi)網(wǎng)頁之間的鏈接對超級網(wǎng)頁之間的鏈接沒有貢獻,也不影響超級網(wǎng)頁鏈接的權(quán)重;另一種是把站內(nèi)鏈接當作是對應的超級網(wǎng)頁指向自己的自鏈接(表現(xiàn)為在同一網(wǎng)頁上的從一處到另一處的超鏈接),并且這些自鏈接同普通的超級網(wǎng)頁之間的鏈接一樣具有雙向權(quán)重。當保留站內(nèi)鏈接作為網(wǎng)站的超級網(wǎng)頁的自鏈接時,這些自鏈接將影響由超級網(wǎng)頁入度、出度和雙向鏈接權(quán)重,并且這些自鏈接也具有雙向的鏈接權(quán)重W+和W-。另一方面,超級網(wǎng)頁的自鏈接不影響超級網(wǎng)頁之間的共引用關(guān)系。
按照上述處理方式構(gòu)造超級網(wǎng)頁之間的鏈接關(guān)系之后,即可按上述方法獲得各個超級網(wǎng)頁I的入度in-degree(I)、出度out-degree(I),以及任兩個超級網(wǎng)頁I、J之間的共引用頻次函數(shù)coci-degree(I,J)、共指頻次函數(shù)coref-degree(I,J),并可進一步設置對應的4類超級網(wǎng)頁鏈接關(guān)系性質(zhì)的各個權(quán)重因子w+(J,I)、w-(I,J)、wC(I,J)、wR(I,J)和權(quán)重函數(shù)W+(J,I)、W-(I,J)、WC(I,J)、WR(I,J)。這樣,公式(1)描述的評級模型即可直接應用于超級網(wǎng)頁,并且由公式(12)或(15)描述的評級算法也可以直接調(diào)用。因此,網(wǎng)站的超級網(wǎng)頁級別向量R(I)的計算與網(wǎng)頁級別向量R(i)的算法同理,只需將超級網(wǎng)頁I替代上述網(wǎng)頁評級算法描述中的網(wǎng)頁i即可。故有如下網(wǎng)站評級算法R(I)=c1·ΣJ→I∈Gw+(J,I)out-degree(J)R(J)+c2·ΣI→J∈Gw-(I,J)in-degree(J)R(J)+]]>c3·ΣJ∈Gcoci-degree(I,J)·wC(I,J)α(J)R(J)+---(35)]]>c4·ΣJ∈Gcoref-degree(I,J)·wR(I,J)β(J)R(J)+d·E(I),---(35)]]>該算法在系統(tǒng)中的具體實現(xiàn)也完全同上述網(wǎng)頁評級算法的高效實現(xiàn)一樣。相關(guān)的權(quán)重因子w+、w-、wC和wR分別表示超級網(wǎng)頁之間的4種鏈接關(guān)系性質(zhì)對網(wǎng)站之間級別傳遞的強度系數(shù)(傳遞比例),它們都可按上述網(wǎng)頁評級的情形,根據(jù)具體的超級網(wǎng)頁I和J的多種相關(guān)屬性進行類似的調(diào)整,以便更準確地反映超級網(wǎng)頁之間的級別傳遞效果。在簡化的網(wǎng)站評級模型中,w+、w-、wC和wR也可取為如公式(26)所示的常數(shù)值(即取值為1或0)。
綜上所述,本發(fā)明的評級方法對網(wǎng)站的評級流程如附圖7所示。在步驟710,按上述方式為每個網(wǎng)站構(gòu)造一個超級網(wǎng)頁,將網(wǎng)頁之間的超鏈接關(guān)系簡化、合并為相應的超級網(wǎng)頁之間的鏈接關(guān)系,從而得到網(wǎng)站之間的有向鏈接圖。然后在步驟720,根據(jù)超級網(wǎng)頁節(jié)點之間的鏈接關(guān)系,為節(jié)點之間的每個鏈接設置一個正向權(quán)重W+和一個反向權(quán)重W-,并為任兩個節(jié)點之間的每個共引用設置一個權(quán)重WC、為任兩個節(jié)點之間的每個共指設置一個權(quán)重WR。在步驟730,根據(jù)上述公式(1)所描述的評級模型以及公式(2)~(11)所述的4類鏈接關(guān)系性質(zhì),按下列因素逐一確定各個超級網(wǎng)頁i的級別R(I),即鏈接到超級網(wǎng)頁I的各個超級網(wǎng)頁J的級別R(J),以及這些鏈接的正向權(quán)重W+(J,I);超級網(wǎng)頁I所鏈接的各個超級網(wǎng)頁J的級別R(J),以及這些鏈接的反向權(quán)重W-(I,J);與超級網(wǎng)頁I有共引用關(guān)系的各個超級網(wǎng)頁J的級別R(J),以及這些共引用的權(quán)重WC(I,J);與超級網(wǎng)頁I有共指關(guān)系的各個超級網(wǎng)頁J的級別R(J),以及這些共指的權(quán)重WR(I,J)。按上述評級算法,由上述各個因素迭代計算超級網(wǎng)頁J的級別向量R(J),直到滿足指定的精度。
另一方面,由于網(wǎng)站數(shù)目遠小于網(wǎng)頁數(shù)目,超級網(wǎng)頁組成的網(wǎng)絡的規(guī)模通常比網(wǎng)頁的網(wǎng)絡小很多。因此,網(wǎng)站的評級計算要比網(wǎng)頁評級計算快很多,內(nèi)存與磁盤存儲的開銷也會小很多。這樣,對于非常大的網(wǎng)頁集合,可以用本發(fā)明的網(wǎng)站評級方法首先獲得各個網(wǎng)站的級別,然后再用近似的方法估計各個網(wǎng)站內(nèi)的網(wǎng)頁的級別。由網(wǎng)站級別估計其中網(wǎng)頁級別的方法有多種形式,只要保證站內(nèi)網(wǎng)頁級別之和等于網(wǎng)站級別即可。例如可以按照目錄深度遞減地將網(wǎng)站的級別分布于各個目錄下的網(wǎng)頁,或者根據(jù)網(wǎng)頁的實際訪問頻次確定分配比例,或者對于較小的網(wǎng)站可采用簡單的均勻分布級別的方式等。這樣獲得的網(wǎng)頁級別的精度雖然比前面所述的網(wǎng)頁級別較低,但是其計算復雜度較小,并且能夠更快地進行更新。特別是,如果相關(guān)的權(quán)重因子取值為公式(26)所示的常數(shù),上述網(wǎng)站評級算法的時、空開銷都可保持很低。對于最新出現(xiàn)的網(wǎng)頁,這種評級方法還能夠比直接基于網(wǎng)頁鏈接關(guān)系的評級方法更為有效,后者通常因為新網(wǎng)頁缺少鏈接關(guān)系而失效。
本發(fā)明的實施例使用了特定的算法步驟和數(shù)據(jù)結(jié)構(gòu),并基于特定的應用系統(tǒng)實現(xiàn)。但是,任何熟悉本領(lǐng)域背景技術(shù)的人員都清楚地知道本發(fā)明的適用范圍并不局限于以這樣的算法和系統(tǒng)。本發(fā)明的技術(shù)方案可被應用于其它多種不同的具體實施方式
。所附的權(quán)利要求
書涵蓋了對該技術(shù)方案的各要素的諸多變形與替換。
權(quán)利要求
1.一種以計算機實現(xiàn)的對網(wǎng)絡節(jié)點評級的方法,根據(jù)節(jié)點之間的有向鏈接關(guān)系而賦予各個節(jié)點一個表示其級別的數(shù)值,其特征在于包括如下步驟a.設置至少一種如下所述的權(quán)重(1)對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個正向權(quán)重;(2)對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個反向權(quán)重;(3)對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共引用關(guān)系設置一個權(quán)重;(4)對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共指關(guān)系設置一個權(quán)重;b.根據(jù)至少一個如下所列舉的因素確定各個節(jié)點的級別(1)鏈接到該網(wǎng)頁的各個節(jié)點的級別,以及這些鏈接的正向權(quán)重;(2)該節(jié)點所鏈接的各個節(jié)點的級別,以及這些鏈接的反向權(quán)重;(3)與該節(jié)點有共引用關(guān)系的各個節(jié)點的級別,以及這些共引用的權(quán)重;(4)與該節(jié)點有共指關(guān)系的各個節(jié)點的級別,以及這些共指的權(quán)重。
2.根據(jù)權(quán)利要求
1所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重分別依賴于節(jié)點的出度、節(jié)點的入度、共引用的頻次、共指的頻次。
3.根據(jù)權(quán)利要求
1所述的網(wǎng)絡節(jié)點評級方法,其特征在于所確定的各個節(jié)點的級別是其入鏈的正向權(quán)重與入鏈的源節(jié)點的級別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標節(jié)點的級別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點的級別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點的級別的加權(quán)和,或者是這4類加權(quán)和的一部分或全部的進一步的加權(quán)和。
4.根據(jù)權(quán)利要求
3所述的網(wǎng)絡節(jié)點評級方法,其特征在于節(jié)點的級別還包括一個表示先驗概率分布的常數(shù)級別。
5.根據(jù)權(quán)利要求
1至3之一所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述節(jié)點為網(wǎng)頁。
6.根據(jù)權(quán)利要求
5所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述鏈接的正向權(quán)重、鏈接的反向權(quán)重、共引用的權(quán)重、共指的權(quán)重還依據(jù)至少一個如下所列舉的因素被設置網(wǎng)頁的屬性,包括該網(wǎng)頁的URL以及該URL的屬性,該網(wǎng)頁的創(chuàng)建、搜集或更新時間,該網(wǎng)頁的訪問次數(shù)、訪問頻度,或者該網(wǎng)頁的上一次評級的結(jié)果;鏈接的屬性,包括鏈接在網(wǎng)頁中的位置,鏈接文字以及鏈接描述文字,鏈接的排版格式信息,該鏈接被點擊的次數(shù)、頻度、以及點擊者的來源信息,鏈接的兩個網(wǎng)頁之間的距離或者所包含的文本內(nèi)容的對比屬性。
7.根據(jù)權(quán)利要求
1至3之一所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述節(jié)點為網(wǎng)站所對應的超級網(wǎng)頁,并且超級網(wǎng)頁之間的鏈接關(guān)系根據(jù)網(wǎng)站的網(wǎng)頁之間的鏈接關(guān)系而獲得。
8.根據(jù)權(quán)利要求
7所述的網(wǎng)絡節(jié)點評級方法,其特征在于網(wǎng)站的超級網(wǎng)頁通過合并該網(wǎng)站中的網(wǎng)頁而構(gòu)造,包括直接聚合網(wǎng)站中各個網(wǎng)頁的內(nèi)容,或者將各個網(wǎng)頁放置于超級網(wǎng)頁中的不同布局位置。
9.根據(jù)權(quán)利要求
7或8所述的網(wǎng)絡節(jié)點評級方法,其特征在于網(wǎng)頁的級別由其所在的網(wǎng)站的超級網(wǎng)頁的級別而確定,其方式包括按照文件目錄將超級網(wǎng)頁的級別分布于各個網(wǎng)頁,或者根據(jù)網(wǎng)頁的實際訪問頻次確定分配比例,或者簡單地將超級網(wǎng)頁的級別平均分配給各個網(wǎng)頁。
10.一種計算機系統(tǒng),通過運行指令序列而根據(jù)節(jié)點之間的有向鏈接關(guān)系賦予各個節(jié)點一個表示其級別的數(shù)值,其特征在于包括實現(xiàn)如下步驟的指令序列a.設置至少一種如下所述的權(quán)重的指令序列對至少一部分鏈接,各設置一個正向權(quán)重;對至少一部分鏈接,各設置一個反向權(quán)重;對至少一部分節(jié)點的共引用關(guān)系,各設置一個權(quán)重;對至少一部分節(jié)點的共指關(guān)系,各設置一個權(quán)重;b.根據(jù)至少一個如下所列舉的因素確定各個節(jié)點的級別的指令序列鏈接到該網(wǎng)頁的各個節(jié)點的級別,以及這些鏈接的正向權(quán)重;該節(jié)點所鏈接的各個節(jié)點的級別,以及這些鏈接的反向權(quán)重;與該節(jié)點有共引用關(guān)系的各個節(jié)點的級別,以及這些共引用的權(quán)重;與該節(jié)點有共指關(guān)系的各個節(jié)點的級別,以及這些共指的權(quán)重。
專利摘要
一種對網(wǎng)絡節(jié)點評級的方法,由節(jié)點之間的多種鏈接關(guān)系性質(zhì)遞歸地確定各個網(wǎng)頁的級別。每個節(jié)點的級別是其入鏈的正向權(quán)重與入鏈的源節(jié)點的級別的加權(quán)和,或者是其出鏈的反向權(quán)重與出鏈的目標節(jié)點的級別的加權(quán)和,或者是其共引用關(guān)系的權(quán)重與共引用關(guān)系節(jié)點的級別的加權(quán)和,或者是其共指關(guān)系的權(quán)重與共指關(guān)系節(jié)點的級別的加權(quán)和,或者是這4類加權(quán)和的進一步的加權(quán)和。網(wǎng)絡節(jié)點可以是網(wǎng)頁,也可以是代表網(wǎng)站內(nèi)所有網(wǎng)頁之間的鏈接關(guān)系的超級網(wǎng)頁。本發(fā)明提供的評級結(jié)果能夠更為全面、準確地反映節(jié)點的質(zhì)量、重要性與權(quán)威性,并且具有較好的穩(wěn)定性、更好地抵抗作弊行為的影響。本發(fā)明的評級方法能夠為網(wǎng)頁搜集、網(wǎng)站分類和搜索結(jié)果排序等應用提供更佳的技術(shù)效果。
文檔編號G06F17/30GK1996299SQ200610165801
公開日2007年7月11日 申請日期2006年12月12日
發(fā)明者孫斌 申請人:孫斌導出引文BiBTeX, EndNote, RefMan
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1