一種提高搜索引擎搜索效率的方法及其系統(tǒng)的制作方法

文檔序號：6607502閱讀：240來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種提高搜索引擎搜索效率的方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域，特別是涉及一種提高搜索引擎搜索效率的方法及其系統(tǒng)。
背景技術(shù)：
搜索引擎(search engine)是一種根據(jù)一定的策略、運用特定的計算機程序搜集互聯(lián)網(wǎng)上的信息，并在對信息進行組織和處理后，將處理后的信息顯示給用戶，以為用戶提供檢索服務(wù)的系統(tǒng)。目前，隨著互聯(lián)網(wǎng)的迅速發(fā)展，搜索引擎已成為互聯(lián)網(wǎng)的重要應(yīng)用之一。為了在互聯(lián)網(wǎng)上數(shù)以百億計的網(wǎng)頁中尋找信息，人們往往求助于搜索引擎。如今搜索引擎索引的網(wǎng)頁越來越多，已經(jīng)達到上百億。加上搜索引擎排名優(yōu)化技術(shù)(SEO)可以使一些相關(guān)性不大的網(wǎng)頁出現(xiàn)在搜索結(jié)果中，使得用戶在輸入查詢詞之后，往往返回大量的結(jié)果；因此，用戶在搜索信息的過程中，往往需要付出大量的勞動，才能從搜索引擎返回的大量結(jié)果中，找到自己想要的信息。這是因為搜索引擎需要在查全率和查準率中找尋一個平衡，并且根據(jù)網(wǎng)頁流行度進行排序，加上搜索引擎排名優(yōu)化技術(shù)(SEO) 的干擾，使得搜索結(jié)果難以準確匹配用戶需求。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)之不足，提供一種提高搜索引擎搜索效率的方法及其系統(tǒng)，通過對搜索引擎返回的結(jié)果進行分析，并加以歸類和排序，從而方便用戶快速定位到目標網(wǎng)頁，提高搜索效率，減少人工勞動。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種提高搜索引擎搜索效率的方法，包括如下步驟對搜索引擎的搜索結(jié)果進行預(yù)處理，獲取網(wǎng)頁url、命中關(guān)鍵字；對網(wǎng)頁url進行分析，過濾出屬于網(wǎng)站首頁的url，將本步驟過濾出的搜索結(jié)果標記為首頁型并存入分類搜索結(jié)果庫；對上一步驟之后余下的網(wǎng)頁進行下載；對所下載的網(wǎng)頁進行結(jié)構(gòu)分析，過濾出屬于目錄型網(wǎng)頁，將本步驟過濾出的搜索結(jié)果標記為目錄型并存入分類搜索結(jié)果庫；將上一步驟之后余下的網(wǎng)頁認定為內(nèi)容型網(wǎng)頁，對內(nèi)容型網(wǎng)頁進行正文分析，判斷正文中是否包含關(guān)鍵字，并將分析結(jié)果存入分類搜索結(jié)果庫；對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示，并對用戶提供分類瀏覽和排序的步驟。所述的對搜索引擎的搜索結(jié)果進行預(yù)處理而獲取網(wǎng)頁url、命中關(guān)鍵字的步驟，是通過分析搜索結(jié)果的html代碼，使用模板匹配方式，提取每一條搜索結(jié)果的屬性。所述的對網(wǎng)頁url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟，是將url中的協(xié)議之后，以域名結(jié)束，或者以首個“/”分隔符結(jié)束來定義為網(wǎng)站首頁。
4
所述的對網(wǎng)頁url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟，還包括將url 中的協(xié)議之后，以第二個或第三個“/”分隔符結(jié)束來定義為二級網(wǎng)站首頁或三級網(wǎng)站首頁。所述的對網(wǎng)頁進行結(jié)構(gòu)分析而過濾出屬于目錄型網(wǎng)頁，是根據(jù)文字鏈接比，來判斷是否屬于目錄型網(wǎng)頁，其包括如下步驟al.使用正則匹配獲取所有超鏈接，并在去除空格后，計算全部超鏈接文本的字數(shù) L；a2.去除html標記、腳本代碼、樣式代碼，得到純文本，并在去除空格后，計算全部純文本字數(shù)T ；a3.計算L/T的值，在該L/T的值超過預(yù)設(shè)閾值時，則認定為目錄型網(wǎng)頁，并將此類型的網(wǎng)頁標記為目錄型并保存到分類搜索結(jié)果庫。所述的對內(nèi)容型網(wǎng)頁進行正文分析，判斷正文中是否包含關(guān)鍵字，其包括如下步驟bl.根據(jù)html網(wǎng)頁源代碼建立標簽樹的模型；b2.遍歷該樹，計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù)；b3.比較各父節(jié)點的文字字數(shù)，抽取出父節(jié)點中所包含的文字字數(shù)最多的一個為該網(wǎng)頁的正文，判斷該正文中是否包含關(guān)鍵字，對包含關(guān)鍵字的作出對應(yīng)的標記，并保存到分類搜索結(jié)果庫。一種提高搜索引擎搜索效率的系統(tǒng)，包括搜索結(jié)果預(yù)處理模塊，用于對搜索引擎的返回結(jié)果進行分析處理，并提取每一條搜索結(jié)果的屬性；網(wǎng)頁url分析模塊，用于對所提取的網(wǎng)頁url進行分析；網(wǎng)頁爬蟲模塊，用于下載非網(wǎng)站首頁類型的網(wǎng)頁；網(wǎng)頁結(jié)構(gòu)分析模塊，用于分析網(wǎng)頁結(jié)構(gòu)；網(wǎng)頁正文分析模塊用于進行正文抽取，獲取正文字數(shù)，并判斷正文中是否包括搜索的關(guān)鍵字；分類搜索結(jié)果庫，用于保存分析后的搜索結(jié)果；分類顯示模塊，用于分類顯示分析后的搜索結(jié)果；其中，搜索結(jié)果預(yù)處理模塊的輸出接至網(wǎng)頁url分析模塊的輸入，前者將提取的每一條搜索結(jié)果的屬性輸出給后者；網(wǎng)頁url分析模塊的輸出分別接至網(wǎng)頁爬蟲模塊和分類搜索結(jié)果庫，網(wǎng)頁url分析模塊將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié)果庫，將屬于非網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊；網(wǎng)頁爬蟲模塊的輸出接至網(wǎng)頁結(jié)構(gòu)分析模塊的輸入，前者將所下載的網(wǎng)頁內(nèi)容輸出給后者；網(wǎng)頁結(jié)構(gòu)分析模塊的輸出分別接至網(wǎng)頁正文分析模塊和分類搜索結(jié)果庫，網(wǎng)頁結(jié)構(gòu)分析模塊將屬于目錄型的網(wǎng)頁url輸出給分類搜索結(jié)果庫，將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模塊；網(wǎng)頁正文分析模塊的輸出接至分類搜索結(jié)果庫模塊，前者將分析的結(jié)果輸出給后者；分類搜索結(jié)果庫模塊的輸出接至分類顯示模塊，前者將保存后的分析結(jié)果輸出給后者。本發(fā)明的一種提高搜索引擎搜索效率的方法及其系統(tǒng)，可以將網(wǎng)頁區(qū)分為三種類型網(wǎng)站首頁類型，指一個網(wǎng)站的首頁或二級首頁，其url特征為以域名結(jié)束或者目錄結(jié) 束；目錄型網(wǎng)頁類型，當(dāng)一個網(wǎng)頁的內(nèi)容，相當(dāng)大一部分屬于超鏈接時，這種網(wǎng)頁一般是起
5到導(dǎo)航作用，歸屬到目錄型網(wǎng)頁類型；內(nèi)容型網(wǎng)頁類型，不屬于網(wǎng)站首頁類型和目錄型網(wǎng)頁類型的網(wǎng)頁，歸屬到內(nèi)容網(wǎng)頁類型。本發(fā)明的有益效果是，由于采用搜索結(jié)果預(yù)處理模塊對搜索引擎的返回結(jié)果進行分析，并提取搜索結(jié)果的屬性；采用網(wǎng)頁url分析模塊對所提取的網(wǎng)頁url進行分析，并過濾出網(wǎng)站首頁類型的網(wǎng)頁，保存到分類搜索結(jié)果庫；采用網(wǎng)頁爬蟲模塊對非網(wǎng)站首頁類型的網(wǎng)頁進行下載，采用網(wǎng)頁結(jié)構(gòu)分析模塊對所下載的非網(wǎng)站首頁類型的網(wǎng)頁進行分析，并過濾出目錄型網(wǎng)頁，保存到分類搜索結(jié)果庫；采用網(wǎng)頁正文分析模塊對非網(wǎng)站首頁類型和非目錄型的網(wǎng)頁進行正文抽取，獲取正文字數(shù)，并判斷正文中是否包括搜索的關(guān)鍵字，保存到分類搜索結(jié)果庫；采用分類顯示模塊對分析后的搜索結(jié)果進行分類顯示和排序，使得用戶可以將搜索結(jié)果進一步進行分析和分類，并通過類別導(dǎo)航和排序規(guī)則，實現(xiàn)快速瀏覽、定位到最匹配的信息。因此，本發(fā)明能大幅提高用戶的檢索效率，減少用戶的勞動強度；本發(fā) 明還可將分析結(jié)果保存到數(shù)據(jù)庫中，從而提供給多用戶使用，減少網(wǎng)絡(luò)流量。以下結(jié)合附圖及實施例對本發(fā)明作進一步詳細說明；但本發(fā)明的一種提高搜索引擎搜索效率的方法及其系統(tǒng)不局限于實施例。

圖1是本發(fā)明的原理框圖；圖2是本發(fā)明的流程示意圖；圖3是本發(fā)明的html標簽樹的結(jié)構(gòu)示意圖。
具體實施例方式實施例，請參見圖1所示，本發(fā)明的一種提高搜索引擎搜索效率的系統(tǒng)，包括搜索結(jié)果預(yù)處理模塊1，用于對搜索引擎的返回結(jié)果進行分析處理，并提取每一條搜索結(jié)果的屬性，包括網(wǎng)頁url、命中關(guān)鍵字；網(wǎng)頁url分析模塊2，用于對所提取的網(wǎng)頁url進行分析，以過濾出網(wǎng)站首頁類型的url和非網(wǎng)站首頁類型的url ；網(wǎng)頁爬蟲模塊3，用于下載非網(wǎng)站首頁類型的網(wǎng)頁；網(wǎng)頁結(jié)構(gòu)分析模塊4，用于分析網(wǎng)頁結(jié)構(gòu)，以根據(jù)文字鏈接比分離出目錄型網(wǎng)頁；網(wǎng)頁正文分析模塊5 用于進行正文抽取，獲取正文字數(shù)，并判斷正文中是否包括搜索的關(guān)鍵字；分類搜索結(jié)果庫6，用于保存分析后的搜索結(jié)果；分類顯示模塊7，用于分類顯示分析后的搜索結(jié)果；其中，搜索結(jié)果預(yù)處理模塊1的輸出接至網(wǎng)頁url分析模塊2的輸入，前者將提取的每一條搜索結(jié)果的屬性輸出給后者；網(wǎng)頁url分析模塊2的輸出分別接至網(wǎng)頁爬蟲模塊 3和分類搜索結(jié)果庫4，網(wǎng)頁url分析模塊2將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié) 果庫6，將屬于非網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊3 ；網(wǎng)頁爬蟲模塊3的輸出接至網(wǎng)頁結(jié)構(gòu)分析模塊4，前者將所下載的網(wǎng)頁內(nèi)容輸出給后者；網(wǎng)頁結(jié)構(gòu)分析模塊4的輸出分別接至網(wǎng)頁正文分析模塊5和分類搜索結(jié)果庫6，網(wǎng)頁結(jié)構(gòu)分析模塊4將屬于目錄型的網(wǎng) 頁url輸出給分類搜索結(jié)果庫6，將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模
6塊5 ；網(wǎng)頁正文分析模塊5的輸出接至分類搜索結(jié)果庫模塊6，前者將分析的結(jié)果輸出給后者；分類搜索結(jié)果庫模塊6的輸出接至分類顯示模塊7，前者將保存后的分析結(jié)果輸出給后
者ο本發(fā)明的一種用于提供搜索引擎搜索效率的系統(tǒng)，可以將網(wǎng)頁區(qū)分為三種類型網(wǎng)站首頁類型，指一個網(wǎng)站的首頁或二級首頁，其url特征為以域名結(jié)束或者目錄結(jié)束，如http //www, abc. com禾口 http //www, abc. com/123/ ；目錄型網(wǎng)頁類型，當(dāng)一個網(wǎng)頁的內(nèi) 容，相當(dāng)大一部分屬于超鏈接時，這種網(wǎng)頁一般是起到導(dǎo)航作用，歸屬到目錄型網(wǎng)頁類型；內(nèi)容型網(wǎng)頁類型，不屬于網(wǎng)站首頁類型和目錄型網(wǎng)頁類型的網(wǎng)頁，歸屬到內(nèi)容網(wǎng)頁類型。本發(fā)明的一種提高搜索引擎搜索效率的方法，請參見圖2所示，它包括以下步驟步驟Si，搜索引擎按用戶輸入的關(guān)鍵字進行搜索，并把搜索結(jié)果輸出給搜索結(jié)果預(yù)處理模塊1 ；執(zhí)行步驟S2 ；步驟S2，搜索結(jié)果預(yù)處理模塊1對搜索結(jié)果進行預(yù)處理，分拆出每一條搜索結(jié)果，提取其屬性網(wǎng)頁url、關(guān)鍵字(即用戶輸入的查詢關(guān)鍵字，搜索引擎對這些關(guān)鍵字使用顏色標記)，并把每一條搜索結(jié)果的屬性輸出給網(wǎng)頁url分析模塊2 ；執(zhí)行步驟S3 ；步驟S3，網(wǎng)頁url分析模塊2對提取的url進行分析，執(zhí)行步驟S4 ；步驟S4,網(wǎng)頁url分析模塊2對提取的url首先判斷是否是網(wǎng)站首頁類型或用戶自定義類型的網(wǎng)頁url，如是則將其直接送入分類搜索結(jié)果庫模塊6中，并執(zhí)行步驟S9，否則將其送入網(wǎng)頁爬蟲模塊3，并執(zhí)行步驟S5 ；步驟S5，網(wǎng)頁爬蟲模塊3對排除網(wǎng)站首頁類型的網(wǎng)頁url或者用戶自定義類型的網(wǎng)頁url后的剩余網(wǎng)頁進行下載，并將下載結(jié)果輸出給網(wǎng)頁結(jié)構(gòu)分析模塊4 ；執(zhí)行步驟S6 ；步驟S6，網(wǎng)頁結(jié)構(gòu)分析模塊4對網(wǎng)頁爬蟲模塊3所下載的網(wǎng)頁進行分析，提取下載網(wǎng)頁的文字鏈接比；執(zhí)行步驟S7 ；步驟S7,網(wǎng)頁結(jié)構(gòu)分析模塊4根據(jù)所提取的文字鏈接比，判斷是否為目錄型網(wǎng)頁，如是則將屬于目錄型的網(wǎng)頁送入分類搜索結(jié)果庫模塊6中，并執(zhí)行步驟S9，否則將屬于非目錄型的網(wǎng)頁送入網(wǎng)頁正文分析模塊5，并執(zhí)行步驟S8 ；步驟S8,網(wǎng)頁正文分析模塊5對排除目錄型的網(wǎng)頁進行正文分析，抽取正文，計算正文字數(shù)，并判斷正文中是否包含步驟S2所提取的關(guān)鍵字，將分析的結(jié)果送入分類搜索結(jié) 果庫模塊6中；執(zhí)行步驟S9;步驟S9，分類搜索結(jié)果庫模塊6分別對步驟S4、步驟S7、步驟S8輸送過來的結(jié)果進行保存，并輸出給分類顯示模塊7 ；執(zhí)行步驟SlO ；步驟S10，分類顯示模塊7對分類搜索結(jié)果庫所保存的結(jié)果進行分類顯示。其中，上述步驟S2中，由于搜索引擎返回頁的結(jié)果集都是按照一定的規(guī)則排列的，因此通過分析其html代碼，使用模板匹配的方法，即可提取每條結(jié)果的屬性。上述步驟S3、S4中，url即統(tǒng)一資源定位符，其構(gòu)成為protocol:// hostname[port]/path/[ ；parameters][ ？ query]#fragment例如http://www. abc. com/home/welcome, html,其中 http:// 表示協(xié)議，www. abc. com表示域名，home表示路徑，welcome, html表示文件。在協(xié)議之后，以域名結(jié)束，或者以首個“/”分隔符結(jié)束的url屬于網(wǎng)站首頁類型。對于網(wǎng)站首頁型不再分析，直接入搜
7索結(jié)果庫，并標記為首頁型。在此步驟，可提供用戶設(shè)定多種規(guī)則，過濾出更多類型。例如在協(xié)議之后，以第二個“/”分割符號結(jié)束的Url屬于二級網(wǎng)站首頁。上述步驟S6、S7中，是對下載的網(wǎng)頁進行分析，提取下載網(wǎng)頁的文字鏈接比。網(wǎng)頁源代碼包括四部分html標記、腳本代碼、樣式代碼和文本，瀏覽器通過html 標記、腳本代碼、樣式代碼使文本呈現(xiàn)不同的表現(xiàn)形式，其中，使用<a>和</a>標記的文本表示超鏈接文本；文字鏈接比是全部超鏈接文本占全部文本的比例。首先是使用正則匹配的方法獲取所有超鏈接，其表達式為<a.* >(.* )</a>。其中，(· *)部分即超鏈接所包含的文本；<a. * ？ >表示匹配<a開頭，任意字符后，第一個> 結(jié)束，并且將“任意字符”保存到一個變量group (1)。例如該表達式能匹配到<a>我是一個超鏈接</a>，并且將“我是一個超鏈接”這個超鏈接文本存儲到group (1)變量，由此可以獲取全部超鏈接文本，計算全部超鏈接字數(shù)L (不包含空格)。其次，為了得到純文本，需去除html標記、腳本代碼、樣式代碼先將〈script. * ？ ></script>替換為空，去除腳本代碼；然后將〈style. * ？ ></style>替換為空，去除樣式代碼；最后將<.* >替換為空，去除html標記，余下的部分即為純文本。此時，即可計算全部純文本的字數(shù)T (不包括空格)。最后，計算L/T的值，即超鏈接所占的比例。如L/T超過預(yù)設(shè)閾值，則認為是目錄型網(wǎng)頁，將此類型網(wǎng)頁入分類搜索結(jié)果庫，并標記為目錄型。上述步驟S8中，是對排除目錄型網(wǎng)頁后，對剩余的網(wǎng)頁進行正文抽取。目前，雖然進行正文抽取比較成熟和穩(wěn)定的方式是模板匹配，其提取準確性高，但該方法只適用于既定的網(wǎng)頁類型。因此，對于未知類型的內(nèi)容網(wǎng)頁，本發(fā)明采用結(jié)合html 標簽樹的方法，判斷文本密度最大的節(jié)點，進行正文抽取。利于html標簽樹進行正文抽取的具體做法為首先根據(jù)html網(wǎng)頁代碼建立標簽樹的模型。標簽樹，是表示網(wǎng)頁源代碼層次關(guān)系的一個樹狀結(jié)構(gòu)，根據(jù)網(wǎng)頁源代碼中html標簽之間的嵌套關(guān)系，以<html>為根節(jié)點，它內(nèi) 嵌的下一級標簽為子節(jié)點，若子節(jié)點還內(nèi)嵌標簽，則作為子節(jié)點的子節(jié)點，以此類推形成樹狀結(jié)構(gòu)。每個子節(jié)點的上一級節(jié)點為父節(jié)點，每個子節(jié)點只有一個父節(jié)點；一個節(jié)點可能是一個或幾個標簽的父節(jié)點，同時又是另一個標簽的子節(jié)點；最后一級節(jié)點是葉子節(jié)點，包含文本，葉子節(jié)點沒有子節(jié)點。如圖3所示，是一個普通的html標簽樹，其葉子節(jié)點包含文字段落。在圖3中， html下為head禾口 body的牛艮節(jié)點，head又包含meta禾口 title兩個子節(jié)點，其中meta禾口 title 均為葉子節(jié)點，表示文字段落；body為Tablel、Table2、Table3的父節(jié)點，其中Tablel的葉子節(jié)點為Divl, Table2的葉子節(jié)點為Div2、Div3、Div4，Table3的葉子節(jié)點為Div5 ；這里，葉子節(jié)點Divl、Div2、Div3、Div4、Div5均表示文字段落。其次，遍歷該樹，計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù)，字數(shù)最多的，即表示文本密度最大，可認為是正文部分(圖3中，文本密度最大的部分是Table2)。最后，比較各父節(jié)點的文字字數(shù)，抽取出父節(jié)點中所包含的文字字數(shù)最多的一個為該網(wǎng)頁的正文(即Table2)，判斷該正文中是否包含步驟S2所提取的關(guān)鍵字，對包含關(guān)鍵字的作出對應(yīng)的標記，并保存到分類搜索結(jié)果庫。
8
上述步驟SlO中，其分類包括網(wǎng)站首頁類型、目錄網(wǎng)頁類型，內(nèi)容網(wǎng)頁類型，其中，內(nèi)容網(wǎng)頁類型又可分為關(guān)鍵字是否匹配。在每個類別內(nèi)，都可以進行排序，以便用戶快速定位到所需要的信息。例如根據(jù)網(wǎng)頁url進行排序，或者根據(jù)網(wǎng)頁正文長度進行排序等寸。本發(fā)明的一種用于提高搜索引擎搜索效率的方法及其系統(tǒng)，可以將搜索結(jié)果進行進一步分析和分類，通過類別導(dǎo)航和排序規(guī)則，可以使用戶快速瀏覽、定位到最匹配的信息。如將本發(fā)明的系統(tǒng)結(jié)合元搜索，則能大幅提高檢索效率，減少用戶的勞動強度；如將本發(fā)明的分析結(jié)果保存到數(shù)據(jù)庫中，則可提供給多用戶使用，從而減少網(wǎng)絡(luò)流量。上述實施例僅用來進一步說明本發(fā)明的一種用于提高搜索引擎搜索效率的方法及其系統(tǒng)，但本發(fā)明并不局限于實施例，凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾，均落入本發(fā)明技術(shù)方案的保護范圍內(nèi)。
9
權(quán)利要求
一種提高搜索引擎搜索效率的方法，其特征在于包括如下步驟對搜索引擎的搜索結(jié)果進行預(yù)處理，獲取網(wǎng)頁url、命中關(guān)鍵字；對網(wǎng)頁url進行分析，過濾出屬于網(wǎng)站首頁的url，將本步驟過濾出的搜索結(jié)果標記為首頁型并存入分類搜索結(jié)果庫；對上一步驟之后余下的網(wǎng)頁進行下載；對所下載的網(wǎng)頁進行結(jié)構(gòu)分析，過濾出屬于目錄型網(wǎng)頁，將本步驟過濾出的搜索結(jié)果標記為目錄型并存入分類搜索結(jié)果庫；將上一步驟之后余下的網(wǎng)頁認定為內(nèi)容型網(wǎng)頁，對內(nèi)容型網(wǎng)頁進行正文分析，判斷正文中是否包含關(guān)鍵字，并將分析結(jié)果存入分類搜索結(jié)果庫；對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示，并對用戶提供分類瀏覽和排序的步驟。
2.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法，其特征在于所述的對搜索引擎的搜索結(jié)果進行預(yù)處理而獲取網(wǎng)頁url、命中關(guān)鍵字的步驟，是通過分析搜索結(jié)果的 html代碼，使用模板匹配方式，提取每一條搜索結(jié)果的屬性。
3.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法，其特征在于所述的對網(wǎng)頁 url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟，是將url中的協(xié)議之后，以域名結(jié)束，或者以首個“/”分隔符結(jié)束來定義為網(wǎng)站首頁。
4.根據(jù)權(quán)利要求3所述的提高搜索引擎搜索效率的方法，其特征在于所述的對網(wǎng)頁 url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟，還包括將url中的協(xié)議之后，以第二個或第三個“/”分隔符結(jié)束來定義為二級網(wǎng)站首頁或三級網(wǎng)站首頁。
5.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法，其特征在于所述的對網(wǎng)頁進行結(jié)構(gòu)分析而過濾出屬于目錄型網(wǎng)頁，是根據(jù)文字鏈接比，來判斷是否屬于目錄型網(wǎng)頁，其包括如下步驟al.使用正則匹配獲取所有超鏈接，并在去除空格后，計算全部超鏈接文本的字數(shù)L ； a2.去除html標記、腳本代碼、樣式代碼，得到純文本，并在去除空格后，計算全部純文本字數(shù)T;a3.計算L/T的值，在該L/T的值超過預(yù)設(shè)閾值時，則認定為目錄型網(wǎng)頁，并將此類型的網(wǎng)頁標記為目錄型并保存到分類搜索結(jié)果庫。
6.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法，其特征在于所述的對內(nèi)容型網(wǎng)頁進行正文分析，判斷正文中是否包含關(guān)鍵字，其包括如下步驟bl.根據(jù)html網(wǎng)頁源代碼建立標簽樹的模型； b2.遍歷該樹，計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù)； b3.比較各父節(jié)點的文字字數(shù)，抽取出父節(jié)點中所包含的文字字數(shù)最多的一個為該網(wǎng) 頁的正文，判斷該正文中是否包含關(guān)鍵字，對包含關(guān)鍵字的作出對應(yīng)的標記，并保存到分類搜索結(jié)果庫。
7.一種提高搜索引擎搜索效率的系統(tǒng)，其特征在于包括搜索結(jié)果預(yù)處理模塊，用于對搜索引擎的返回結(jié)果進行分析處理，并提取每一條搜索結(jié)果的屬性；網(wǎng)頁url分析模塊，用于對所提取的網(wǎng)頁url進行分析；網(wǎng)頁爬蟲模塊，用于下載非網(wǎng)站首頁類型的網(wǎng)頁；網(wǎng)頁結(jié)構(gòu)分析模塊，用于分析網(wǎng)頁結(jié)構(gòu)；網(wǎng)頁正文分析模塊用于進行正文抽取，獲取正文字數(shù)，并判斷正文中是否包括搜索的關(guān)鍵字；分類搜索結(jié)果庫，用于保存分析后的搜索結(jié)果；分類顯示模塊，用于分類顯示分析后的搜索結(jié)果；其中，搜索結(jié)果預(yù)處理模塊的輸出接至網(wǎng)頁url分析模塊的輸入，前者將提取的每一條搜索結(jié)果的屬性輸出給后者；網(wǎng)頁url分析模塊的輸出分別接至網(wǎng)頁爬蟲模塊和分類搜索結(jié)果庫，網(wǎng)頁url分析模塊將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié)果庫，將屬于非網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊；網(wǎng)頁爬蟲模塊的輸出接至網(wǎng)頁結(jié)構(gòu)分析模塊的輸入，前者將所下載的網(wǎng)頁內(nèi)容輸出給后者；網(wǎng)頁結(jié)構(gòu)分析模塊的輸出分別接至網(wǎng)頁正文分析模塊和分類搜索結(jié)果庫，網(wǎng)頁結(jié)構(gòu)分析模塊將屬于目錄型的網(wǎng)頁url輸出給分類搜索結(jié)果庫，將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模塊；網(wǎng)頁正文分析模塊的輸出接至分類搜索結(jié)果庫模塊，前者將分析的結(jié)果輸出給后者；分類搜索結(jié)果庫模塊的輸出接至分類顯示模塊，前者將保存后的分析結(jié)果輸出給后者。
全文摘要
本發(fā)明公開了一種提高搜索引擎搜索效率的方法及其系統(tǒng)，包括搜索結(jié)果預(yù)處理模塊、網(wǎng)頁url分析模塊、網(wǎng)頁爬蟲模塊、網(wǎng)頁結(jié)構(gòu)分析模塊、網(wǎng)頁正文分析模塊、分類搜索結(jié)果庫和分類顯示模塊；它將搜索引擎的返回結(jié)果進行預(yù)處理，獲取網(wǎng)頁url、命中關(guān)鍵字；再對網(wǎng)頁url進行分析，并保存到分類搜索結(jié)果庫中，其中包括對屬于網(wǎng)站首頁類型的網(wǎng)頁進行過濾，對其余的網(wǎng)頁進行下載，并根據(jù)文字鏈接比，判斷是否屬于目錄型網(wǎng)頁，對非網(wǎng)站首頁類型和非目錄網(wǎng)頁類型的網(wǎng)頁進行正文抽取，提取正文字數(shù)，并判斷正文中是否包含關(guān)鍵字；最后對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示。通過本發(fā)明，能夠大幅提高用戶的搜索效率，減少其勞動強度。
文檔編號G06F17/30GK101908071SQ20101025010
公開日2010年12月8日申請日期2010年8月10日優(yōu)先權(quán)日2010年8月10日
發(fā)明者劉祥南, 林勝通, 章正道申請人:廈門市美亞柏科信息股份有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：章正道;林勝通;劉祥南
技術(shù)所有人：廈門市美亞柏科信息股份有限公司
我是此專利的發(fā)明人

上一篇：多核環(huán)境下線程組地址空間調(diào)度和切換線程的方法
上一篇：一種三維條形碼標簽及其制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

搜索引擎系統(tǒng)相關(guān)技術(shù)

搜索引擎系統(tǒng)源碼相關(guān)技術(shù)

搜索引擎抓取系統(tǒng)概述相關(guān)技術(shù)

搜索引擎系統(tǒng)架構(gòu)相關(guān)技術(shù)

搜索引擎和推薦系統(tǒng)相關(guān)技術(shù)

日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種提高搜索引擎搜索效率的方法及其系統(tǒng)的制作方法