日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種提高搜索引擎搜索效率的方法及其系統(tǒng)的制作方法

文檔序號:6607502閱讀:240來源:國知局
專利名稱:一種提高搜索引擎搜索效率的方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種提高搜索引擎搜索效率的方法 及其系統(tǒng)。
背景技術(shù)
搜索引擎(search engine)是一種根據(jù)一定的策略、運用特定的計算機程序搜集 互聯(lián)網(wǎng)上的信息,并在對信息進行組織和處理后,將處理后的信息顯示給用戶,以為用戶提 供檢索服務(wù)的系統(tǒng)。目前,隨著互聯(lián)網(wǎng)的迅速發(fā)展,搜索引擎已成為互聯(lián)網(wǎng)的重要應(yīng)用之 一。為了在互聯(lián)網(wǎng)上數(shù)以百億計的網(wǎng)頁中尋找信息,人們往往求助于搜索引擎。如今搜索引擎索引的網(wǎng)頁越來越多,已經(jīng)達到上百億。加上搜索引擎排名優(yōu)化技 術(shù)(SEO)可以使一些相關(guān)性不大的網(wǎng)頁出現(xiàn)在搜索結(jié)果中,使得用戶在輸入查詢詞之后, 往往返回大量的結(jié)果;因此,用戶在搜索信息的過程中,往往需要付出大量的勞動,才能從 搜索引擎返回的大量結(jié)果中,找到自己想要的信息。這是因為搜索引擎需要在查全率和查 準率中找尋一個平衡,并且根據(jù)網(wǎng)頁流行度進行排序,加上搜索引擎排名優(yōu)化技術(shù)(SEO) 的干擾,使得搜索結(jié)果難以準確匹配用戶需求。

發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)之不足,提供一種提高搜索引擎搜索效率的方法 及其系統(tǒng),通過對搜索引擎返回的結(jié)果進行分析,并加以歸類和排序,從而方便用戶快速定 位到目標網(wǎng)頁,提高搜索效率,減少人工勞動。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種提高搜索引擎搜索效率的方 法,包括如下步驟對搜索引擎的搜索結(jié)果進行預(yù)處理,獲取網(wǎng)頁url、命中關(guān)鍵字;對網(wǎng)頁url進行分析,過濾出屬于網(wǎng)站首頁的url,將本步驟過濾出的搜索結(jié)果標 記為首頁型并存入分類搜索結(jié)果庫;對上一步驟之后余下的網(wǎng)頁進行下載;對所下載的網(wǎng)頁進行結(jié)構(gòu)分析,過濾出屬于目錄型網(wǎng)頁,將本步驟過濾出的搜索 結(jié)果標記為目錄型并存入分類搜索結(jié)果庫;將上一步驟之后余下的網(wǎng)頁認定為內(nèi)容型網(wǎng)頁,對內(nèi)容型網(wǎng)頁進行正文分析,判 斷正文中是否包含關(guān)鍵字,并將分析結(jié)果存入分類搜索結(jié)果庫;對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示,并對用戶提供分類瀏覽和 排序的步驟。所述的對搜索引擎的搜索結(jié)果進行預(yù)處理而獲取網(wǎng)頁url、命中關(guān)鍵字的步驟,是 通過分析搜索結(jié)果的html代碼,使用模板匹配方式,提取每一條搜索結(jié)果的屬性。所述的對網(wǎng)頁url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟,是將url中的 協(xié)議之后,以域名結(jié)束,或者以首個“/”分隔符結(jié)束來定義為網(wǎng)站首頁。
4
所述的對網(wǎng)頁url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟,還包括將url 中的協(xié)議之后,以第二個或第三個“/”分隔符結(jié)束來定義為二級網(wǎng)站首頁或三級網(wǎng)站首頁。所述的對網(wǎng)頁進行結(jié)構(gòu)分析而過濾出屬于目錄型網(wǎng)頁,是根據(jù)文字鏈接比,來判 斷是否屬于目錄型網(wǎng)頁,其包括如下步驟al.使用正則匹配獲取所有超鏈接,并在去除空格后,計算全部超鏈接文本的字數(shù) L;a2.去除html標記、腳本代碼、樣式代碼,得到純文本,并在去除空格后,計算全部 純文本字數(shù)T ;a3.計算L/T的值,在該L/T的值超過預(yù)設(shè)閾值時,則認定為目錄型網(wǎng)頁,并將此類 型的網(wǎng)頁標記為目錄型并保存到分類搜索結(jié)果庫。所述的對內(nèi)容型網(wǎng)頁進行正文分析,判斷正文中是否包含關(guān)鍵字,其包括如下步 驟bl.根據(jù)html網(wǎng)頁源代碼建立標簽樹的模型;b2.遍歷該樹,計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù);b3.比較各父節(jié)點的文字字數(shù),抽取出父節(jié)點中所包含的文字字數(shù)最多的一個為 該網(wǎng)頁的正文,判斷該正文中是否包含關(guān)鍵字,對包含關(guān)鍵字的作出對應(yīng)的標記,并保存到 分類搜索結(jié)果庫。一種提高搜索引擎搜索效率的系統(tǒng),包括搜索結(jié)果預(yù)處理模塊,用于對搜索引擎的返回結(jié)果進行分析處理,并提取每一條 搜索結(jié)果的屬性;網(wǎng)頁url分析模塊,用于對所提取的網(wǎng)頁url進行分析;網(wǎng)頁爬蟲模塊,用于下載非網(wǎng)站首頁類型的網(wǎng)頁;網(wǎng)頁結(jié)構(gòu)分析模塊,用于分析網(wǎng)頁結(jié)構(gòu);網(wǎng)頁正文分析模塊用于進行正文抽取,獲取正文字數(shù),并判斷正文中是否包括搜 索的關(guān)鍵字;分類搜索結(jié)果庫,用于保存分析后的搜索結(jié)果;分類顯示模塊,用于分類顯示分析后的搜索結(jié)果;其中,搜索結(jié)果預(yù)處理模塊的輸出接至網(wǎng)頁url分析模塊的輸入,前者將提取的 每一條搜索結(jié)果的屬性輸出給后者;網(wǎng)頁url分析模塊的輸出分別接至網(wǎng)頁爬蟲模塊和分 類搜索結(jié)果庫,網(wǎng)頁url分析模塊將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié)果庫,將屬 于非網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊;網(wǎng)頁爬蟲模塊的輸出接至網(wǎng)頁結(jié)構(gòu)分析模 塊的輸入,前者將所下載的網(wǎng)頁內(nèi)容輸出給后者;網(wǎng)頁結(jié)構(gòu)分析模塊的輸出分別接至網(wǎng)頁 正文分析模塊和分類搜索結(jié)果庫,網(wǎng)頁結(jié)構(gòu)分析模塊將屬于目錄型的網(wǎng)頁url輸出給分類 搜索結(jié)果庫,將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模塊;網(wǎng)頁正文分析模 塊的輸出接至分類搜索結(jié)果庫模塊,前者將分析的結(jié)果輸出給后者;分類搜索結(jié)果庫模塊 的輸出接至分類顯示模塊,前者將保存后的分析結(jié)果輸出給后者。本發(fā)明的一種提高搜索引擎搜索效率的方法及其系統(tǒng),可以將網(wǎng)頁區(qū)分為三種類 型網(wǎng)站首頁類型,指一個網(wǎng)站的首頁或二級首頁,其url特征為以域名結(jié)束或者目錄結(jié) 束;目錄型網(wǎng)頁類型,當(dāng)一個網(wǎng)頁的內(nèi)容,相當(dāng)大一部分屬于超鏈接時,這種網(wǎng)頁一般是起
5到導(dǎo)航作用,歸屬到目錄型網(wǎng)頁類型;內(nèi)容型網(wǎng)頁類型,不屬于網(wǎng)站首頁類型和目錄型網(wǎng)頁 類型的網(wǎng)頁,歸屬到內(nèi)容網(wǎng)頁類型。本發(fā)明的有益效果是,由于采用搜索結(jié)果預(yù)處理模塊對搜索引擎的返回結(jié)果進行 分析,并提取搜索結(jié)果的屬性;采用網(wǎng)頁url分析模塊對所提取的網(wǎng)頁url進行分析,并過 濾出網(wǎng)站首頁類型的網(wǎng)頁,保存到分類搜索結(jié)果庫;采用網(wǎng)頁爬蟲模塊對非網(wǎng)站首頁類型 的網(wǎng)頁進行下載,采用網(wǎng)頁結(jié)構(gòu)分析模塊對所下載的非網(wǎng)站首頁類型的網(wǎng)頁進行分析,并 過濾出目錄型網(wǎng)頁,保存到分類搜索結(jié)果庫;采用網(wǎng)頁正文分析模塊對非網(wǎng)站首頁類型和 非目錄型的網(wǎng)頁進行正文抽取,獲取正文字數(shù),并判斷正文中是否包括搜索的關(guān)鍵字,保存 到分類搜索結(jié)果庫;采用分類顯示模塊對分析后的搜索結(jié)果進行分類顯示和排序,使得用 戶可以將搜索結(jié)果進一步進行分析和分類,并通過類別導(dǎo)航和排序規(guī)則,實現(xiàn)快速瀏覽、定 位到最匹配的信息。因此,本發(fā)明能大幅提高用戶的檢索效率,減少用戶的勞動強度;本發(fā) 明還可將分析結(jié)果保存到數(shù)據(jù)庫中,從而提供給多用戶使用,減少網(wǎng)絡(luò)流量。以下結(jié)合附圖及實施例對本發(fā)明作進一步詳細說明;但本發(fā)明的一種提高搜索引 擎搜索效率的方法及其系統(tǒng)不局限于實施例。


圖1是本發(fā)明的原理框圖;圖2是本發(fā)明的流程示意圖;圖3是本發(fā)明的html標簽樹的結(jié)構(gòu)示意圖。
具體實施例方式實施例,請參見圖1所示,本發(fā)明的一種提高搜索引擎搜索效率的系統(tǒng),包括搜索結(jié)果預(yù)處理模塊1,用于對搜索引擎的返回結(jié)果進行分析處理,并提取每一條 搜索結(jié)果的屬性,包括網(wǎng)頁url、命中關(guān)鍵字;網(wǎng)頁url分析模塊2,用于對所提取的網(wǎng)頁url進行分析,以過濾出網(wǎng)站首頁類型 的url和非網(wǎng)站首頁類型的url ;網(wǎng)頁爬蟲模塊3,用于下載非網(wǎng)站首頁類型的網(wǎng)頁;網(wǎng)頁結(jié)構(gòu)分析模塊4,用于分析網(wǎng)頁結(jié)構(gòu),以根據(jù)文字鏈接比分離出目錄型網(wǎng)頁;網(wǎng)頁正文分析模塊5 用于進行正文抽取,獲取正文字數(shù),并判斷正文中是否包括 搜索的關(guān)鍵字;分類搜索結(jié)果庫6,用于保存分析后的搜索結(jié)果;分類顯示模塊7,用于分類顯示分析后的搜索結(jié)果;其中,搜索結(jié)果預(yù)處理模塊1的輸出接至網(wǎng)頁url分析模塊2的輸入,前者將提取 的每一條搜索結(jié)果的屬性輸出給后者;網(wǎng)頁url分析模塊2的輸出分別接至網(wǎng)頁爬蟲模塊 3和分類搜索結(jié)果庫4,網(wǎng)頁url分析模塊2將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié) 果庫6,將屬于非網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊3 ;網(wǎng)頁爬蟲模塊3的輸出接至 網(wǎng)頁結(jié)構(gòu)分析模塊4,前者將所下載的網(wǎng)頁內(nèi)容輸出給后者;網(wǎng)頁結(jié)構(gòu)分析模塊4的輸出分 別接至網(wǎng)頁正文分析模塊5和分類搜索結(jié)果庫6,網(wǎng)頁結(jié)構(gòu)分析模塊4將屬于目錄型的網(wǎng) 頁url輸出給分類搜索結(jié)果庫6,將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模
6塊5 ;網(wǎng)頁正文分析模塊5的輸出接至分類搜索結(jié)果庫模塊6,前者將分析的結(jié)果輸出給后 者;分類搜索結(jié)果庫模塊6的輸出接至分類顯示模塊7,前者將保存后的分析結(jié)果輸出給后
者ο本發(fā)明的一種用于提供搜索引擎搜索效率的系統(tǒng),可以將網(wǎng)頁區(qū)分為三種類型 網(wǎng)站首頁類型,指一個網(wǎng)站的首頁或二級首頁,其url特征為以域名結(jié)束或者目錄結(jié)束, 如http //www, abc. com禾口 http //www, abc. com/123/ ;目錄型網(wǎng)頁類型,當(dāng)一個網(wǎng)頁的內(nèi) 容,相當(dāng)大一部分屬于超鏈接時,這種網(wǎng)頁一般是起到導(dǎo)航作用,歸屬到目錄型網(wǎng)頁類型; 內(nèi)容型網(wǎng)頁類型,不屬于網(wǎng)站首頁類型和目錄型網(wǎng)頁類型的網(wǎng)頁,歸屬到內(nèi)容網(wǎng)頁類型。本發(fā)明的一種提高搜索引擎搜索效率的方法,請參見圖2所示,它包括以下步驟步驟Si,搜索引擎按用戶輸入的關(guān)鍵字進行搜索,并把搜索結(jié)果輸出給搜索結(jié)果 預(yù)處理模塊1 ;執(zhí)行步驟S2 ;步驟S2,搜索結(jié)果預(yù)處理模塊1對搜索結(jié)果進行預(yù)處理,分拆出每一條搜索結(jié)果, 提取其屬性網(wǎng)頁url、關(guān)鍵字(即用戶輸入的查詢關(guān)鍵字,搜索引擎對這些關(guān)鍵字使用顏 色標記),并把每一條搜索結(jié)果的屬性輸出給網(wǎng)頁url分析模塊2 ;執(zhí)行步驟S3 ;步驟S3,網(wǎng)頁url分析模塊2對提取的url進行分析,執(zhí)行步驟S4 ;步驟S4,網(wǎng)頁url分析模塊2對提取的url首先判斷是否是網(wǎng)站首頁類型或用戶 自定義類型的網(wǎng)頁url,如是則將其直接送入分類搜索結(jié)果庫模塊6中,并執(zhí)行步驟S9,否 則將其送入網(wǎng)頁爬蟲模塊3,并執(zhí)行步驟S5 ;步驟S5,網(wǎng)頁爬蟲模塊3對排除網(wǎng)站首頁類型的網(wǎng)頁url或者用戶自定義類型的 網(wǎng)頁url后的剩余網(wǎng)頁進行下載,并將下載結(jié)果輸出給網(wǎng)頁結(jié)構(gòu)分析模塊4 ;執(zhí)行步驟S6 ;步驟S6,網(wǎng)頁結(jié)構(gòu)分析模塊4對網(wǎng)頁爬蟲模塊3所下載的網(wǎng)頁進行分析,提取下載 網(wǎng)頁的文字鏈接比;執(zhí)行步驟S7 ;步驟S7,網(wǎng)頁結(jié)構(gòu)分析模塊4根據(jù)所提取的文字鏈接比,判斷是否為目錄型網(wǎng)頁, 如是則將屬于目錄型的網(wǎng)頁送入分類搜索結(jié)果庫模塊6中,并執(zhí)行步驟S9,否則將屬于非 目錄型的網(wǎng)頁送入網(wǎng)頁正文分析模塊5,并執(zhí)行步驟S8 ;步驟S8,網(wǎng)頁正文分析模塊5對排除目錄型的網(wǎng)頁進行正文分析,抽取正文,計算 正文字數(shù),并判斷正文中是否包含步驟S2所提取的關(guān)鍵字,將分析的結(jié)果送入分類搜索結(jié) 果庫模塊6中;執(zhí)行步驟S9;步驟S9,分類搜索結(jié)果庫模塊6分別對步驟S4、步驟S7、步驟S8輸送過來的結(jié)果 進行保存,并輸出給分類顯示模塊7 ;執(zhí)行步驟SlO ;步驟S10,分類顯示模塊7對分類搜索結(jié)果庫所保存的結(jié)果進行分類顯示。其中,上述步驟S2中,由于搜索引擎返回頁的結(jié)果集都是按照一定的規(guī)則排列的,因此 通過分析其html代碼,使用模板匹配的方法,即可提取每條結(jié)果的屬性。上述步驟S3、S4中,url即統(tǒng)一資源定位符,其構(gòu)成為protocol:// hostname[port]/path/[ ;parameters][ ? query]#fragment例如http://www. abc. com/home/welcome, html,其中 http:// 表示協(xié)議,www. abc. com表示域名,home表示路徑,welcome, html表示文件。在協(xié)議之后,以域名結(jié)束,或 者以首個“/”分隔符結(jié)束的url屬于網(wǎng)站首頁類型。對于網(wǎng)站首頁型不再分析,直接入搜
7索結(jié)果庫,并標記為首頁型。在此步驟,可提供用戶設(shè)定多種規(guī)則,過濾出更多類型。例如在協(xié)議之后,以第二 個“/”分割符號結(jié)束的Url屬于二級網(wǎng)站首頁。上述步驟S6、S7中,是對下載的網(wǎng)頁進行分析,提取下載網(wǎng)頁的文字鏈接比。網(wǎng)頁源代碼包括四部分html標記、腳本代碼、樣式代碼和文本,瀏覽器通過html 標記、腳本代碼、樣式代碼使文本呈現(xiàn)不同的表現(xiàn)形式,其中,使用<a>和</a>標記的文本 表示超鏈接文本;文字鏈接比是全部超鏈接文本占全部文本的比例。首先是使用正則匹配的方法獲取所有超鏈接,其表達式為<a.* >(.* )</a>。 其中,(· *)部分即超鏈接所包含的文本;<a. * ? >表示匹配<a開頭,任意字符后,第一個> 結(jié)束,并且將“任意字符”保存到一個變量group (1)。例如該表達式能匹配到<a>我是一個 超鏈接</a>,并且將“我是一個超鏈接”這個超鏈接文本存儲到group (1)變量,由此可以獲 取全部超鏈接文本,計算全部超鏈接字數(shù)L (不包含空格)。其次,為了得到純文本,需去除html標記、腳本代碼、樣式代碼先將〈script. * ? ></script>替換為空,去除腳本代碼;然后將〈style. * ? ></style>替換為空,去除樣式 代碼;最后將<.* >替換為空,去除html標記,余下的部分即為純文本。此時,即可計算 全部純文本的字數(shù)T (不包括空格)。最后,計算L/T的值,即超鏈接所占的比例。如L/T超過預(yù)設(shè)閾值,則認為是目錄 型網(wǎng)頁,將此類型網(wǎng)頁入分類搜索結(jié)果庫,并標記為目錄型。上述步驟S8中,是對排除目錄型網(wǎng)頁后,對剩余的網(wǎng)頁進行正文抽取。目前,雖然進行正文抽取比較成熟和穩(wěn)定的方式是模板匹配,其提取準確性高,但 該方法只適用于既定的網(wǎng)頁類型。因此,對于未知類型的內(nèi)容網(wǎng)頁,本發(fā)明采用結(jié)合html 標簽樹的方法,判斷文本密度最大的節(jié)點,進行正文抽取。 利于html標簽樹進行正文抽取的具體做法為首先根據(jù)html網(wǎng)頁代碼建立標簽樹的模型。標簽樹,是表示網(wǎng)頁源代碼層次關(guān)系 的一個樹狀結(jié)構(gòu),根據(jù)網(wǎng)頁源代碼中html標簽之間的嵌套關(guān)系,以<html>為根節(jié)點,它內(nèi) 嵌的下一級標簽為子節(jié)點,若子節(jié)點還內(nèi)嵌標簽,則作為子節(jié)點的子節(jié)點,以此類推形成樹 狀結(jié)構(gòu)。每個子節(jié)點的上一級節(jié)點為父節(jié)點,每個子節(jié)點只有一個父節(jié)點;一個節(jié)點可能是 一個或幾個標簽的父節(jié)點,同時又是另一個標簽的子節(jié)點;最后一級節(jié)點是葉子節(jié)點,包含 文本,葉子節(jié)點沒有子節(jié)點。如圖3所示,是一個普通的html標簽樹,其葉子節(jié)點包含文字段落。在圖3中, html下為head禾口 body的牛艮節(jié)點,head又包含meta禾口 title兩個子節(jié)點,其中meta禾口 title 均為葉子節(jié)點,表示文字段落;body為Tablel、Table2、Table3的父節(jié)點,其中Tablel的葉 子節(jié)點為Divl, Table2的葉子節(jié)點為Div2、Div3、Div4,Table3的葉子節(jié)點為Div5 ;這里, 葉子節(jié)點Divl、Div2、Div3、Div4、Div5均表示文字段落。其次,遍歷該樹,計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù),字數(shù)最多的,即 表示文本密度最大,可認為是正文部分(圖3中,文本密度最大的部分是Table2)。最后,比較各父節(jié)點的文字字數(shù),抽取出父節(jié)點中所包含的文字字數(shù)最多的一個 為該網(wǎng)頁的正文(即Table2),判斷該正文中是否包含步驟S2所提取的關(guān)鍵字,對包含關(guān)鍵 字的作出對應(yīng)的標記,并保存到分類搜索結(jié)果庫。
8
上述步驟SlO中,其分類包括網(wǎng)站首頁類型、目錄網(wǎng)頁類型,內(nèi)容網(wǎng)頁類型,其 中,內(nèi)容網(wǎng)頁類型又可分為關(guān)鍵字是否匹配。在每個類別內(nèi),都可以進行排序,以便用戶快 速定位到所需要的信息。例如根據(jù)網(wǎng)頁url進行排序,或者根據(jù)網(wǎng)頁正文長度進行排序等寸。本發(fā)明的一種用于提高搜索引擎搜索效率的方法及其系統(tǒng),可以將搜索結(jié)果進行 進一步分析和分類,通過類別導(dǎo)航和排序規(guī)則,可以使用戶快速瀏覽、定位到最匹配的信 息。如將本發(fā)明的系統(tǒng)結(jié)合元搜索,則能大幅提高檢索效率,減少用戶的勞動強度;如將本 發(fā)明的分析結(jié)果保存到數(shù)據(jù)庫中,則可提供給多用戶使用,從而減少網(wǎng)絡(luò)流量。上述實施例僅用來進一步說明本發(fā)明的一種用于提高搜索引擎搜索效率的方法 及其系統(tǒng),但本發(fā)明并不局限于實施例,凡是依據(jù)本發(fā)明的技術(shù)實質(zhì)對以上實施例所作的 任何簡單修改、等同變化與修飾,均落入本發(fā)明技術(shù)方案的保護范圍內(nèi)。
9
權(quán)利要求
一種提高搜索引擎搜索效率的方法,其特征在于包括如下步驟對搜索引擎的搜索結(jié)果進行預(yù)處理,獲取網(wǎng)頁url、命中關(guān)鍵字;對網(wǎng)頁url進行分析,過濾出屬于網(wǎng)站首頁的url,將本步驟過濾出的搜索結(jié)果標記為首頁型并存入分類搜索結(jié)果庫;對上一步驟之后余下的網(wǎng)頁進行下載;對所下載的網(wǎng)頁進行結(jié)構(gòu)分析,過濾出屬于目錄型網(wǎng)頁,將本步驟過濾出的搜索結(jié)果標記為目錄型并存入分類搜索結(jié)果庫;將上一步驟之后余下的網(wǎng)頁認定為內(nèi)容型網(wǎng)頁,對內(nèi)容型網(wǎng)頁進行正文分析,判斷正文中是否包含關(guān)鍵字,并將分析結(jié)果存入分類搜索結(jié)果庫;對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示,并對用戶提供分類瀏覽和排序的步驟。
2.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法,其特征在于所述的對搜索 引擎的搜索結(jié)果進行預(yù)處理而獲取網(wǎng)頁url、命中關(guān)鍵字的步驟,是通過分析搜索結(jié)果的 html代碼,使用模板匹配方式,提取每一條搜索結(jié)果的屬性。
3.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法,其特征在于所述的對網(wǎng)頁 url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟,是將url中的協(xié)議之后,以域名結(jié)束,或 者以首個“/”分隔符結(jié)束來定義為網(wǎng)站首頁。
4.根據(jù)權(quán)利要求3所述的提高搜索引擎搜索效率的方法,其特征在于所述的對網(wǎng)頁 url進行分析而過濾出屬于網(wǎng)站首頁的url的步驟,還包括將url中的協(xié)議之后,以第二個 或第三個“/”分隔符結(jié)束來定義為二級網(wǎng)站首頁或三級網(wǎng)站首頁。
5.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法,其特征在于所述的對網(wǎng)頁 進行結(jié)構(gòu)分析而過濾出屬于目錄型網(wǎng)頁,是根據(jù)文字鏈接比,來判斷是否屬于目錄型網(wǎng)頁, 其包括如下步驟al.使用正則匹配獲取所有超鏈接,并在去除空格后,計算全部超鏈接文本的字數(shù)L ; a2.去除html標記、腳本代碼、樣式代碼,得到純文本,并在去除空格后,計算全部純文 本字數(shù)T;a3.計算L/T的值,在該L/T的值超過預(yù)設(shè)閾值時,則認定為目錄型網(wǎng)頁,并將此類型的 網(wǎng)頁標記為目錄型并保存到分類搜索結(jié)果庫。
6.根據(jù)權(quán)利要求1所述的提高搜索引擎搜索效率的方法,其特征在于所述的對內(nèi)容 型網(wǎng)頁進行正文分析,判斷正文中是否包含關(guān)鍵字,其包括如下步驟bl.根據(jù)html網(wǎng)頁源代碼建立標簽樹的模型; b2.遍歷該樹,計算每個葉子節(jié)點的父節(jié)點所包含的文字字數(shù); b3.比較各父節(jié)點的文字字數(shù),抽取出父節(jié)點中所包含的文字字數(shù)最多的一個為該網(wǎng) 頁的正文,判斷該正文中是否包含關(guān)鍵字,對包含關(guān)鍵字的作出對應(yīng)的標記,并保存到分類 搜索結(jié)果庫。
7.一種提高搜索引擎搜索效率的系統(tǒng),其特征在于包括搜索結(jié)果預(yù)處理模塊,用于對搜索引擎的返回結(jié)果進行分析處理,并提取每一條搜索 結(jié)果的屬性;網(wǎng)頁url分析模塊,用于對所提取的網(wǎng)頁url進行分析;網(wǎng)頁爬蟲模塊,用于下載非網(wǎng)站首頁類型的網(wǎng)頁;網(wǎng)頁結(jié)構(gòu)分析模塊,用于分析網(wǎng)頁結(jié)構(gòu);網(wǎng)頁正文分析模塊用于進行正文抽取,獲取正文字數(shù),并判斷正文中是否包括搜索的 關(guān)鍵字;分類搜索結(jié)果庫,用于保存分析后的搜索結(jié)果;分類顯示模塊,用于分類顯示分析后的搜索結(jié)果;其中,搜索結(jié)果預(yù)處理模塊的輸出接至網(wǎng)頁url分析模塊的輸入,前者將提取的每一 條搜索結(jié)果的屬性輸出給后者;網(wǎng)頁url分析模塊的輸出分別接至網(wǎng)頁爬蟲模塊和分類搜 索結(jié)果庫,網(wǎng)頁url分析模塊將屬于網(wǎng)站首頁類型的url輸出給分類搜索結(jié)果庫,將屬于非 網(wǎng)站首頁類型的url輸出給網(wǎng)頁爬蟲模塊;網(wǎng)頁爬蟲模塊的輸出接至網(wǎng)頁結(jié)構(gòu)分析模塊的 輸入,前者將所下載的網(wǎng)頁內(nèi)容輸出給后者;網(wǎng)頁結(jié)構(gòu)分析模塊的輸出分別接至網(wǎng)頁正文 分析模塊和分類搜索結(jié)果庫,網(wǎng)頁結(jié)構(gòu)分析模塊將屬于目錄型的網(wǎng)頁url輸出給分類搜索 結(jié)果庫,將屬于其他網(wǎng)頁類型的網(wǎng)頁內(nèi)容輸出給網(wǎng)頁正文分析模塊;網(wǎng)頁正文分析模塊的 輸出接至分類搜索結(jié)果庫模塊,前者將分析的結(jié)果輸出給后者;分類搜索結(jié)果庫模塊的輸 出接至分類顯示模塊,前者將保存后的分析結(jié)果輸出給后者。
全文摘要
本發(fā)明公開了一種提高搜索引擎搜索效率的方法及其系統(tǒng),包括搜索結(jié)果預(yù)處理模塊、網(wǎng)頁url分析模塊、網(wǎng)頁爬蟲模塊、網(wǎng)頁結(jié)構(gòu)分析模塊、網(wǎng)頁正文分析模塊、分類搜索結(jié)果庫和分類顯示模塊;它將搜索引擎的返回結(jié)果進行預(yù)處理,獲取網(wǎng)頁url、命中關(guān)鍵字;再對網(wǎng)頁url進行分析,并保存到分類搜索結(jié)果庫中,其中包括對屬于網(wǎng)站首頁類型的網(wǎng)頁進行過濾,對其余的網(wǎng)頁進行下載,并根據(jù)文字鏈接比,判斷是否屬于目錄型網(wǎng)頁,對非網(wǎng)站首頁類型和非目錄網(wǎng)頁類型的網(wǎng)頁進行正文抽取,提取正文字數(shù),并判斷正文中是否包含關(guān)鍵字;最后對保存到分類搜索結(jié)果庫中的分析結(jié)果進行分類顯示。通過本發(fā)明,能夠大幅提高用戶的搜索效率,減少其勞動強度。
文檔編號G06F17/30GK101908071SQ20101025010
公開日2010年12月8日 申請日期2010年8月10日 優(yōu)先權(quán)日2010年8月10日
發(fā)明者劉祥南, 林勝通, 章正道 申請人:廈門市美亞柏科信息股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1