本申請涉及數(shù)據(jù)處理,尤其涉及一種url處理方法、裝置、存儲介質(zhì)及電子設(shè)備。
背景技術(shù):
1、在全網(wǎng)搜索引擎中收錄的統(tǒng)一資源定位符(uniform?resource?locator,url)數(shù)量級通常在pb級,搜索引擎中一些場景下需要建立一些url的黑、白名單,可簡稱為url名單。
2、目前,在判別需要查詢的url是否命中url名單時(shí),可基于倒排求交的方案。具體首先反轉(zhuǎn)url,按設(shè)定的長度對url切片成關(guān)鍵字,按照這種方式基于整個(gè)url名單包含的url數(shù)據(jù)集建立倒排鏈表,然后對需要查詢的url以同樣的方式進(jìn)行關(guān)鍵字切片,再與該倒排鏈表進(jìn)行倒排求交,如果求交結(jié)果為空,則表示不命中url名單。
3、然而,倒排索引求交的方式在為海量url數(shù)據(jù)建立索引時(shí),倒排鏈表的長度會發(fā)生爆炸性地增長,導(dǎo)致倒排求交的計(jì)算時(shí)間復(fù)雜度高,計(jì)算相對耗時(shí),對用戶體驗(yàn)的影響較大。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請?zhí)峁┝艘环Nurl處理方法、裝置、存儲介質(zhì)及電子設(shè)備,主要目的在于改善目前倒排索引求交的方式計(jì)算相對耗時(shí),造成url名單匹配效率較低,影響用戶體驗(yàn)的技術(shù)問題。
2、第一方面,本申請?zhí)峁┝艘环Nurl處理方法,包括:
3、獲取待查詢url的特征信息,所述特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);
4、根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段;
5、基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,所述第一b+樹索引維護(hù)url名單中不同url的索引字段與索引標(biāo)識之間的映射關(guān)系,所述第二b+樹索引維護(hù)所述不同url與所述索引標(biāo)識之間的映射關(guān)系;
6、依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單。
7、第二方面,本申請?zhí)峁┝艘环Nurl處理裝置,包括:
8、獲取模塊,被配置為獲取待查詢url的特征信息,所述特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);
9、構(gòu)建模塊,被配置為根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段;
10、查詢模塊,被配置為基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,所述第一b+樹索引維護(hù)url名單中不同url的索引字段與索引標(biāo)識之間的映射關(guān)系,所述第二b+樹索引維護(hù)所述不同url與所述索引標(biāo)識之間的映射關(guān)系;
11、確定模塊,被配置為依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單。
12、第三方面,本申請?zhí)峁┝艘环N計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。
13、第四方面,本申請?zhí)峁┝艘环N電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。
14、第五方面,本申請?zhí)峁┝艘环N計(jì)算機(jī)程序產(chǎn)品,其上存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述的工作量的評估方法。
15、借由上述技術(shù)方案,本申請?zhí)峁┑囊环Nurl處理方法、裝置、存儲介質(zhì)及電子設(shè)備,首先獲取待查詢url的特征信息,特征信息包括主機(jī)名、域名、路徑目錄、路徑和文件名中的至少一個(gè);然后根據(jù)特征信息,構(gòu)建待查詢url對應(yīng)的目標(biāo)索引字段;再基于目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢;最后依據(jù)查詢結(jié)果確定待查詢url是否命中url名單。與目前現(xiàn)有技術(shù)相比,本申請通過構(gòu)建url索引字段,基于查詢復(fù)雜度相對較低的b+樹索引提出了一種適合用于查詢url是否命中url名單的索引方案,提高了搜索引擎中url名單匹配的效率,降低了搜索引擎單次搜索的計(jì)算耗時(shí),提升了用戶的搜索體驗(yàn)。
16、上述說明僅是本申請技術(shù)方案的概述,為了能夠更清楚了解本申請的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本申請的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本申請的具體實(shí)施方式。
1.一種url處理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述目標(biāo)索引字段,依次在第一b+樹索引和第二b+樹索引中進(jìn)行查詢,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依據(jù)查詢結(jié)果確定所述待查詢url是否命中所述url名單,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述在所述第一b+樹索引中查詢與所述目標(biāo)索引字段對應(yīng)的目標(biāo)索引標(biāo)識,包括:
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述特征信息,構(gòu)建所述待查詢url對應(yīng)的目標(biāo)索引字段,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述第一b+樹索引和所述第二b+樹索引的創(chuàng)建過程包括:
7.一種url處理裝置,其特征在于,包括:
8.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。
9.一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,其上存儲有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至6中任一項(xiàng)所述的方法。