日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器及其設(shè)計(jì)和使用的方法、裝置與流程

文檔序號(hào):39714402發(fā)布日期:2024-10-22 13:00閱讀:2來(lái)源:國(guó)知局
一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器及其設(shè)計(jì)和使用的方法、裝置與流程

本發(fā)明涉及布隆過(guò)濾器去重,具體涉及一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器及其設(shè)計(jì)和使用的方法、裝置。


背景技術(shù):

1、在進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)時(shí),可以通過(guò)統(tǒng)計(jì)訪問(wèn)同一個(gè)網(wǎng)站/網(wǎng)頁(yè)的獨(dú)立訪客(uniquevisitor,即uv)的數(shù)量,分析該網(wǎng)站/網(wǎng)頁(yè)的用戶流量,為后續(xù)網(wǎng)站/網(wǎng)頁(yè)的管理等提供數(shù)據(jù)基礎(chǔ)。

2、訪問(wèn)網(wǎng)站/網(wǎng)頁(yè)的一個(gè)客戶端可以稱為一個(gè)獨(dú)立訪客,隨著訪問(wèn)網(wǎng)站/網(wǎng)頁(yè)的用戶量的增加,獨(dú)立訪客uv的統(tǒng)計(jì)量隨之增加。uv的數(shù)量是衡量網(wǎng)站/網(wǎng)頁(yè)用戶流量的重要指標(biāo),網(wǎng)站/網(wǎng)頁(yè)訪問(wèn)的uv數(shù)量是未知規(guī)模且不斷變化的,低至個(gè)位數(shù),高至數(shù)億級(jí),統(tǒng)計(jì)uv數(shù)量本質(zhì)上是對(duì)未知規(guī)模數(shù)據(jù)的去重?,F(xiàn)有比較常用的技術(shù)方案是利用布隆過(guò)濾器進(jìn)行去重實(shí)現(xiàn)uv統(tǒng)計(jì)。

3、布隆過(guò)濾器本質(zhì)上是一個(gè)很長(zhǎng)的位數(shù)組和一系列映射函數(shù),將元素通過(guò)一系列哈希函數(shù)映射到位數(shù)組多個(gè)bit位上,若對(duì)應(yīng)的bit位上全是1,則認(rèn)為布隆過(guò)濾器中含有該元素,從而實(shí)現(xiàn)元素的去重。

4、布隆過(guò)濾器的誤判率受插入元素?cái)?shù)量以及布隆過(guò)濾器的容量影響,對(duì)于未知規(guī)模的數(shù)據(jù),布隆過(guò)濾器的預(yù)期容量若定義的過(guò)大,對(duì)于小規(guī)模數(shù)據(jù)會(huì)導(dǎo)致內(nèi)存浪費(fèi),若定義的過(guò)小,對(duì)于大規(guī)模數(shù)據(jù)會(huì)導(dǎo)致高誤判率。實(shí)際使用場(chǎng)景無(wú)法滿足內(nèi)存效率和誤判率的平衡。原因在于:

5、布隆過(guò)濾器使用哈希函數(shù)映射到有限長(zhǎng)度數(shù)組的方式去重,無(wú)可避免的存在一定的誤判率,誤判率公式:

6、

7、其中m為位數(shù)組大小,n為實(shí)際元素個(gè)數(shù),k為哈希函數(shù)個(gè)數(shù),當(dāng)n很大時(shí):

8、

9、在初始化布隆過(guò)濾器時(shí)需要預(yù)先定義位數(shù)組大小且不可變,理論上位數(shù)組長(zhǎng)度定義的越大,誤判率則越小,但實(shí)際占用內(nèi)存也越大;而另一方面實(shí)際元素的增多會(huì)使得誤判率增大。對(duì)于未知規(guī)模的數(shù)據(jù),若定義的位數(shù)組長(zhǎng)度過(guò)大,實(shí)際元素較少時(shí)會(huì)導(dǎo)致內(nèi)存的浪費(fèi),若定義的位數(shù)組長(zhǎng)度過(guò)小,實(shí)際元素很多時(shí)會(huì)導(dǎo)致高誤判率。因此使用布隆過(guò)濾器統(tǒng)計(jì)獨(dú)立訪客量時(shí),對(duì)于未知規(guī)模的數(shù)據(jù)無(wú)法滿足空間效率和誤判率的平衡。


技術(shù)實(shí)現(xiàn)思路

1、為解決現(xiàn)有方案在使用布隆過(guò)濾器統(tǒng)計(jì)獨(dú)立訪客量時(shí),存在的無(wú)法滿足空間效率和誤判率平衡的問(wèn)題,本發(fā)明提供了一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器及其設(shè)計(jì)和使用的方法、裝置,可保證可控的誤判率以及良好的空間效率。

2、依據(jù)本發(fā)明的第一方面,提供了一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器的設(shè)計(jì)方法,包括:

3、設(shè)置布隆過(guò)濾器的創(chuàng)建參數(shù)和一個(gè)空的布隆過(guò)濾器列表;

4、使用時(shí)初始化創(chuàng)建一個(gè)布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中;

5、對(duì)新增元素遍歷所述布隆過(guò)濾器列表內(nèi)的所有布隆過(guò)濾器判斷是否重復(fù),并且在判斷所有布隆過(guò)濾器均不含所述新增元素時(shí),進(jìn)一步判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素是否已超出預(yù)期容量;

6、在判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素已超出預(yù)期容量時(shí),創(chuàng)建一個(gè)新的布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中;

7、在判斷所有布隆過(guò)濾器均不含所述新增元素時(shí),將所述新增元素添加到當(dāng)前最新的布隆過(guò)濾器中。

8、依據(jù)本發(fā)明的第二方面,提供了一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器的設(shè)計(jì)裝置,包括:

9、設(shè)置單元,用于設(shè)置布隆過(guò)濾器的創(chuàng)建參數(shù)和一個(gè)空的布隆過(guò)濾器列表;

10、初始化單元,用于使用時(shí)初始化創(chuàng)建一個(gè)布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中;

11、判斷單元,用于對(duì)新增元素遍歷所述布隆過(guò)濾器列表內(nèi)的所有布隆過(guò)濾器判斷是否重復(fù),并且在判斷所有布隆過(guò)濾器均不含所述新增元素時(shí),進(jìn)一步判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素是否已超出預(yù)期容量;

12、布隆過(guò)濾器添加單元,用于在判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素已超出預(yù)期容量時(shí),創(chuàng)建一個(gè)新的布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中;

13、元素添加單元,用于在判斷所有布隆過(guò)濾器均不含所述新增元素時(shí),將所述新增元素添加到當(dāng)前最新的布隆過(guò)濾器中。

14、依據(jù)本發(fā)明的第三方面,提供了一種動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器,包括如下參數(shù)和方法:

15、布隆過(guò)濾器的創(chuàng)建參數(shù);

16、布隆過(guò)濾器列表,初始化前所述布隆過(guò)濾器列表為空,使用時(shí)初始化創(chuàng)建一個(gè)布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中;

17、當(dāng)前最新的布隆過(guò)濾器,新增元素將添加到當(dāng)前最新的布隆過(guò)濾器中;

18、創(chuàng)建布隆過(guò)濾器的方法;

19、判斷新增元素是否重復(fù)的方法,通過(guò)遍歷所述布隆過(guò)濾器列表內(nèi)的所有布隆過(guò)濾器進(jìn)行判斷;

20、添加元素的方法,在判斷所述布隆過(guò)濾器列表內(nèi)的所有布隆過(guò)濾器均不含所述新增元素時(shí),將所述新增元素添加到當(dāng)前最新的布隆過(guò)濾器中,添加前判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)元素是否已超出預(yù)期容量;

21、添加布隆過(guò)濾器的方法,在判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素已超出預(yù)期容量時(shí)創(chuàng)建一個(gè)新的布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到所述布隆過(guò)濾器列表中。

22、依據(jù)本發(fā)明的第四方面,提供了一種實(shí)時(shí)統(tǒng)計(jì)獨(dú)立訪客量的方法,包括:

23、使用埋點(diǎn)工具生成訪客信息的日志文件;

24、從所述日志文件中采集所述訪客信息并轉(zhuǎn)化為消息傳輸至消息隊(duì)列;

25、實(shí)時(shí)消費(fèi)所述消息隊(duì)列的消息解析出所述訪客信息,對(duì)所述訪客信息通過(guò)前述的動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器進(jìn)行去重,得到統(tǒng)計(jì)周期內(nèi)的獨(dú)立訪客量。

26、依據(jù)本發(fā)明的第五方面,提供了一種實(shí)時(shí)統(tǒng)計(jì)獨(dú)立訪客量的裝置,包括:

27、日志文件生成單元,用于使用埋點(diǎn)工具生成訪客信息的日志文件;

28、訪客信息采集單元,用于從所述日志文件中采集所述訪客信息并轉(zhuǎn)化為消息傳輸至消息隊(duì)列;

29、獨(dú)立訪客量統(tǒng)計(jì)單元,用于實(shí)時(shí)消費(fèi)所述消息隊(duì)列的消息解析出所述訪客信息,對(duì)所述訪客信息通過(guò)前述的動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器進(jìn)行去重,得到統(tǒng)計(jì)周期內(nèi)的獨(dú)立訪客量。

30、依據(jù)本發(fā)明的第六方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器運(yùn)行時(shí)執(zhí)行前述的動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器的設(shè)計(jì)方法。

31、依據(jù)本發(fā)明的第七方面,提供了一種電子設(shè)備,包括:至少一個(gè)處理器;以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行前述的動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器的設(shè)計(jì)方法。

32、本發(fā)明實(shí)施例的有益效果是:

33、本發(fā)明實(shí)施例提供的動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器及其設(shè)計(jì)方法和裝置,通過(guò)設(shè)置布隆過(guò)濾器的創(chuàng)建參數(shù)和一個(gè)空的布隆過(guò)濾器列表,使用時(shí)初始化創(chuàng)建一個(gè)布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到該布隆過(guò)濾器列表中;對(duì)新增元素通過(guò)遍歷布隆過(guò)濾器列表內(nèi)的所有布隆過(guò)濾器判斷是否重復(fù),并且在判斷所有布隆過(guò)濾器均不含新增元素時(shí),進(jìn)一步判斷當(dāng)前最新的布隆過(guò)濾器內(nèi)的元素是否已超出預(yù)期容量;若已超出預(yù)期容量則創(chuàng)建一個(gè)新的布隆過(guò)濾器,并作為當(dāng)前最新的布隆過(guò)濾器添加到該布隆過(guò)濾器列表中;在判斷所有布隆過(guò)濾器均不含所述新增元素時(shí),將新增元素添加到當(dāng)前最新的布隆過(guò)濾器中。從而相比于現(xiàn)有單個(gè)布隆過(guò)濾器的方案,本發(fā)明實(shí)施例的方案可以根據(jù)獨(dú)立訪客數(shù)量的增大動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器,從而避免內(nèi)存浪費(fèi),而且每個(gè)布隆過(guò)濾器的元素個(gè)數(shù)都在預(yù)期容量?jī)?nèi),因此可以保證可控的誤判率,很好的平衡了空間效率和誤判率的關(guān)系。

34、本發(fā)明實(shí)施例提供的實(shí)時(shí)統(tǒng)計(jì)獨(dú)立訪客量的方法和裝置,是基于動(dòng)態(tài)擴(kuò)容布隆過(guò)濾器實(shí)時(shí)統(tǒng)計(jì)獨(dú)立訪客量,相比于現(xiàn)有基于單個(gè)布隆過(guò)濾器統(tǒng)計(jì)獨(dú)立訪客量的方案,具有接入方便、性能優(yōu)良、誤差可控的優(yōu)點(diǎn)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1