本發(fā)明涉及大數(shù)據(jù)批處理,尤其涉及一種熱數(shù)據(jù)分布式緩存方法、設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著信息技術(shù)的發(fā)展,數(shù)據(jù)成為關(guān)鍵要素,大數(shù)據(jù)分析在企業(yè)經(jīng)營和決策中的重要性越來越高,也對海量數(shù)據(jù)的處理時(shí)效和資源利用提出了更高的要求。
2、現(xiàn)有技術(shù)中,提升大數(shù)據(jù)批處理任務(wù)效率的手段主要為變更計(jì)算引擎、計(jì)算隊(duì)列彈性調(diào)度等,而變更計(jì)算引擎的方式存在整體應(yīng)用代碼改造量大的問題,計(jì)算隊(duì)列彈性調(diào)度的方式存在數(shù)據(jù)產(chǎn)出后可能經(jīng)過較長時(shí)間才被使用,即存在數(shù)據(jù)產(chǎn)出時(shí)效性不穩(wěn)定的問題?,F(xiàn)有手段無法以較低的代價(jià)提升數(shù)據(jù)處理效率與資源利用率。
3、因此,如何通過較低成本提升數(shù)據(jù)處理效率保障數(shù)據(jù)產(chǎn)出的時(shí)效性,是亟需解決的問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種熱數(shù)據(jù)分布式緩存方法、設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中提升數(shù)據(jù)處理效率存在改動(dòng)大以及數(shù)據(jù)時(shí)效性不穩(wěn)定的缺陷。
2、本發(fā)明提供一種熱數(shù)據(jù)分布式緩存方法,包括:
3、獲取數(shù)據(jù)資產(chǎn)信息;
4、根據(jù)所述數(shù)據(jù)資產(chǎn)信息生成有向圖信息,所述有向圖信息包括多個(gè)對象節(jié)點(diǎn)以及所述對象節(jié)點(diǎn)之間的有向關(guān)系;
5、根據(jù)所述有向圖信息,計(jì)算各個(gè)所述對象節(jié)點(diǎn)對應(yīng)的重要性值,所述重要性值表征所述對象節(jié)點(diǎn)的被訪問頻率;
6、根據(jù)所述重要性值,確定熱數(shù)據(jù);
7、將熱數(shù)據(jù)加載至分布式內(nèi)存中并且對應(yīng)修改所述熱數(shù)據(jù)的訪問路徑。
8、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,所述根據(jù)所述有向圖信息,計(jì)算各個(gè)所述對象節(jié)點(diǎn)對應(yīng)的重要性值,包括:
9、初始化各個(gè)所述對象節(jié)點(diǎn)的權(quán)重系數(shù);
10、根據(jù)初始化的所述節(jié)點(diǎn)的權(quán)重系數(shù)以及所述有向圖信息,基于預(yù)設(shè)算法迭代計(jì)算各個(gè)所述對象節(jié)點(diǎn)的權(quán)重系數(shù),直至各個(gè)所述對象節(jié)點(diǎn)的權(quán)重系數(shù)收斂;
11、將各個(gè)所述對象節(jié)點(diǎn)的權(quán)重系數(shù)作為所述重要性值。
12、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,所述熱數(shù)據(jù)存儲(chǔ)于分布式文件系統(tǒng)中;所述將熱數(shù)據(jù)加載至分布式內(nèi)存中并且對應(yīng)修改所述熱數(shù)據(jù)的訪問路徑,包括:
13、根據(jù)所述熱數(shù)據(jù)的存儲(chǔ)路徑,生成外部表,所述外部表包括所述熱數(shù)據(jù)在所述分布式文件系統(tǒng)的訪問路徑;
14、響應(yīng)于訪問請求,將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至分布式內(nèi)存中;
15、根據(jù)加載后所述熱數(shù)據(jù)在所述分布式內(nèi)存的存儲(chǔ)路徑,修改所述外部表的訪問路徑。
16、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,所述分布式內(nèi)存包括持久化內(nèi)存;所述響應(yīng)于訪問請求,將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至分布式內(nèi)存中,包括:
17、響應(yīng)于訪問請求,確定訪問任務(wù)類型,所述訪問任務(wù)類型包括批處理任務(wù);
18、當(dāng)所述訪問任務(wù)類型為批處理任務(wù)時(shí),將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至持久化內(nèi)存。
19、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,所述分布式內(nèi)存還包括彈性內(nèi)存以及非持久化內(nèi)存;在所述當(dāng)所述訪問任務(wù)類型為批處理任務(wù)時(shí),將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至持久化內(nèi)存之后,還包括:
20、獲取批處理任務(wù)狀態(tài)信息以及內(nèi)存狀態(tài)信息;
21、根據(jù)所述批處理任務(wù)狀態(tài)信息,當(dāng)批處理任務(wù)完成時(shí),將對應(yīng)的所述熱數(shù)據(jù)切換至所述彈性內(nèi)存;
22、根據(jù)所述內(nèi)存狀態(tài)信息,當(dāng)內(nèi)存不足時(shí),將所述彈性內(nèi)存中訪問頻次最小的所述熱數(shù)據(jù)轉(zhuǎn)換至所述非持久化內(nèi)存。
23、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,還包括:
24、獲取業(yè)務(wù)情況信息以及批處理任務(wù)周期信息;
25、根據(jù)所述業(yè)務(wù)情況信息以及所述批處理任務(wù)周期信息,配置所述分布式內(nèi)存中所述持久化內(nèi)存、所述彈性內(nèi)存以及所述非持久化內(nèi)存的比例。
26、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,所述根據(jù)所述數(shù)據(jù)資產(chǎn)信息生成有向圖信息,包括:
27、根據(jù)所述數(shù)據(jù)資產(chǎn)信息,確定對象節(jié)點(diǎn);
28、根據(jù)各個(gè)所述對象節(jié)點(diǎn)之間的依賴關(guān)系、調(diào)用關(guān)系以及數(shù)據(jù)傳輸關(guān)系,確定所述對象節(jié)點(diǎn)之間的有向關(guān)系;
29、根據(jù)所述對象節(jié)點(diǎn)以及有向關(guān)系,生成所述有向圖信息。
30、根據(jù)本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法,還包括:根據(jù)預(yù)設(shè)周期更新所述數(shù)據(jù)資產(chǎn)信息以更新所述有向圖信息。
31、本發(fā)明還提供一種熱數(shù)據(jù)分布式緩存裝置,包括:
32、有向圖信息生成模塊,用于根據(jù)數(shù)據(jù)資產(chǎn)信息構(gòu)建有向圖信息;
33、熱數(shù)據(jù)識(shí)別模塊,用于根據(jù)有向圖信息,確定熱數(shù)據(jù);
34、分布式內(nèi)存調(diào)度模塊,用于將熱數(shù)據(jù)加載至分布式內(nèi)存中并且對應(yīng)修改所述熱數(shù)據(jù)的訪問路徑;
35、所述有向信息生成模塊、所述熱數(shù)據(jù)識(shí)別模塊以及所述分布式內(nèi)存調(diào)度模塊相互配合執(zhí)行上述的一種熱數(shù)據(jù)分布式緩存方法。
36、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述一種熱數(shù)據(jù)分布式緩存方法。
37、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述一種熱數(shù)據(jù)分布式緩存方法。
38、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述一種熱數(shù)據(jù)分布式緩存方法。
39、本發(fā)明提供的一種熱數(shù)據(jù)分布式緩存方法、設(shè)備及存儲(chǔ)介質(zhì),至少具有以下有益效果:根據(jù)數(shù)據(jù)資產(chǎn)信息,生成表征對象節(jié)點(diǎn)以及對象節(jié)點(diǎn)之間有向關(guān)系的有向圖信息,有向圖信息能夠反映對象節(jié)點(diǎn)之間數(shù)據(jù)的交互流向,根據(jù)有向圖信息計(jì)算各個(gè)對象節(jié)點(diǎn)對應(yīng)的重要性值,重要性值越大意味著對象節(jié)點(diǎn)的數(shù)據(jù)被訪問使用的頻率越大,可以確定高訪問頻率的對象節(jié)點(diǎn)產(chǎn)生的數(shù)據(jù)為熱數(shù)據(jù)。將熱數(shù)據(jù)加載至分布式內(nèi)存中,并且對應(yīng)修改熱數(shù)據(jù)的訪問路徑,以直接訪問分布式內(nèi)存中的熱數(shù)據(jù)。以此,基于數(shù)據(jù)資產(chǎn)信息構(gòu)建有向圖信息,通過預(yù)設(shè)算法識(shí)別熱數(shù)據(jù),利用內(nèi)存機(jī)制加速熱數(shù)據(jù)的訪問速率,能夠顯著地降低熱數(shù)據(jù)的讀取延時(shí)以提高熱數(shù)據(jù)的訪問效率,進(jìn)而有利于提高執(zhí)行批處理任務(wù)效率以及保障數(shù)據(jù)產(chǎn)出的時(shí)效性。
1.一種熱數(shù)據(jù)分布式緩存方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,所述根據(jù)所述有向圖信息,計(jì)算各個(gè)所述對象節(jié)點(diǎn)對應(yīng)的重要性值,包括:
3.根據(jù)權(quán)利要求1所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,所述熱數(shù)據(jù)存儲(chǔ)于分布式文件系統(tǒng)中;所述將熱數(shù)據(jù)加載至分布式內(nèi)存中并且對應(yīng)修改所述熱數(shù)據(jù)的訪問路徑,包括:
4.根據(jù)權(quán)利要求3所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,所述分布式內(nèi)存包括持久化內(nèi)存;所述響應(yīng)于訪問請求,將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至分布式內(nèi)存中,包括:
5.根據(jù)權(quán)利要求4所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,所述分布式內(nèi)存還包括彈性內(nèi)存以及非持久化內(nèi)存;在所述當(dāng)所述訪問任務(wù)類型為批處理任務(wù)時(shí),將所述訪問請求對應(yīng)的所述熱數(shù)據(jù)加載至持久化內(nèi)存之后,還包括:
6.根據(jù)權(quán)利要求5所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求1所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,所述根據(jù)所述數(shù)據(jù)資產(chǎn)信息生成有向圖信息,包括:
8.根據(jù)權(quán)利要求1所述的一種熱數(shù)據(jù)分布式緩存方法,其特征在于,還包括:
9.一種熱數(shù)據(jù)分布式緩存裝置,其特征在于,包括:
10.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述一種熱數(shù)據(jù)分布式緩存方法。
11.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述一種熱數(shù)據(jù)分布式緩存方法。
12.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述一種熱數(shù)據(jù)分布式緩存方法。