一種基于Storm實時流計算框架的應(yīng)用網(wǎng)絡(luò)帶寬動態(tài)優(yōu)先級保障方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及大數(shù)據(jù)處理、實時流計算和優(yōu)先級保障技術(shù)領(lǐng)域,特別是涉及一種基 于Storm實時流計算框架的應(yīng)用網(wǎng)絡(luò)帶寬動態(tài)優(yōu)先級保障方法。
【背景技術(shù)】
[0002] 近年來隨著處理器和集成電路技術(shù)的不斷進(jìn)步,個人電腦、手持設(shè)備和智能手機(jī) 等個性化設(shè)備得到了很大地普及和推廣。與此同時,新型的互聯(lián)網(wǎng)使用模式例如電子商務(wù)、 社交網(wǎng)絡(luò)等也在不斷深入人們生活的方方面面,由此產(chǎn)生的用戶數(shù)據(jù)無論從容量、速度和 多樣性上都超過了人類歷史上的任何一個階段,呈現(xiàn)出了爆炸性增長。充分挖掘這些實時 紛雜的海量用戶數(shù)據(jù),對于理解用戶使用行為進(jìn)而揭示潛在用戶需求,對于互聯(lián)網(wǎng)公司不 斷完善服務(wù)產(chǎn)品,增加產(chǎn)品收益,具有重要的商業(yè)價值。storm實時流計算框架的出現(xiàn),以其 靈活的處理流程構(gòu)建、高效的分布式并行以及透明容錯等特點,有效提高了實時流處理應(yīng) 用的開發(fā)效率,成為產(chǎn)業(yè)界快速構(gòu)建實時流計算應(yīng)用的首選。
[0003] Storm實時流計算框架采用了分布式計算的思想,充分利用大規(guī)模計算節(jié)點為應(yīng) 用程序性能提供良好的可擴(kuò)展性,同時支持用戶定義復(fù)雜的數(shù)據(jù)流(datastream)處理邏 輯,允許在不同的計算階段對數(shù)據(jù)流進(jìn)行不同形式的劃分。如圖1所示,Storm中應(yīng)用對數(shù) 據(jù)流的處理邏輯被定義在計算拓?fù)洌═opology)中,每一個計算拓?fù)鋭t由任意多個計算組 件組成,不同計算組件按照其在計算拓?fù)渲械慕巧煌挚梢苑譃閿?shù)據(jù)源組件(Spout,或 Spoutl)和處理組件(Bolt,或Boltl-Bolt9)。數(shù)據(jù)源組件負(fù)責(zé)將外部的數(shù)據(jù)進(jìn)行相關(guān)轉(zhuǎn) 化,然后以一定的速率注入到計算拓?fù)渲?,而處理組件則分別負(fù)責(zé)不同的處理邏輯,對流經(jīng) 其的數(shù)據(jù)流進(jìn)行相關(guān)轉(zhuǎn)化。組件間流動的數(shù)據(jù)被組織為元組(Tuple)的形式,每一個元組 可以包含多個數(shù)據(jù)域(Value)。組件間的元組數(shù)據(jù)分發(fā)模式可以分為4種,分別是洗牌分 發(fā)(ShuffleGrouping)、按域分發(fā)(FieldGrouping)、全分發(fā)(AllGrouping)和指定分發(fā) (GlobalGrouping)。洗牌分發(fā)模式下,上游(Upstream)組件產(chǎn)生的元組會均勾分發(fā)到下 游(Downstream)與其銜接的組件上;按域分發(fā)模式下,上游組件產(chǎn)生元組中域值相同的元 組會分發(fā)到下游相同的組件上;全分發(fā)模式下,上游組件產(chǎn)生的元組會向下游每一個組件 分發(fā)一份副本;指定分發(fā)模式下,上游組件產(chǎn)生的元組會被分發(fā)到指定的下游組件上。
[0004] 應(yīng)用的計算拓?fù)涠x完成之后,Storm現(xiàn)在的組件調(diào)度采用輪詢方式 (Round-Robin),將數(shù)據(jù)源和處理組件放置到不同執(zhí)行節(jié)點(Worker)上運(yùn)行,從而實現(xiàn)系 統(tǒng)負(fù)載均衡的效果?,F(xiàn)有組件調(diào)度方法只考慮了單一用戶的應(yīng)用場景,無法滿足多個擁 有不同優(yōu)先級的用戶應(yīng)用共享Storm集群資源的情況。特別是在應(yīng)用負(fù)載出現(xiàn)短時間峰 值的情況下,無法保障高優(yōu)先級應(yīng)用對網(wǎng)絡(luò)帶寬的優(yōu)先使用,從而使得數(shù)據(jù)處理時延顯著 增加,應(yīng)用服務(wù)質(zhì)量嚴(yán)重下降。同時,不同組件計算行為各不相同,處理數(shù)據(jù)流的選擇率 (Selectivity,輸出數(shù)據(jù)量與輸入數(shù)據(jù)量的比率)差異較大,再結(jié)合不同的數(shù)據(jù)分發(fā)模式, 最終會對網(wǎng)絡(luò)帶寬的使用產(chǎn)生較大影響。
[0005] 綜上可以看出,在不同優(yōu)先級應(yīng)用共享Storm集群的情況下,如何根據(jù)應(yīng)用的實 時負(fù)載水平、計算行為特征以及數(shù)據(jù)分發(fā)模式,動態(tài)調(diào)節(jié)應(yīng)用對網(wǎng)絡(luò)帶寬使用的優(yōu)先級,對 于降低數(shù)據(jù)流的處理時延、滿足應(yīng)用峰值負(fù)載的服務(wù)質(zhì)量要求至關(guān)重要,同時保障低優(yōu)先 級應(yīng)用能夠使用到合理的網(wǎng)絡(luò)帶寬資源,避免"饑餓"現(xiàn)象的產(chǎn)生,對于維護(hù)整個系統(tǒng)的可 用性是不可或缺的。
【發(fā)明內(nèi)容】
[0006] 針對現(xiàn)有Storm實時流技術(shù)的以上缺陷和改進(jìn)需求,本發(fā)明提出了一種基于 Storm實時流計算框架的應(yīng)用網(wǎng)絡(luò)帶寬動態(tài)優(yōu)先級保障方法,解決了原有Storm系統(tǒng)在多 個用戶共享集群資源的情況下,無法滿足高優(yōu)先級應(yīng)用對網(wǎng)絡(luò)帶寬的優(yōu)先使用,同時在應(yīng) 用負(fù)載出現(xiàn)波動時,無法對應(yīng)用優(yōu)先級進(jìn)行動態(tài)調(diào)整的問題。
[0007] 本發(fā)明提出了一種基于Storm實時流計算框架的應(yīng)用網(wǎng)絡(luò)帶寬動態(tài)優(yōu)先級保障 方法,其特征在于有下列處理步驟:
[0008] 第一步:構(gòu)建應(yīng)用拓?fù)浣Y(jié)構(gòu);
[0009] 用戶根據(jù)Storm實時數(shù)據(jù)流的處理邏輯,構(gòu)建了應(yīng)用拓?fù)浣Y(jié)構(gòu)(T={ti,t2,… ,ta},ta= {S,B,G});所述任意一個拓?fù)浣Y(jié)構(gòu)%中包括有數(shù)據(jù)源組(S= {Sl,s2,…,sc})、處 理組件(B={Vh,…,bd}),以及組件間的數(shù)據(jù)分發(fā)模式(G= {gl,g2,…,ge})。
[0010] 第二步:設(shè)置資源預(yù)算和花費(fèi)速率的初始值;
[0011] 用戶為提交的任意一個拓?fù)浣Y(jié)構(gòu)ta設(shè)置初始網(wǎng)絡(luò)帶寬資源預(yù)算A嶺於.和初始 網(wǎng)絡(luò)帶寬花費(fèi)速率。
[0012] 第三步:設(shè)置期望運(yùn)行時長;
[0013] 用戶為提交的任意一個拓?fù)浣Y(jié)構(gòu)ta設(shè)置期望運(yùn)行時長。
[0014] 第四步:獲取元組發(fā)送速率和接收速率;
[0015] 在設(shè)置完成第二步和第三步后,在運(yùn)行第一步的任意一個拓?fù)浣Y(jié)構(gòu)ta后,通過主 節(jié)點上的Thrift運(yùn)行時狀態(tài)查詢接口,啟動后臺監(jiān)控線程;實時獲得各個計算節(jié)點上運(yùn)行 數(shù)據(jù)源s。的元組發(fā)送速率劃,和元組接收速率,以及資源花費(fèi)速率廣,然 后執(zhí)行第五步。
[0016] 在本發(fā)明中,任意一個拓?fù)浣Y(jié)構(gòu)^在計算節(jié)點上運(yùn)行完成所有的數(shù)據(jù)源S= {Sl,s2,…,s。},則將獲得的元組發(fā)送速率集合記為= [腳 和元組接收速率集合記為
【主權(quán)項】
1. 一種基于Storm實時流計算框架的應(yīng)用網(wǎng)絡(luò)帶寬動態(tài)優(yōu)先級保障方法,其特征在于 有下列處理步驟: 第一步:構(gòu)建應(yīng)用拓?fù)浣Y(jié)構(gòu); 用戶根據(jù)Storm實時數(shù)據(jù)流的處理邏輯,構(gòu)建了應(yīng)用拓?fù)浣Y(jié)構(gòu)(T = It1, t2,…,ta},ta ={S,B,G});所述任意一個拓?fù)浣Y(jié)構(gòu)^中包括有數(shù)據(jù)源組(S= {s i,S2,…,s。})、處理組件 (B = Od1, b2,…,bd}),以及組件間的數(shù)據(jù)分發(fā)模式(G = {gp g2,…,gj); 第二步:設(shè)置資源預(yù)算和花費(fèi)速率的初始值; 用戶為提交的任意一個拓?fù)浣Y(jié)構(gòu)ta設(shè)置初始網(wǎng)絡(luò)帶寬資源預(yù)算S〃成^<_:y和初始網(wǎng)絡(luò) 帶寬花費(fèi)速率心; 第三步:設(shè)置期望運(yùn)行時長; 用戶為提交的任意一個拓?fù)浣Y(jié)構(gòu)1設(shè)置期望運(yùn)行時長&〃; 第四步:獲取元組發(fā)送速率和接收速率; 在設(shè)置完成第二步和第三步后,在運(yùn)行第一步的任意一個拓?fù)浣Y(jié)構(gòu)1后,通過主節(jié)點 上的T