一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法
【專利摘要】本發(fā)明公開了一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,其具體實現(xiàn)過程為:設置資源類型管理模塊、資源類型分層模塊、資源監(jiān)控模塊和資源故障定位模塊,其中資源故障定位模塊按層對監(jiān)控信息進行分析,采集自上而下、逐層循環(huán)的方式查找到最根本的故障原因,實現(xiàn)對云數(shù)據(jù)中心中的設備資源的細粒度監(jiān)控、精細化分析和準確的資源故障原因定位。該一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法與現(xiàn)有技術相比,有效提高了數(shù)據(jù)中心監(jiān)控故障定位的效率,實現(xiàn)對云數(shù)據(jù)中心中的設備資源的細粒度監(jiān)控、精細化分析和準確的資源故障原因定位,在大規(guī)模云數(shù)據(jù)中心的監(jiān)控應用中,具有很高的技術價值。
【專利說明】一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法
【技術領域】
[0001]本發(fā)明涉及計算機監(jiān)控【技術領域】,具體地說是一種實用性強、基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)的飛速發(fā)展,大規(guī)模的云數(shù)據(jù)中心越來越成為現(xiàn)代社會發(fā)展的需要。這就為數(shù)據(jù)中心的監(jiān)控難度帶來巨大挑戰(zhàn),一個擁有幾萬資源的云數(shù)據(jù)中心的監(jiān)控難度已非常大,更何況目前的發(fā)展趨勢下幾十萬資源、甚至幾百萬資源的云數(shù)據(jù)中心正在逐步產(chǎn)生?,F(xiàn)有技術的資源監(jiān)控系統(tǒng)如附圖1所示,一個具有十萬資源的數(shù)據(jù)中心的監(jiān)控,用傳統(tǒng)的資源監(jiān)控方式已經(jīng)無法滿足,往往造成管理員每天收到成千上萬條故障告警,但其中大部分為假故障,無法準確地定位到故障原因,浪費了大量的人力物力,也使數(shù)據(jù)中心管理員一直處于超負荷運轉中。并且,由于監(jiān)控的設備、機房等資源類型劃分不明確,監(jiān)控項目無法進行細粒度設計,導致監(jiān)控不能精細化、細致化和準確化。以上挑戰(zhàn)為大規(guī)模云數(shù)據(jù)中心的監(jiān)控時故障問題的定位、故障問題原因的分析等均帶來了極大的局限性,嚴重影響大規(guī)模云數(shù)據(jù)中心監(jiān)控的發(fā)展,基于此,現(xiàn)提供一種可解決上述問題、基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,實現(xiàn)對云數(shù)據(jù)中心中的設備資源的細粒度監(jiān)控、精細化分析和準確的資源故障原因定位。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的技術任務是針對以上不足之處,提供一種實用性強、基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法。
[0004]一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,其具體實現(xiàn)過程為:
設置資源類型管理模塊、資源類型分層模塊、資源監(jiān)控模塊、資源故障定位模塊;其中:
資源管理模塊,用于建立基于云數(shù)據(jù)中心的資源類型分層模塊;
資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據(jù)的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監(jiān)控信息,查找資源故障原因的過程;
資源監(jiān)控模塊設計,將物理設備、虛擬資源和應用系統(tǒng)以資源的角度分成不同的資源類型進行監(jiān)控,然后以此種角度進行各種類型資源的數(shù)據(jù)采集,完成監(jiān)控;
資源故障定位模塊,當資源進行監(jiān)控時出現(xiàn)了故障后,資源監(jiān)控模塊采集完成監(jiān)控信息,按層對監(jiān)控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
[0005]所述的分層資源類型庫自上而下劃分為Web服務層、數(shù)據(jù)庫應用層、操作系統(tǒng)層、虛擬資源層、網(wǎng)絡設備層、硬件資源層和機房環(huán)境層,每層負責一個業(yè)務應用運行時自上而下的不同部分。
[0006]所述資源故障的逐層故障定位采用自上而下、逐層循環(huán)的方式,即當?shù)谝粚淤Y源監(jiān)控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
[0007]本發(fā)明的一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,具有以下優(yōu)點:
該發(fā)明的一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法解決了傳統(tǒng)的資源監(jiān)控方式使管理員每天收到成千上萬條假故障告警,無法準確地定位到故障原因,浪費了大量的人力物力的問題;大大提高了資源監(jiān)控中故障定位的真實性和準確性,避免了因各資源類型之間相對獨立監(jiān)控時的故障誤報或監(jiān)控不到根本故障原因的問題,最終實現(xiàn)了當云數(shù)據(jù)中心中的資源監(jiān)控到故障后,可以逐級、逐層的按資源類型層詳細地、明確地查找定位到故障原因,便于故障的分析和解決,實用性強,適用范圍廣泛,易于推廣。
【專利附圖】
【附圖說明】
[0008]附圖1為現(xiàn)有的資源監(jiān)控原理示意圖。
[0009]附圖2為本發(fā)明的資源類型分層模塊示意圖。
[0010]附圖3為本發(fā)明的資源故障定位模塊示意圖。
[0011 ] 附圖4為本發(fā)明的分層式資源監(jiān)控示意圖。
【具體實施方式】
[0012]下面結合附圖和具體實施例對本發(fā)明作進一步說明。
[0013]本發(fā)明提供一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,充分發(fā)揮資源類型可按層劃分的特點,運用資源故障逐層依賴、自上而下關聯(lián)的機制,采用資源類型管理模塊和資源類型分層模塊,以及資源監(jiān)控模塊和資源故障定位模塊相結合的設計方法,實現(xiàn)資源監(jiān)控按類型劃分后,再由資源類型分層模塊進行按層劃分,組成自上而下依賴存在的監(jiān)控體系。當資源進行監(jiān)控時出現(xiàn)了故障后,資源故障定位模塊先由故障基本信息開始,逐層進行故障定位,直到查找出真正的故障原因。采用這種以資源類型庫為基礎生成分層資源類型庫,然后再按層次分析各資源類型層采集到的監(jiān)控信息,定位出最根本故障原因,從而大大提高了資源監(jiān)控中故障定位的真實性和準確性。如附圖2、圖3、圖4所示,其具體實現(xiàn)過程為:
設置資源類型管理模塊、資源類型分層模塊、資源監(jiān)控模塊、資源故障定位模塊;其中:
資源管理模塊,用于建立基于云數(shù)據(jù)中心的資源類型分層模塊;
資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據(jù)的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監(jiān)控信息,查找資源故障原因的過程;
資源監(jiān)控模塊設計,將物理設備、虛擬資源和應用系統(tǒng)以資源的角度分成不同的資源類型進行監(jiān)控,然后以此種角度進行各種類型資源的數(shù)據(jù)采集,完成監(jiān)控;比如將一臺Oracle數(shù)據(jù)庫服務器分為Oracle數(shù)據(jù)庫、Windows操作系統(tǒng)、網(wǎng)絡交換機、小型機和所在機房運行環(huán)境等資源類型,然后以此種角度去進行各種類型資源的數(shù)據(jù)采集,最終經(jīng)過靈活的、精細化的分析處理后實現(xiàn)對此Oracle數(shù)據(jù)庫服務器的完整監(jiān)控。
[0014]資源故障定位模塊,當資源進行監(jiān)控時出現(xiàn)了故障后,資源監(jiān)控模塊采集完成監(jiān)控信息,按層對監(jiān)控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
[0015]所述的分層資源類型庫自上而下劃分為Web服務層、數(shù)據(jù)庫應用層、操作系統(tǒng)層、虛擬資源層、網(wǎng)絡設備層、硬件資源層和機房環(huán)境層,每層負責一個業(yè)務應用運行時自上而下的不同部分。
[0016]所述資源故障的逐層故障定位采用自上而下、逐層循環(huán)的方式,即當?shù)谝粚淤Y源監(jiān)控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
[0017]下面結合附圖對本發(fā)明的內(nèi)容以分層式監(jiān)控一個擁有30種資源類型的云數(shù)據(jù)中心為例,采用30種資源類型劃分為6種資源類型層的方式來描述這一設計方法的實現(xiàn)過程。
[0018]基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法設計包括:資源類型管理模塊、資源類型分層模塊、資源監(jiān)控模塊和資源故障定位模塊,如圖4所示,首先,資源類型管理模塊建立該云數(shù)據(jù)中心的資源類型庫,其中包括Apache/Tomcat Web服務器、0racle/DB2數(shù)據(jù)庫應用、Windows/Linux操作系統(tǒng)、Vmware/Xen虛擬資源、Cisco/H3C網(wǎng)絡設備和IBM/ΗΡ服務器等30種資源類型。然后,資源類型分層模塊將這30種資源類型劃分為自上而下的Web服務層、數(shù)據(jù)庫應用層、操作系統(tǒng)層、虛擬資源層、網(wǎng)絡設備層和硬件資源層共七層資源類型層,組成該云數(shù)據(jù)中心的分層資源類型庫。由資源監(jiān)控模塊調動數(shù)據(jù)中心內(nèi)各種類型資源完成監(jiān)控數(shù)據(jù)采集后,當有問題產(chǎn)生時,便產(chǎn)生相應的資源故障信息,再由資源故障定位模塊按照自上而下、逐層循環(huán)查找的原則,對各分層資源進行逐級定位,當硬件資源層資源有故障時,可以直接定位故障原因為硬件資源;當網(wǎng)絡設備層資源有故障時,則需要自上而下查找了網(wǎng)絡設備層和硬件資源層后才能確定最根本的故障原因;當虛擬資源層有故障時,則需要自上而下查找了虛擬資源層、網(wǎng)絡設備層和硬件資源層后才能確定最根本的故障原因;以此類推,該云數(shù)據(jù)中心中的資源故障信息均可逐層完成故障定位和故障原因分析。
[0019]上述【具體實施方式】僅是本發(fā)明的具體個案,本發(fā)明的專利保護范圍包括但不限于上述【具體實施方式】,任何符合本發(fā)明的一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法的權利要求書的且任何所述【技術領域】的普通技術人員對其所做的適當變化或替換,皆應落入本發(fā)明的專利保護范圍。
【權利要求】
1.一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,其特征在于,其具體實現(xiàn)過程為: 設置資源類型管理模塊、資源類型分層模塊、資源監(jiān)控模塊、資源故障定位模塊;其中: 資源管理模塊,用于建立基于云數(shù)據(jù)中心的資源類型分層模塊; 資源類型分層模塊,基于資源類型庫,將不同用途的資源類型進行按層次劃分,生成以資源層級為依據(jù)的分層資源類型庫,然后再以分層資源類型的方式去分析、處理資源監(jiān)控信息,查找資源故障原因的過程; 資源監(jiān)控模塊設計,將物理設備、虛擬資源和應用系統(tǒng)以資源的角度分成不同的資源類型進行監(jiān)控,然后以此種角度進行各種類型資源的數(shù)據(jù)采集,完成監(jiān)控; 資源故障定位模塊,當資源進行監(jiān)控時出現(xiàn)了故障后,資源監(jiān)控模塊采集完成監(jiān)控信息,按層對監(jiān)控信息進行分析,當故障所在資源類型層不是最下邊的層時,逐層的進行向下查找,直到找到最根本的故障原因;當故障所在資源類型層向下的各層均運行正常時,則可確定當前層中的故障原因即為此次故障的根本原因。
2.根據(jù)權利要求1所述的一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,其特征在于,所述的分層資源類型庫自上而下劃分為Web服務層、數(shù)據(jù)庫應用層、操作系統(tǒng)層、虛擬資源層、網(wǎng)絡設備層、硬件資源層和機房環(huán)境層,每層負責一個業(yè)務應用運行時自上而下的不同部分。
3.根據(jù)權利要求1所述的一種基于云數(shù)據(jù)中心的分層式資源監(jiān)控方法,其特征在于,所述資源故障的逐層故障定位采用自上而下、逐層循環(huán)的方式,即當?shù)谝粚淤Y源監(jiān)控不正常時,先查找其下各層中是否有不正常的資源存在,若沒有,則直接確定此次故障的根本原因即為第一層資源的問題;若有,則進行第二層資源查找,依此類推,直到定位到故障根本原因。
【文檔編號】H04L29/08GK104486406SQ201410769643
【公開日】2015年4月1日 申請日期:2014年12月15日 優(yōu)先權日:2014年12月15日
【發(fā)明者】陸峰, 劉成平, 李鋒 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司