一種系統(tǒng)故障預(yù)警方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)軟件技術(shù)領(lǐng)域,特別是涉及一種系統(tǒng)故障預(yù)警方法和一種系統(tǒng)故障預(yù)警系統(tǒng)。
【背景技術(shù)】
[0002]分布式系統(tǒng)(Distributed System)是建立在網(wǎng)絡(luò)之上的軟件系統(tǒng)。在分布式系統(tǒng)中,特別是大型分布式系統(tǒng),如Hadoop集群系統(tǒng),通過預(yù)先設(shè)置監(jiān)控閾值,然后,對(duì)系統(tǒng)節(jié)點(diǎn)服務(wù)器進(jìn)行周期性的監(jiān)控,當(dāng)監(jiān)控指標(biāo)達(dá)到監(jiān)控閾值時(shí),對(duì)系統(tǒng)節(jié)點(diǎn)服務(wù)器進(jìn)行故障預(yù)警。
[0003]但是,這種系統(tǒng)節(jié)點(diǎn)故障預(yù)警方式只有在監(jiān)控指標(biāo)達(dá)到預(yù)置閾值時(shí),才能對(duì)系統(tǒng)節(jié)點(diǎn)服務(wù)器進(jìn)行故障預(yù)警。一方面,當(dāng)系統(tǒng)節(jié)點(diǎn)服務(wù)器已經(jīng)存在故障,但監(jiān)控指標(biāo)尚未達(dá)到監(jiān)控閾值時(shí),無法對(duì)節(jié)點(diǎn)服務(wù)器故障進(jìn)行有效的預(yù)警,從而影響系統(tǒng)的正常運(yùn)行,例如,當(dāng)集群中某個(gè)節(jié)點(diǎn)服務(wù)器的磁盤出現(xiàn)壞道故障時(shí)節(jié)點(diǎn)服務(wù)器的吞吐量將會(huì)下降,但未達(dá)到預(yù)先設(shè)置的監(jiān)控指標(biāo),系統(tǒng)則無法發(fā)出節(jié)點(diǎn)服務(wù)器故障預(yù)警。另一方面,由于無法通過系統(tǒng)告警快速的發(fā)現(xiàn)已發(fā)生故障的節(jié)點(diǎn),使得故障節(jié)點(diǎn)得不到及時(shí)的維護(hù),從而影響系統(tǒng)的穩(wěn)定運(yùn)行。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實(shí)施例所要解決的技術(shù)問題是提供一種系統(tǒng)故障預(yù)警方法,以對(duì)系統(tǒng)中故障節(jié)點(diǎn)設(shè)備快速、有效的預(yù)警。
[0005]相應(yīng)的,本發(fā)明實(shí)施例還提供了一種系統(tǒng)故障預(yù)警系統(tǒng),用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。
[0006]為了解決上述問題,本發(fā)明公開了一種系統(tǒng)故障預(yù)警方法,包括:獲取故障節(jié)點(diǎn)設(shè)備的告警信息,從所述告警信息中獲取所述故障節(jié)點(diǎn)設(shè)備的告警類型;依據(jù)所述告警類型確定所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備;對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行故障預(yù)警。
[0007]可選的,在獲取故障節(jié)點(diǎn)設(shè)備的告警信息之前,還包括:將具有相同配置信息的節(jié)點(diǎn)設(shè)備標(biāo)注相同類型的標(biāo)簽,其中,所述配置信息包括節(jié)點(diǎn)設(shè)備的硬件配置信息和網(wǎng)絡(luò)架構(gòu)信息;和/或,收集第一時(shí)間閾值內(nèi)發(fā)生故障的節(jié)點(diǎn)設(shè)備的故障信息,依據(jù)所述故障信息統(tǒng)計(jì)分析所述發(fā)生故障的節(jié)點(diǎn)設(shè)備的關(guān)聯(lián)關(guān)系,將具有關(guān)聯(lián)關(guān)系的節(jié)點(diǎn)設(shè)備標(biāo)注相同類型的標(biāo)簽。
[0008]可選的,依據(jù)所述告警類型確定所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備,包括:依據(jù)所述告警類型確定所述故障節(jié)點(diǎn)設(shè)備的至少一種標(biāo)簽;針對(duì)每種標(biāo)簽,在系統(tǒng)中查找具有所述標(biāo)簽的節(jié)點(diǎn)設(shè)備,將所述節(jié)點(diǎn)設(shè)備作為所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備。
[0009]可選的,對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),包括:針對(duì)每一個(gè)相關(guān)節(jié)點(diǎn)設(shè)備,分別獲取所述相關(guān)節(jié)點(diǎn)設(shè)備的每一種標(biāo)簽對(duì)應(yīng)的性能檢測(cè)項(xiàng);分別對(duì)所述性能檢測(cè)項(xiàng)進(jìn)行檢測(cè),確定所述性能檢測(cè)項(xiàng)的檢測(cè)值;檢測(cè)所述檢測(cè)值是否在所述性能檢測(cè)項(xiàng)的正常范圍內(nèi);若任一檢測(cè)值不在所述性能檢測(cè)項(xiàng)的正常范圍內(nèi),則所述相關(guān)節(jié)點(diǎn)設(shè)備異常。
[0010]可選的,對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè)之前,還包括:在第二時(shí)間閾值內(nèi),檢測(cè)標(biāo)簽類型相同的故障節(jié)點(diǎn)設(shè)備的數(shù)量是否達(dá)到檢測(cè)閾值;若標(biāo)簽類型相同的故障節(jié)點(diǎn)設(shè)備的數(shù)量達(dá)到所述檢測(cè)閾值,則執(zhí)行對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè)的步驟。
[0011]可選的,對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行故障預(yù)警,包括:對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行統(tǒng)計(jì),當(dāng)所述檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備的數(shù)量達(dá)到故障預(yù)警閾值時(shí),執(zhí)行故障預(yù)目O
[0012]本發(fā)明實(shí)施例還公開了一種故障預(yù)警系統(tǒng),包括:告警獲取模塊,用于獲取故障節(jié)點(diǎn)設(shè)備的告警信息,從所述告警信息中獲取所述故障節(jié)點(diǎn)設(shè)備的告警類型;相關(guān)節(jié)點(diǎn)檢測(cè)模塊,用于依據(jù)所述告警類型確定所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備;預(yù)警模塊,用于對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行故障預(yù)警。
[0013]可選的,還包括:標(biāo)簽標(biāo)注模塊,用于將具有相同配置信息的節(jié)點(diǎn)設(shè)備標(biāo)注相同類型的標(biāo)簽,其中,所述配置信息包括節(jié)點(diǎn)設(shè)備的硬件配置信息和網(wǎng)絡(luò)架構(gòu)信息;和/或,收集第一時(shí)間閾值內(nèi)發(fā)生故障的節(jié)點(diǎn)設(shè)備的故障信息,依據(jù)所述故障信息統(tǒng)計(jì)分析所述發(fā)生故障的節(jié)點(diǎn)設(shè)備的關(guān)聯(lián)關(guān)系,將具有關(guān)聯(lián)關(guān)系的節(jié)點(diǎn)設(shè)備標(biāo)注相同類型的標(biāo)簽。
[0014]可選的,所述告警獲取模塊,包括:標(biāo)簽獲取子模塊,用于依據(jù)所述告警類型確定所述故障節(jié)點(diǎn)設(shè)備的至少一種標(biāo)簽;相關(guān)節(jié)點(diǎn)查找子模塊,用于針對(duì)每種標(biāo)簽,在系統(tǒng)中查找具有所述標(biāo)簽的節(jié)點(diǎn)設(shè)備,將所述節(jié)點(diǎn)設(shè)備作為所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備。
[0015]可選的,所述預(yù)警模塊,包括:檢測(cè)項(xiàng)確定子模塊,用于針對(duì)每一個(gè)相關(guān)節(jié)點(diǎn)設(shè)備,分別獲取所述相關(guān)節(jié)點(diǎn)設(shè)備的每一種標(biāo)簽對(duì)應(yīng)的性能檢測(cè)項(xiàng);檢測(cè)值確定子模塊,用于分別對(duì)所述性能檢測(cè)項(xiàng)進(jìn)行檢測(cè),確定所述性能檢測(cè)項(xiàng)的檢測(cè)值;異常檢測(cè)子模塊,用于檢測(cè)所述檢測(cè)值是否在所述性能檢測(cè)項(xiàng)的正常范圍內(nèi);若任一檢測(cè)值不在所述性能檢測(cè)項(xiàng)的正常范圍內(nèi),則所述相關(guān)節(jié)點(diǎn)設(shè)備異常。
[0016]可選的,所述異常檢測(cè)子模塊,還用于在第二時(shí)間閾值內(nèi),檢測(cè)標(biāo)簽類型相同的故障節(jié)點(diǎn)設(shè)備的數(shù)量是否達(dá)到檢測(cè)閾值;若標(biāo)簽類型相同的故障節(jié)點(diǎn)設(shè)備的數(shù)量達(dá)到所述檢測(cè)閾值,則執(zhí)行對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備的檢測(cè)。
[0017]可選的,所述預(yù)警模塊,包括:故障預(yù)警子模塊,用于對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行統(tǒng)計(jì),當(dāng)所述檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備的數(shù)量達(dá)到故障預(yù)警閾值時(shí),執(zhí)行故障預(yù)警。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例包括以下優(yōu)點(diǎn):
[0019]通過獲取的故障節(jié)點(diǎn)設(shè)備的告警信息,從所述告警信息中獲取告警類型,然后依據(jù)告警類型確定所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備,對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),能夠在一個(gè)節(jié)點(diǎn)設(shè)備出現(xiàn)故障時(shí)主動(dòng)對(duì)與其相關(guān)的其他節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),從而對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行故障預(yù)警,有效對(duì)系統(tǒng)內(nèi)設(shè)備進(jìn)行維護(hù)并預(yù)警,保證系統(tǒng)的正常、穩(wěn)定運(yùn)行。
【附圖說明】
[0020]圖1是本發(fā)明的一種系統(tǒng)故障預(yù)警方法實(shí)施例的步驟流程圖;
[0021]圖2是本發(fā)明的另一種系統(tǒng)故障預(yù)警方法實(shí)施例的步驟流程圖;
[0022]圖3是本發(fā)明實(shí)施例中對(duì)集群系統(tǒng)的預(yù)警檢測(cè)示意圖;
[0023]圖4是本發(fā)明一種故障預(yù)警系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;
[0024]圖5是本發(fā)明另一種故障預(yù)警系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0025]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0026]本發(fā)明實(shí)施例的核心構(gòu)思之一在于,提供一種系統(tǒng)故障預(yù)警方法,以對(duì)系統(tǒng)中故障節(jié)點(diǎn)設(shè)備快速、有效的預(yù)警。通過獲取的故障節(jié)點(diǎn)設(shè)備的告警信息,從所述告警信息中獲取告警類型,然后依據(jù)告警類型確定所述故障節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的相關(guān)節(jié)點(diǎn)設(shè)備,對(duì)所述相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),能夠在一個(gè)節(jié)點(diǎn)設(shè)備出現(xiàn)故障時(shí)主動(dòng)對(duì)與其相關(guān)的其他節(jié)點(diǎn)設(shè)備進(jìn)行檢測(cè),從而對(duì)檢測(cè)異常的相關(guān)節(jié)點(diǎn)設(shè)備進(jìn)行故障預(yù)警,有效對(duì)系統(tǒng)內(nèi)設(shè)備進(jìn)行維護(hù)并預(yù)警,保證系統(tǒng)的正常、穩(wěn)定運(yùn)行。
[0027]實(shí)施例一
[0028]參照?qǐng)D1,示出了本發(fā)明的一種系統(tǒng)故障預(yù)警方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0029]步驟102,獲取系統(tǒng)中故障節(jié)點(diǎn)設(shè)備的告警信息,從所述告警信息中獲取所述故障節(jié)點(diǎn)設(shè)備的告警類型。
[0030]在集群系統(tǒng)運(yùn)行過程中,為了能夠及時(shí)發(fā)現(xiàn)系統(tǒng)的問題,防止出現(xiàn)由于較多設(shè)備故障才告警而此時(shí)系統(tǒng)已無法運(yùn)行的問題。本實(shí)施例在系統(tǒng)中任一節(jié)點(diǎn)設(shè)備發(fā)生故障后,故障的節(jié)點(diǎn)設(shè)備會(huì)自動(dòng)發(fā)出告警信息,其中該告警信息用于告知節(jié)點(diǎn)設(shè)備的故障以進(jìn)行系統(tǒng)預(yù)警,告警信息中包括:故障節(jié)點(diǎn)設(shè)備的告警類型,告警類型用于標(biāo)識(shí)節(jié)點(diǎn)設(shè)備的屬性信息,以便于后續(xù)確定同種屬性的其他節(jié)點(diǎn)設(shè)備是否也發(fā)生故