本發(fā)明涉及計(jì)算機(jī)與數(shù)據(jù)分析,尤其涉及一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法及系統(tǒng)。
背景技術(shù):
1、在當(dāng)前全球環(huán)境保護(hù)和可持續(xù)發(fā)展的背景下,工業(yè)廢水排放對(duì)水資源和生態(tài)環(huán)境構(gòu)成威脅。準(zhǔn)確監(jiān)測(cè)工業(yè)水質(zhì)對(duì)于預(yù)防水污染、實(shí)現(xiàn)水循環(huán)利用至關(guān)重要。因此,研究面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法具有重要意義。這種方法不僅有助于提高水質(zhì)監(jiān)測(cè)的準(zhǔn)確性和實(shí)時(shí)性,也為環(huán)境保護(hù)和水資源可持續(xù)利用提供技術(shù)支持,推動(dòng)工業(yè)生產(chǎn)向更環(huán)保、可持續(xù)的方向發(fā)展。
2、聚類算法通常分為基于層次聚類、劃分聚類、密度聚類、網(wǎng)格聚類和模型聚類等多種類型?;趯哟尉垲惖姆椒ㄍㄟ^(guò)構(gòu)建聚類層次結(jié)構(gòu)來(lái)逐步合并或分裂數(shù)據(jù)點(diǎn),但其計(jì)算復(fù)雜度較高,適合小規(guī)模數(shù)據(jù)集。劃分聚類方法則試圖將數(shù)據(jù)集劃分為k個(gè)不相交的子集,如k-means算法,但這種方法需要提前確定聚類數(shù)目k,且對(duì)初始化和噪聲敏感。密度聚類算法,如dbscan,基于數(shù)據(jù)點(diǎn)的密度來(lái)發(fā)現(xiàn)任意形狀的聚類,但參數(shù)選擇對(duì)結(jié)果影響較大。網(wǎng)格聚類方法將數(shù)據(jù)空間劃分為網(wǎng)格單元,然后在網(wǎng)格上進(jìn)行聚類,適合處理高維數(shù)據(jù),但可能無(wú)法捕獲不規(guī)則形狀的聚類。模型聚類則是基于數(shù)據(jù)擬合某種概率模型,如高斯混合模型,但模型選擇和參數(shù)估計(jì)可能較為復(fù)雜。
3、傳統(tǒng)算法存在一些共有的缺點(diǎn),一定程度上限制了聚類算法的性能和應(yīng)用范圍。首先,聚類算法通常需要預(yù)先設(shè)定一些參數(shù),如聚類數(shù)目、距離閾值等。這些參數(shù)的選擇對(duì)聚類結(jié)果具有重要影響,而選擇合適的參數(shù)往往依賴于經(jīng)驗(yàn)和對(duì)數(shù)據(jù)的理解。對(duì)于不同的數(shù)據(jù)集和問(wèn)題,可能需要多次嘗試和調(diào)整參數(shù)才能獲得滿意的聚類結(jié)果,這增加了算法的復(fù)雜性和不確定性。其次,聚類算法對(duì)數(shù)據(jù)的初始化和噪聲敏感。一些聚類算法,如k-means,在初始化時(shí)隨機(jī)選擇聚類中心,這可能導(dǎo)致算法陷入局部最優(yōu)解,而不是全局最優(yōu)解。此外,數(shù)據(jù)中的噪聲和異常值也可能對(duì)聚類結(jié)果產(chǎn)生負(fù)面影響,導(dǎo)致聚類結(jié)果不穩(wěn)定或不準(zhǔn)確。因此自適應(yīng)確定聚類過(guò)程中的各種參數(shù)并達(dá)到較高的聚類效果,關(guān)系著所提出的方法是否能夠很好的應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、為了克服上述不足,本發(fā)明提供了一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法(industrial?water?qualityadaptive?clustering,iwqac)及系統(tǒng),采用js散度估計(jì)樣本間距離,利用直方圖統(tǒng)計(jì)算法分析距離頻率分布,使用高頻距離進(jìn)行均值漂移聚類。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:
3、本發(fā)明一方面提出一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,包括:
4、步驟1:對(duì)工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;
5、步驟2:計(jì)算預(yù)處理后的工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)間距離,將計(jì)算得到的數(shù)據(jù)間距離進(jìn)行矩陣化;
6、步驟3:使用直方圖算法統(tǒng)計(jì)數(shù)據(jù)點(diǎn)間距離,確定距離數(shù)據(jù)數(shù)量分布最多的距離區(qū)間;
7、步驟4:將所述距離區(qū)間的上限r(nóng)作為均值漂移算法的自適應(yīng)搜索半徑;
8、步驟5:基于自適應(yīng)搜索半徑使用均值漂移算法將自適應(yīng)搜索范圍內(nèi)的數(shù)據(jù)劃分到對(duì)應(yīng)聚類集合。
9、進(jìn)一步地,所述步驟1中預(yù)處理包括剔除空值數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
10、進(jìn)一步地,所述步驟2中,計(jì)算預(yù)處理后的工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)間的js散度,并將計(jì)算得到的js散度作為數(shù)據(jù)間距離。
11、進(jìn)一步地,所述步驟3包括:
12、使用距離矩陣中的最大值和最小值構(gòu)成樣本值區(qū)間,將樣本值區(qū)間分成多個(gè)距離區(qū)間,統(tǒng)計(jì)距離數(shù)據(jù)出現(xiàn)在各距離區(qū)間的頻率,以距離數(shù)據(jù)為橫坐標(biāo),以出現(xiàn)在各距離區(qū)間的頻率或占比為縱坐標(biāo),統(tǒng)計(jì)數(shù)據(jù)間距離在區(qū)間上的分布,進(jìn)而選擇所述頻率或占比最高的距離區(qū)間。
13、進(jìn)一步地,所述步驟5包括:
14、步驟5.1:在工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)樣本空間中選擇一個(gè)未訪問(wèn)過(guò)的初始樣本點(diǎn)pi作為搜索中心,并尋找半徑為r的圓內(nèi)的所有樣本點(diǎn);
15、步驟5.2:計(jì)算圓內(nèi)樣本點(diǎn)的密度中心m(pi),并計(jì)算pi與m(pi)之間的距離,如果所述距離小于閾值,停止迭代,否則將pi移至m(pi),并重復(fù)執(zhí)行步驟5.2;
16、步驟5.3:在獲得最大密度中心點(diǎn)后,確定最大密度中心點(diǎn)與現(xiàn)有密度中心點(diǎn)的距離是否小于r,如果大于r,則保留得到的最大密度中心點(diǎn)及其對(duì)應(yīng)的樣本點(diǎn),否則將該最大密度中心點(diǎn)與現(xiàn)有的密度中心點(diǎn)合并;
17、步驟5.4:重復(fù)步驟5.1至步驟5.3,直到樣本空間中的所有樣本點(diǎn)都被訪問(wèn)過(guò);
18、步驟5.5:整理得到聚簇?cái)?shù)量和聚類結(jié)果。
19、進(jìn)一步地,在所述步驟5之后,還包括:
20、對(duì)工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)進(jìn)行可視化,并標(biāo)注異常數(shù)據(jù)樣本。
21、本發(fā)明另一方面提出一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類系統(tǒng),包括:
22、數(shù)據(jù)預(yù)處理模塊,用于對(duì)工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;
23、距離矩陣得出模塊,用于計(jì)算預(yù)處理后的工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)間距離,將計(jì)算得到的數(shù)據(jù)間距離進(jìn)行矩陣化;
24、距離區(qū)間得出模塊,用于使用直方圖算法統(tǒng)計(jì)數(shù)據(jù)點(diǎn)間距離,確定距離數(shù)據(jù)數(shù)量分布最多的距離區(qū)間;
25、自適應(yīng)搜索半徑得出模塊,用于將所述距離區(qū)間的上限r(nóng)作為均值漂移算法的自適應(yīng)搜索半徑;
26、聚類模塊,用于基于自適應(yīng)搜索半徑使用均值漂移算法將自適應(yīng)搜索范圍內(nèi)的數(shù)據(jù)劃分到對(duì)應(yīng)聚類集合。
27、進(jìn)一步地,該系統(tǒng)還包括:
28、可視化模塊,用于對(duì)工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)進(jìn)行可視化,并標(biāo)注異常數(shù)據(jù)樣本。
29、與現(xiàn)有技術(shù)相比,本發(fā)明具有的有益效果:
30、本發(fā)明通過(guò)js散度捕捉數(shù)據(jù)分布之間的微小差異,衡量數(shù)據(jù)間相似性更加準(zhǔn)確,并將計(jì)算得到的js散度作為數(shù)據(jù)間距離。然后基于直方圖統(tǒng)計(jì)法得到劃分的距離區(qū)間的數(shù)量,并確定距離數(shù)據(jù)數(shù)量分布最多的距離區(qū)間,從而確定自適應(yīng)搜索半徑,并將上述確定的自適應(yīng)搜索半徑應(yīng)用到均值漂移算法。
31、本發(fā)明不需要通過(guò)實(shí)驗(yàn)和經(jīng)驗(yàn)提前設(shè)定聚類數(shù)量,通過(guò)統(tǒng)計(jì)得到數(shù)據(jù)集內(nèi)的聚類特征,自適應(yīng)處理各類數(shù)據(jù),同時(shí)本發(fā)明能夠更加準(zhǔn)確地描述數(shù)據(jù)的聚類結(jié)構(gòu),使聚類結(jié)果能夠更接近用戶的實(shí)際需求。
32、本發(fā)明具有無(wú)參化、適用廣泛、魯棒性強(qiáng)等特點(diǎn),在較短的時(shí)間內(nèi)可以得到一個(gè)較好的聚類結(jié)果。
1.一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,所述步驟1中預(yù)處理包括剔除空值數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,所述步驟2中,計(jì)算預(yù)處理后的工業(yè)水質(zhì)檢測(cè)數(shù)據(jù)間的js散度,并將計(jì)算得到的js散度作為數(shù)據(jù)間距離。
4.根據(jù)權(quán)利要求1所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,所述步驟3包括:
5.根據(jù)權(quán)利要求1所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,所述步驟5包括:
6.根據(jù)權(quán)利要求1所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類方法,其特征在于,在所述步驟5之后,還包括:
7.一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類系統(tǒng),其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的一種面向工業(yè)水質(zhì)檢測(cè)的自適應(yīng)聚類系統(tǒng),其特征在于,該系統(tǒng)還包括: