日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng)與流程

文檔序號(hào):39729396發(fā)布日期:2024-10-22 13:33閱讀:6來(lái)源:國(guó)知局
用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)清洗,具體涉及一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng)。


背景技術(shù):

1、通過(guò)大數(shù)據(jù)分析平臺(tái)對(duì)不同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行分析,能夠及時(shí)發(fā)現(xiàn)不同醫(yī)藥類型的銷量數(shù)據(jù)的變化趨勢(shì),并針對(duì)性的對(duì)不同醫(yī)藥產(chǎn)品的生產(chǎn)做出調(diào)整,但在醫(yī)藥銷量數(shù)據(jù)的獲取、傳輸和存儲(chǔ)過(guò)程中,部分?jǐn)?shù)據(jù)會(huì)不可避免的出現(xiàn)偏差,因此需要對(duì)大數(shù)據(jù)分析平臺(tái)的醫(yī)藥銷量數(shù)據(jù)進(jìn)行清洗,以保證平臺(tái)的分析精度。

2、相關(guān)技術(shù)中,通常利用局部異常異常因子算法(local?outlier?factor,lof)或孤立森林算法(isolation?forest,iforest)等異常檢測(cè)算法對(duì)醫(yī)藥銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并對(duì)異常數(shù)據(jù)進(jìn)行清洗,但由于各類型的醫(yī)藥通常會(huì)通過(guò)多種渠道進(jìn)行銷售,多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,某個(gè)渠道的醫(yī)藥銷量數(shù)據(jù)的變化會(huì)影響到其他渠道的醫(yī)藥銷量數(shù)據(jù)發(fā)生改變,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果。


技術(shù)實(shí)現(xiàn)思路

1、為了解決多種渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常的銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果的技術(shù)問(wèn)題,本發(fā)明的目的在于提供一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法及系統(tǒng),所采用的技術(shù)方案具體如下:

2、本發(fā)明提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法,所述方法包括:

3、獲取待測(cè)銷售渠道在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列,所述銷量數(shù)據(jù)序列包括不同醫(yī)藥類型的銷量數(shù)據(jù);

4、對(duì)所述待測(cè)銷售渠道中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個(gè)聚類簇的特征時(shí)間段;將任意一個(gè)聚類簇作為目標(biāo)聚類簇,將待測(cè)銷售渠道中屬于目標(biāo)聚類簇的所述特征時(shí)間段的銷量數(shù)據(jù)序列,作為目標(biāo)聚類簇的參考序列;根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時(shí)序離散特征值;根據(jù)各參考序列和目標(biāo)聚類簇中各銷量數(shù)據(jù)序列之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值;

5、根據(jù)目標(biāo)聚類簇與除目標(biāo)聚類簇之外的其他聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,以及所述時(shí)序離散特征值的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子;

6、對(duì)目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并結(jié)合所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗。

7、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值包括:

8、對(duì)目標(biāo)聚類簇中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù);

9、對(duì)所有時(shí)間點(diǎn)的所述參考序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的離散程度,以及各醫(yī)藥類型的銷量數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,獲得待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù);

10、根據(jù)相同醫(yī)藥類型的所述第一數(shù)據(jù)變化參數(shù)和所述第二數(shù)據(jù)變化參數(shù)的差異,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)變化特征值。

11、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)包括:

12、構(gòu)建第一狀態(tài)矩陣,所述第一狀態(tài)矩陣的行表示時(shí)間點(diǎn),所述第一狀態(tài)矩陣的列表示醫(yī)藥類型,所述第一狀態(tài)矩陣的行元素為目標(biāo)聚類簇中每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列;

13、將所述第一狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為目標(biāo)聚類簇中每種醫(yī)藥類型的第一數(shù)據(jù)變化參數(shù)。

14、進(jìn)一步地,所述獲得待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)包括:

15、構(gòu)建第二狀態(tài)矩陣,所述第二狀態(tài)矩陣的行表示時(shí)間點(diǎn),所述第二狀態(tài)矩陣的列表示醫(yī)藥類型,所述第二狀態(tài)矩陣的行元素為每個(gè)時(shí)間點(diǎn)的參考序列;

16、將所述第二狀態(tài)矩陣輸入至critic客觀賦權(quán)算法中,將輸出的每列的客觀權(quán)重值,作為待測(cè)銷售渠道在目標(biāo)聚類簇的特征時(shí)間段中每種醫(yī)藥類型的第二數(shù)據(jù)變化參數(shù)。

17、進(jìn)一步地,所述獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子包括:

18、將除目標(biāo)聚類簇之外的其他聚類簇作為參考聚類簇;

19、根據(jù)目標(biāo)聚類簇與每個(gè)參考聚類簇之間所述時(shí)序離散特征值的差異,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間的第一特征值差異;

20、根據(jù)目標(biāo)聚類簇與每個(gè)參考聚類簇之間相同醫(yī)藥類型的所述數(shù)據(jù)變化特征值的差異,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間每種醫(yī)藥類型的第二特征值差異;

21、對(duì)所述第一特征值差異和所述第二特征值差異進(jìn)行綜合,獲得目標(biāo)聚類簇與每個(gè)參考聚類簇之間每種醫(yī)藥類型的綜合特征值差異;

22、對(duì)目標(biāo)聚類簇與所有參考聚類簇之間每種醫(yī)藥類型的所述綜合特征值差異的整體水平分析后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每種醫(yī)藥類型的數(shù)據(jù)異常變化因子,其中,目標(biāo)聚類簇中所有醫(yī)藥類型的所述數(shù)據(jù)異常變化因子的和值等于數(shù)值1。

23、進(jìn)一步地,所述對(duì)目標(biāo)聚類簇中相同醫(yī)藥類型的銷量數(shù)據(jù)進(jìn)行異常檢測(cè),并結(jié)合所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:

24、分別將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列中的相同醫(yī)藥類型的銷量數(shù)據(jù)輸入至異常檢測(cè)算法中,獲得目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的異常評(píng)估值;

25、利用目標(biāo)聚類簇中每種醫(yī)藥類型的所述數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列中每種醫(yī)藥類型的銷量數(shù)據(jù)的所述異常評(píng)估值進(jìn)行加權(quán)求和后并進(jìn)行歸一化處理,獲得目標(biāo)聚類簇中每個(gè)銷量數(shù)據(jù)序列的清洗判斷值;

26、基于所述清洗判斷值,對(duì)目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗。

27、進(jìn)一步地,所述基于所述清洗判斷值,對(duì)目標(biāo)聚類簇中的銷量數(shù)據(jù)序列進(jìn)行清洗包括:

28、在目標(biāo)聚類簇中,將所述清洗判斷值大于預(yù)設(shè)清洗閾值的銷量數(shù)據(jù)序列進(jìn)行刪除。

29、進(jìn)一步地,所述對(duì)所述待測(cè)銷售渠道中所有時(shí)間點(diǎn)的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇以及每個(gè)聚類簇的特征時(shí)間段包括:

30、基于待測(cè)銷售渠道中各銷量數(shù)據(jù)序列中相同醫(yī)藥類型的醫(yī)藥數(shù)據(jù)的差異,對(duì)所有的銷量數(shù)據(jù)序列進(jìn)行聚類,獲得不同的聚類簇;

31、在每個(gè)聚類簇中,將所有銷量數(shù)據(jù)序列對(duì)應(yīng)的時(shí)間點(diǎn)的最小值和最大值之間的時(shí)間段,作為每個(gè)聚類簇的特征時(shí)間段。

32、進(jìn)一步地,所述根據(jù)所述參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間數(shù)量的差異,獲得目標(biāo)聚類簇的時(shí)序離散特征值包括:

33、將所有參考序列的數(shù)量作分子,將目標(biāo)聚類簇中所有銷量數(shù)據(jù)序列的數(shù)量作分母,將比值作為目標(biāo)聚類簇的時(shí)序離散特征值。

34、本發(fā)明還提出了一種用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除系統(tǒng),所述系統(tǒng)包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)任意一項(xiàng)用于大數(shù)據(jù)分析的異常數(shù)據(jù)清洗消除方法的步驟。

35、本發(fā)明具有如下有益效果:

36、本發(fā)明考慮到多種銷售渠道下的醫(yī)藥銷量數(shù)據(jù)相互影響,導(dǎo)致現(xiàn)有方法無(wú)法準(zhǔn)確檢測(cè)出異常的銷量數(shù)據(jù),進(jìn)而降低對(duì)醫(yī)藥銷量數(shù)據(jù)清洗的效果,因此本發(fā)明首先獲取待測(cè)銷售渠道在預(yù)設(shè)時(shí)間段內(nèi)每個(gè)時(shí)間點(diǎn)的銷量數(shù)據(jù)序列,考慮到異常因素和不同銷售渠道間相互影響的因素,都會(huì)導(dǎo)致使得銷量數(shù)據(jù)出現(xiàn)變化,因此本發(fā)明首先對(duì)醫(yī)藥銷量數(shù)據(jù)序列進(jìn)行聚類,得到多個(gè)聚類簇以及每個(gè)聚類簇的特征時(shí)間段,并將待測(cè)銷售渠道中屬于目標(biāo)聚類簇的特征時(shí)間段的銷量數(shù)據(jù)序列作為參考序列,當(dāng)目標(biāo)聚類簇中存在受這兩種因素影響的銷量數(shù)據(jù)序列時(shí),使得參考序列和目標(biāo)聚類簇中的銷量數(shù)據(jù)序列之間的數(shù)量差異較大,并且二者之間相同醫(yī)藥類型的銷量數(shù)據(jù)的變化情況也存在較大的差異,因此可通過(guò)時(shí)序離散特征值和數(shù)據(jù)變化特征值反映目標(biāo)聚類簇中存在受影響的銷量數(shù)據(jù)序列的可能性,考慮到當(dāng)目標(biāo)聚類簇中存在異常數(shù)據(jù)時(shí),會(huì)增大目標(biāo)聚類簇與其他聚類簇之間的時(shí)序離散特征值差異以及相同醫(yī)藥類型的數(shù)據(jù)變化特征值的差異,因此可通過(guò)數(shù)據(jù)異常變化因子反映目標(biāo)聚類簇中每種醫(yī)藥類型的銷量數(shù)據(jù)存在異常的可能性,進(jìn)而結(jié)合數(shù)據(jù)異常變化因子,對(duì)目標(biāo)聚類聚中的銷量數(shù)據(jù)序列進(jìn)行清洗,提高異常銷量數(shù)據(jù)檢測(cè)的準(zhǔn)確性以及對(duì)銷量數(shù)據(jù)清洗的效果。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1