一種數(shù)據(jù)挖掘方法和裝置的制造方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)挖掘方法和裝置,涉及數(shù)據(jù)挖掘領(lǐng)域。其中的方法包括:獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集;基于設(shè)定的用于修剪項集的閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁項集;其中用于修剪項集的閾值包括最小支持度閾值、最小置信度閾值和最小效用度閾值。本發(fā)明通過對數(shù)據(jù)庫中的數(shù)據(jù)進行支持度、置信度和效用度計算,能夠獲得數(shù)據(jù)之間的潛在聯(lián)系,根據(jù)數(shù)據(jù)之間的潛在聯(lián)系,能夠指導(dǎo)用戶做出相應(yīng)的技術(shù)決策和經(jīng)營管理。
【專利說明】
一種數(shù)據(jù)挖掘方法和裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種數(shù)據(jù)挖掘方法和裝置。
【背景技術(shù)】
[0002] 隨著現(xiàn)代網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)成指數(shù)增長,對海量數(shù)據(jù)進行必要的挖掘和處理, 為用戶提供有價值的信息,以此指導(dǎo)其做出相應(yīng)的技術(shù)決策和經(jīng)營管理就顯得尤為必要。 關(guān)聯(lián)規(guī)則的挖掘就是要發(fā)現(xiàn)大量數(shù)據(jù)中項集之間的關(guān)聯(lián)或相關(guān)聯(lián)系,它是數(shù)據(jù)挖掘研究是 重要內(nèi)容之一。但對于海量數(shù)據(jù),對數(shù)據(jù)之間的規(guī)律或潛在的聯(lián)系進行數(shù)據(jù)挖掘是一項具 有挑戰(zhàn)性的工作;此外,通過數(shù)據(jù)挖掘找到滿足特定需求和要求的關(guān)聯(lián)規(guī)則,更具挑戰(zhàn)性。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明要解決的一個技術(shù)問題是提供一種數(shù)據(jù)挖掘方案以便獲取數(shù)據(jù)之間的關(guān) 聯(lián)性。
[0004] 根據(jù)本發(fā)明一方面,提出一種數(shù)據(jù)挖掘方法,包括:獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項 集;基于設(shè)定的用于修剪項集的閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁項集;其中用于修 剪項集的閾值包括最小支持度閾值、最小置信度閾值和最小效用度閾值。
[0005] 可選地,基于設(shè)定的用于修剪項集的閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁項 集的步驟包括:獲取事務(wù)的項集中支持度大于最小支持度閾值的項集以提取事務(wù)的頻繁項 集;確定頻繁項集中置信度大于最小置信度閾值的項集以生成強關(guān)聯(lián)頻繁項集;在強關(guān)聯(lián) 頻繁項集中獲取效用度大于最小效用度閾值的項集以生成高效用強關(guān)聯(lián)頻繁項集。
[0006] 可選地,該方法還包括:對高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度大小進行排序;和/ 或?qū)Ω咝в脧婈P(guān)聯(lián)頻繁項集根據(jù)置信度大小進行排序;和/或?qū)Ω咝в脧婈P(guān)聯(lián)頻繁項集根 據(jù)效用度大小進行排序。
[0007] 可選地,該方法還包括:分別對項集的支持度、置信度和效用度進行排序,基于分 位數(shù)確定用于修剪項集的最小支持度閾值、最小置信度閾值和最小效用度閾值。
[0008] 可選地,該方法還包括:對項集中項的數(shù)量小于等于數(shù)量閾值的項集,執(zhí)行修剪項 集的步驟。
[0009] 可選地,效用度為項集的效用與事務(wù)總效用的比值。
[0010] 根據(jù)本發(fā)明的另一方面,還提供一種數(shù)據(jù)挖掘裝置,包括:項集獲取單元,用于獲 取事務(wù)數(shù)據(jù)庫中事務(wù)的項集;項集修剪單元,用于基于設(shè)定的用于修剪項集的閾值,修剪項 集以獲得高效用強關(guān)聯(lián)頻繁項集;其中用于修剪項集的閾值包括最小支持度閾值、最小置 信度閾值和最小效用度閾值。
[0011] 可選地,項集修剪單元用于獲取事務(wù)的項集中支持度大于最小支持度閾值的項集 以獲得事務(wù)的頻繁項集;確定頻繁項集中置信度大于最小置信度閾值的項集以生成強關(guān)聯(lián) 頻繁項集;在強關(guān)聯(lián)頻繁項集中獲取效用度大于最小效用度閾值的項集以生成高效用強關(guān) 聯(lián)頻繁項集。
[0012] 可選地,該裝置還包括:項集排序單元,用于對高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度 大小進行排序;和/或?qū)Ω咝в脧婈P(guān)聯(lián)頻繁項集根據(jù)置信度大小進行排序;和/或?qū)Ω咝в?強關(guān)聯(lián)頻繁項集根據(jù)效用度大小進行排序。
[0013] 可選地,該裝置還包括:閾值設(shè)定單元,用于分別對項集的支持度、置信度和效用 度進行排序,基于分位數(shù)確定用于修剪項集的最小支持度閾值、最小置信度閾值和最小效 用度閾值。
[0014] 可選地,閾值設(shè)定單元還用于設(shè)置項集中項的數(shù)量閾值。
[0015] 可選地,效用度為項集的效用與事務(wù)總效用的比值。
[0016] 根據(jù)本發(fā)明的另一方面,還提供一種數(shù)據(jù)挖掘裝置,包括:存儲器;以及耦接至存 儲器的處理器,處理器被配置為基于存儲在存儲器存儲的指令執(zhí)行上述的方法。
[0017] 與現(xiàn)有技術(shù)相比,本發(fā)明通過獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集,基于設(shè)定的用于修 剪項集的閾值修剪項集以獲得高效用強關(guān)聯(lián)頻繁項集。即本發(fā)明通過對數(shù)據(jù)庫中的數(shù)據(jù)進 行支持度、置信度和效用度計算,能夠獲得數(shù)據(jù)之間的潛在聯(lián)系,即確定數(shù)據(jù)之間的關(guān)聯(lián) 性。
[0018] 通過以下參照附圖對本發(fā)明的示例性實施例的詳細描述,本發(fā)明的其它特征及其 優(yōu)點將會變得清楚。
【附圖說明】
[0019] 構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實施例,并且連同說明書一起用于解 釋本發(fā)明的原理。
[0020] 參照附圖,根據(jù)下面的詳細描述,可以更加清楚地理解本發(fā)明,其中:
[0021 ]圖1為本發(fā)明數(shù)據(jù)挖掘方法的一個實施例的流程示意圖。
[0022] 圖2為本發(fā)明數(shù)據(jù)挖掘方法的另一個實施例的流程示意圖。
[0023] 圖3為本發(fā)明數(shù)據(jù)挖掘裝置的一個實施例的結(jié)構(gòu)示意圖。
[0024] 圖4為本發(fā)明數(shù)據(jù)挖掘裝置的另一個實施例的結(jié)構(gòu)示意圖。
[0025] 圖5為本發(fā)明數(shù)據(jù)挖掘裝置的又一個實施例的結(jié)構(gòu)示意圖。
[0026] 圖6為本發(fā)明數(shù)據(jù)挖掘裝置的再一個實施例的結(jié)構(gòu)示意圖。
【具體實施方式】
[0027] 現(xiàn)在將參照附圖來詳細描述本發(fā)明的各種示例性實施例。應(yīng)注意到:除非另外具 體說明,否則在這些實施例中闡述的部件和步驟的相對布置、數(shù)字表達式和數(shù)值不限制本 發(fā)明的范圍。
[0028] 同時,應(yīng)當明白,為了便于描述,附圖中所示出的各個部分的尺寸并不是按照實際 的比例關(guān)系繪制的。
[0029] 以下對至少一個示例性實施例的描述實際上僅僅是說明性的,決不作為對本發(fā)明 及其應(yīng)用或使用的任何限制。
[0030] 對于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細討論,但在適 當情況下,所述技術(shù)、方法和設(shè)備應(yīng)當被視為授權(quán)說明書的一部分。
[0031] 在這里示出和討論的所有示例中,任何具體值應(yīng)被解釋為僅僅是示例性的,而不 是作為限制。因此,示例性實施例的其它示例可以具有不同的值。
[0032] 應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一 個附圖中被定義,則在隨后的附圖中不需要對其進行進一步討論。
[0033] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照 附圖,對本發(fā)明進一步詳細說明。
[0034] 圖1為本發(fā)明數(shù)據(jù)挖掘方法的一個實施例的流程示意圖。該數(shù)據(jù)挖掘方法包括以 下步驟:
[0035] 在步驟110,獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集。
[0036]將事務(wù)數(shù)據(jù)庫中每個數(shù)據(jù)稱作一個項,所有項的集合構(gòu)成事務(wù)的項集。例如,1 = {1112, ·· .Ik},其中,1112,·· .Ik為項,I為項集。
[0037] 在步驟120,基于設(shè)定的用于修剪項集的閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁 項集。
[0038] 其中閾值可以包括最小支持度閾值、最小置信度閾值和最小效用度閾值,效用度 為該項集的效用/總效用的比例。閾值可以由人工指定,即可以由有經(jīng)驗的業(yè)務(wù)操作員或領(lǐng) 域?qū)<抑付ā.敍]有足夠的業(yè)務(wù)經(jīng)驗來指定時,可以根據(jù)數(shù)據(jù)分布特點確定,例如,可以采 用統(tǒng)計學(xué)上分位數(shù)的概念來指定最小閾值,比如以最小5%分位數(shù)作為閾值進行計算,以避 免過多隨機出現(xiàn)的項集干擾,產(chǎn)生過多平凡規(guī)則。
[0039]在一個實施例中,可以先對項集進行支持度修剪得到頻繁項集,再對頻繁項集進 行置信度修剪得到強關(guān)聯(lián)頻繁項集,最后對強關(guān)聯(lián)頻繁項集進行效用度修剪得到高效用強 關(guān)聯(lián)頻繁項集。也可以根據(jù)用戶的需求對項集分別進行支持度、置信度或效用度修剪,就能 夠避免那些支持度不高但效用較高、或效用不高但支持度較高的項集的丟失。
[0040] 在該實施例中,通過獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集,基于設(shè)定的用于修剪項集的 閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁項集。即本發(fā)明通過對數(shù)據(jù)庫中的數(shù)據(jù)進行支持 度和置信度,可以更好地確定數(shù)據(jù)之間的潛在聯(lián)系,確定數(shù)據(jù)之間的內(nèi)在規(guī)律和規(guī)則;通過 效用度,可以使挖掘出的關(guān)聯(lián)規(guī)則更好地符合和滿足實際需求和條件,增加數(shù)據(jù)挖掘的靈 活性,進一步能夠指導(dǎo)用戶做出相應(yīng)的技術(shù)決策。
[0041] 圖2為本發(fā)明數(shù)據(jù)挖掘方法的另一個實施例的流程示意圖。該數(shù)據(jù)挖掘方法包括 以下步驟:
[0042] 在步驟210,獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集。
[0043]在一個實施例中,為了提高后續(xù)數(shù)據(jù)處理的速度,還可以對項集進行數(shù)字編碼,減 少存儲空間,后續(xù)只用對計算完的少量項集進行匹配即可實現(xiàn)編碼到項集中各項名稱的解 碼轉(zhuǎn)換。
[0044] 在步驟220,計算每個項的效用。
[0045] 在一個實施例中,效用可以為商品的銷量、收入、利潤、成本等。也可以為客戶粘 性、重復(fù)購買、活躍度等。
[0046] 在步驟2 3 0,設(shè)定修剪項集的最小支持度閾值、最小置信度閾值和最小效用度閾 值。
[0047] 該步驟可以根據(jù)業(yè)務(wù)經(jīng)驗由人工設(shè)定,也可以根據(jù)數(shù)據(jù)分布的特點,例如分別對 項集的支持度、置信度和效用度進行排序,根據(jù)統(tǒng)計學(xué)中分位數(shù)確定修剪項集的最小支持 度閾值、最小置信度閾值和最小效用度閾值,比如以最小5%分位數(shù)作為閾值進行計算。 [0048]在步驟240,設(shè)置項集中項的數(shù)量閾值。
[0049] 例如,設(shè)置k項集中k的數(shù)量為1、2、3、4。由于過長的項集在應(yīng)用中不便于操作,因 此可以設(shè)置項的數(shù)量,在后續(xù)操作中,對于項的數(shù)量大于數(shù)量閾值的項集,不再執(zhí)行修剪項 集的步驟。
[0050] 在步驟250,利用傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘方式計算頻繁候選集,并利用支持度和置信度 進行剪枝,生成強關(guān)聯(lián)頻繁項集。
[0051] 為了減少運算時間,可以預(yù)先對數(shù)據(jù)進行剪枝,由于任一頻繁項集的所有非空子 集也必須是頻繁的(即滿足最小支持度),因此如果某個候選的非空子集不是頻繁的,則該 候選集肯定不是頻繁的,可以直接剪枝去掉,不再進行后續(xù)計算。
[0052] 在一個實施例中,可以利用Apriori算法計算頻繁項集。例如,首先,找出頻繁"1項 集"的集合,該集合記作LUL1用于找頻繁"2項集"的集合L2,而L2用于找L3。如此下去,直到 不能找到"k項集"。找每個Lk都需要一次數(shù)據(jù)庫掃描。但由于在步驟240中,設(shè)置了k的數(shù)量, 因此,進行數(shù)據(jù)挖掘的時間大大降低了。同理,可以應(yīng)用上述算法計算項集的置信度。
[0053]在步驟260,獲取強關(guān)聯(lián)頻繁項集中效用度大于最小效用度的項集,得到高效用強 關(guān)聯(lián)頻繁項集。
[0054]在一個實施例中,也可以直接對項集進行效用度、支持度的計算,發(fā)現(xiàn)一些基于支 持度關(guān)聯(lián)規(guī)則無法發(fā)現(xiàn)的有趣模式,避免了那些支持度不高但效用較高、或效用不高但支 持度較高的項集的丟失,能發(fā)現(xiàn)更多的用戶感興趣的規(guī)則。
[0055] 此外,本發(fā)明還可以對計算出的項集進行展示,如步驟270。
[0056] 在步驟270,對高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度、置信度、效用度三個指標進行 排序以滿足用戶不同場景的需求。
[0057] 在該實施例中,通過對項集進行支持度、置信度和效用度的計算,獲得高效用強關(guān) 聯(lián)頻繁項集,輸出的數(shù)據(jù)不僅考慮到支持度和置信度,還考慮到效用度,能夠更好的反映用 戶的偏好。即通過支持度和置信度,可以更好地確定數(shù)據(jù)之間的潛在聯(lián)系,確定數(shù)據(jù)之間的 內(nèi)在規(guī)律和規(guī)則;通過效用度,可以使挖掘出的關(guān)聯(lián)規(guī)則更好地符合和滿足實際需求和條 件,增加數(shù)據(jù)挖掘的靈活性。
[0058] 圖3為本發(fā)明數(shù)據(jù)挖掘裝置的一個實施例的結(jié)構(gòu)示意圖。該數(shù)據(jù)挖掘裝置包括項 集獲取單元310和項集修剪單元320。其中:
[0059] 項集獲取單元310用于獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集。
[0060] 將事務(wù)數(shù)據(jù)庫中每個數(shù)據(jù)稱作一個項,所有項的集合構(gòu)成事務(wù)的項集。例如,1 = {1112, ·· .Ik},其中,1112,·· .Ik為項,I為項集。
[0061] 項集修剪單元320用于基于設(shè)定的用于修剪項集的閾值,修剪項集以獲得高效用 強關(guān)聯(lián)頻繁項集。
[0062] 其中閾值可以包括最小支持度閾值、最小置信度閾值和最小效用度閾值,效用度 為該項集的效用/總效用的比例。閾值可以由人工指定,即根據(jù)有經(jīng)驗的業(yè)務(wù)操作員或領(lǐng)域 專家指定。當沒有足夠的業(yè)務(wù)經(jīng)驗來指定時,可以根據(jù)數(shù)據(jù)分布特點確定,例如,可以采用 統(tǒng)計學(xué)上分位數(shù)的概念來指定最小閾值,比如以最小5%分位數(shù)作為閾值進行計算,以避免 過多隨機出現(xiàn)的項集干擾,產(chǎn)生過多平凡規(guī)則。
[0063] 在一個實施例中,項集修剪單元320可以先對項集進行支持度修剪得到頻繁項集, 再對頻繁項集進行置信度修剪得到強關(guān)聯(lián)頻繁項集,最后對強關(guān)聯(lián)頻繁項集進行效用度修 剪得到高效用強關(guān)聯(lián)頻繁項集。也可以根據(jù)用戶的需求對項集分別進行支持度、置信度或 效用度修剪。
[0064] 在該實施例中,通過獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集,基于設(shè)定的用于修剪項集的 閾值,修剪項集以獲得高效用強關(guān)聯(lián)頻繁項集。即本發(fā)明通過對數(shù)據(jù)庫中的數(shù)據(jù)進行支持 度和置信度,可以更好地確定數(shù)據(jù)之間的潛在聯(lián)系,確定數(shù)據(jù)之間的內(nèi)在規(guī)律和規(guī)則;通過 效用度,可以使挖掘出的關(guān)聯(lián)規(guī)則更好地符合和滿足實際需求和條件,增加數(shù)據(jù)挖掘的靈 活性,進一步能夠指導(dǎo)用戶做出相應(yīng)的技術(shù)決策。
[0065] 圖4為本發(fā)明數(shù)據(jù)挖掘裝置的另一個實施例的結(jié)構(gòu)示意圖。該數(shù)據(jù)挖掘裝置包括 項集獲取單元410、閾值設(shè)定單元420、項集修剪單元430和項集排序單元440。其中:
[0066] 項集獲取單元410用于獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集。
[0067] 閾值設(shè)定單元420用于設(shè)定修剪項集的最小支持度閾值、最小置信度閾值和最小 效用度閾值。
[0068] 在一個實施例中,可以先獲取每個項的效用,效用可以為商品的銷量、收入、利潤、 成本等。也可以為客戶粘性、重復(fù)購買、活躍度等。
[0069] 最小支持度閾值、最小置信度閾值和最小效用度閾值可以由根據(jù)業(yè)務(wù)經(jīng)驗由人工 設(shè)定,也可以根據(jù)數(shù)據(jù)分布的特點,例如分別對項集的支持度、置信度和效用度進行排序, 根據(jù)統(tǒng)計學(xué)中分位數(shù)確定修剪項集的最小支持度閾值、最小置信度閾值和最小效用度閾 值。
[0070] 閾值設(shè)定單元420還用于設(shè)置項集中項的數(shù)量閾值。
[0071] 例如,設(shè)置k項集中k的數(shù)量為1、2、3、4。由于過長的項集在應(yīng)用中不便于操作,因 此可以設(shè)置項的數(shù)量,在后續(xù)操作中,對于項的數(shù)量大于數(shù)量閾值的項集,不再執(zhí)行修剪項 集的步驟。
[0072]項集修剪單元430用于利用傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘方式計算頻繁候選集,利用支持度 和置信度進行剪枝,生成強關(guān)聯(lián)頻繁項集,并獲取強關(guān)聯(lián)頻繁項集中大于最小效用度的項 集,得到高效用強關(guān)聯(lián)頻繁項集。
[0073]為了減少運算時間,項集修剪單元430可以預(yù)先對數(shù)據(jù)進行剪枝,由于任一頻繁項 集的所有非空子集也必須是頻繁的(即滿足最小支持度),因此如果某個候選的非空子集不 是頻繁的,則該候選集肯定不是頻繁的,可以直接剪枝去掉,不再進行后續(xù)計算。
[0074]在一個實施例中,可以利用Apriori算法計算頻繁項集。例如,首先,找出頻繁"1項 集"的集合,該集合記作LUL1用于找頻繁"2項集"的集合L2,而L2用于找L3。如此下去,直到 不能找到"k項集"。找每個Lk都需要一次數(shù)據(jù)庫掃描。但由于在步驟240中,設(shè)置了k的數(shù)量, 因此,進行數(shù)據(jù)挖掘的時間大大降低了。同理,可以應(yīng)用上述算法計算項集的置信度。
[0075]在一個實施例中,項集修剪單元430也可以直接對項集進行效用度或支持度的計 算,發(fā)現(xiàn)一些基于支持度關(guān)聯(lián)規(guī)則無法發(fā)現(xiàn)的有趣模式,避免了那些支持度不高但效用較 高、或效用不高但支持度較高的項集的丟失,能發(fā)現(xiàn)更多的用戶感興趣的規(guī)則。
[0076]項集排序單元440用于對高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度、置信度、效用度三個 指標進行排序以滿足用戶不同場景的需求。
[0077] 在該實施例中,通過對項集進行支持度、置信度和效用度的計算,獲得高效用強關(guān) 聯(lián)頻繁項集,輸出的數(shù)據(jù)不僅考慮到支持度和置信度,還考慮到效用度,能夠更好的反映用 戶的偏好。
[0078] 圖5為本發(fā)明數(shù)據(jù)挖掘裝置的又一個實施例的結(jié)構(gòu)示意圖。該數(shù)據(jù)挖掘裝置包括 存儲器510和處理器520。其中:
[0079] 存儲器510可以是磁盤、閃存或其它任何非易失性存儲介質(zhì)。存儲器用于存儲圖1 和圖2所對應(yīng)實施例中的指令。
[0080] 處理器520耦接至存儲器510,可以作為一個或多個集成電路來實施,例如微處理 器或微控制器。該處理器520用于執(zhí)行存儲器中存儲的指令,進而實現(xiàn)獲得高效用強關(guān)聯(lián)頻 繁項集的目的。
[0081] 在一個實施例中,還可以如圖6所示,數(shù)據(jù)挖掘裝置600包括存儲器610和處理器 620。處理器620可以包括處理器62(^、620卜"62〇11。處理器62(^-62〇11通過81]5總線630耦合 至存儲器610?;诜植际绞降臄?shù)據(jù)挖掘裝置,能夠進行快速運算,提高了數(shù)據(jù)挖掘的運行 效率。該數(shù)據(jù)挖掘裝置600還可以通過存儲接口 640連接至外部存儲裝置650以便調(diào)用外部 數(shù)據(jù),還可以通過網(wǎng)絡(luò)接口 660連接至網(wǎng)絡(luò)或者另外一臺計算機系統(tǒng)(未標出)。此處不再進 行詳細介紹。
[0082] 在該實施例中,通過存儲器存儲數(shù)據(jù)指令,再通過處理器處理上述指令,進而得到 高效用強關(guān)聯(lián)頻繁項集,以便發(fā)現(xiàn)更多的用戶感興趣的規(guī)則。
[0083] 該數(shù)據(jù)挖掘方法和裝置可以應(yīng)用到在各個領(lǐng)域。例如,傳統(tǒng)關(guān)聯(lián)規(guī)則只考慮了項 集出現(xiàn)頻率的重要性,在電子商務(wù)業(yè)務(wù)中,還需要考慮銷量、收入、利潤、成本等多方面因素 進行運營,以便能更好的反映用戶偏好,滿足決策需求。
[0084] 基于上述應(yīng)用場景,在本發(fā)明的一個應(yīng)用例中,可以把用戶的每此購物籃購買作 為一個事務(wù);購物籃中的每一個商品作為一個項;購物籃中所有商品的集合構(gòu)成事務(wù)的項 集;數(shù)據(jù)格式如表1所示:
[0085]
[0086] 表 1
[0087] 計算項集中每個項的效用,也就是每個商品的銷量、收入、利潤、成本等。數(shù)據(jù)如表 2所示。
[0088]
[0089] 表2
[0090] 結(jié)合電子商務(wù)業(yè)務(wù)上的領(lǐng)域知識確定關(guān)聯(lián)規(guī)則和效用函數(shù)的最低閾值,該接口為 開放式可交互接口,可以由人工指定,一般由有經(jīng)驗的業(yè)務(wù)操作人員或領(lǐng)域?qū)<抑付ǎ划敍] 有足夠的業(yè)務(wù)經(jīng)驗來指定時,可以根據(jù)數(shù)據(jù)分布特點確定,默認采取統(tǒng)計學(xué)上分位數(shù)的概 念來指定最小閾值,比如以最小5%分位數(shù)來作為閾值進行計算,以避免過多隨機出現(xiàn)的項 集干擾,產(chǎn)生過多平凡規(guī)則。也就是說指定最小支持度、最小置信度和最小效用度,效用度 可以包括銷量、收入、利潤、成本等。
[0091] 然后在所有事務(wù)中找到支持度大于最小支持度的事務(wù)集合,即得到頻繁項集,然 后在頻繁項集中獲取大于最小置信度的項集得到強關(guān)聯(lián)頻繁項集,最后篩選出強關(guān)聯(lián)頻繁 項集中滿足最小效用度的規(guī)則,即生成高效用強關(guān)聯(lián)頻繁項集。
[0092] 當然,還可以根據(jù)業(yè)務(wù)需要分別依次對滿足最小支持度、最小置信度、最小效用度 的規(guī)則進行輸出,并且可以根據(jù)支持度、置信度、效用度三個指標分別進行排序,以滿足不 同場景需求。輸出的數(shù)據(jù)例如為表3所示:
[0093] LUUV4J 衣;j
[0095] 可以根據(jù)用戶的不同需求設(shè)置不同的效用度。比如如果促銷的目的是提升銷量, 可以首先對前述生成的規(guī)則用銷量效用度進行排序,產(chǎn)生高銷量強關(guān)聯(lián)模式庫,按照這些 關(guān)聯(lián)模式進行選品促銷;相應(yīng)地可以根據(jù)提升收入、利潤或降低成本等促銷目的,生成對應(yīng) 的高收入強關(guān)聯(lián)模式、高利潤強關(guān)聯(lián)模式以及低成本強關(guān)聯(lián)模式,并進行對應(yīng)的選品促銷 操作。
[0096] 將本方法應(yīng)用到電子商務(wù)業(yè)務(wù)中,除了提供傳統(tǒng)基于"支持度-置信度"的關(guān)聯(lián)規(guī) 則挖掘發(fā)現(xiàn)的是具有很強相關(guān)性的規(guī)則,即強關(guān)聯(lián)規(guī)則外,還可以發(fā)現(xiàn)一些效用很高的強 關(guān)聯(lián)規(guī)則或模式,滿足電子商務(wù)業(yè)務(wù)對銷量、收入、利潤、等本等多方面運營需要。
[0097] 另外,還可以對效用進行擴展,通過改變效用函數(shù)還可以應(yīng)用于其他高效用強關(guān) 聯(lián)規(guī)則的挖掘,比如客戶粘性、重復(fù)購買、活躍度等。
[0098] 當然,上面的應(yīng)用例只是介紹了本發(fā)明技術(shù)方案的一個具體應(yīng)用場景,并不是用 于限定本發(fā)明的保護范圍。本發(fā)明的技術(shù)方案可以用于其他領(lǐng)域。例如,在搜索推薦中,把 商品被搜索或推薦然后購買的次數(shù)與金額作為評價搜索推薦效果受歡迎程度的尺度,將搜 索推薦問題變成高效用項集的挖掘問題。
[0099] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、裝置、或計算機程序 產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實 施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機 可用非瞬時性存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算 機程序產(chǎn)品的形式。
[0100] 本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程 圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流 程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序 指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn) 生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實 現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0101] 這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特 定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或 多個方框中指定的功能。
[0102] 這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計 算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或 其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一 個方框或多個方框中指定的功能的步驟。
[0103] 至此,已經(jīng)詳細描述了本發(fā)明。為了避免遮蔽本發(fā)明的構(gòu)思,沒有描述本領(lǐng)域所公 知的一些細節(jié)。本領(lǐng)域技術(shù)人員根據(jù)上面的描述,完全可以明白如何實施這里公開的技術(shù) 方案。
[0104] 可能以許多方式來實現(xiàn)本發(fā)明的方法以及裝置。例如,可通過軟件、硬件、固件或 者軟件、硬件、固件的任何組合來實現(xiàn)本發(fā)明的方法以及裝置。用于所述方法的步驟的上述 順序僅是為了進行說明,本發(fā)明的方法的步驟不限于以上具體描述的順序,除非以其它方 式特別說明。此外,在一些實施例中,還可將本發(fā)明實施為記錄在記錄介質(zhì)中的程序,這些 程序包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因而,本發(fā)明還覆蓋存儲用于執(zhí)行 根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
[0105] 雖然已經(jīng)通過示例對本發(fā)明的一些特定實施例進行了詳細說明,但是本領(lǐng)域的技 術(shù)人員應(yīng)該理解,以上示例僅是為了進行說明,而不是為了限制本發(fā)明的范圍。本領(lǐng)域的技 術(shù)人員應(yīng)該理解,可在不脫離本發(fā)明的范圍和精神的情況下,對以上實施例進行修改。本發(fā) 明的范圍由所附權(quán)利要求來限定。
【主權(quán)項】
1. 一種數(shù)據(jù)挖掘方法,其特征在于,包括: 獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集; 基于設(shè)定的用于修剪所述項集的閾值,修剪所述項集以獲得高效用強關(guān)聯(lián)頻繁項集; 其中所述用于修剪所述項集的閾值包括最小支持度閾值、最小置信度閾值和最小效用 度閾值。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,基于設(shè)定的用于修剪所述項集的閾值,修 剪所述項集以獲得高效用強關(guān)聯(lián)頻繁項集的步驟包括: 獲取所述事務(wù)的項集中支持度大于所述最小支持度閾值的項集以獲得事務(wù)的頻繁項 集; 確定所述頻繁項集中置信度大于最小置信度閾值的項集以生成強關(guān)聯(lián)頻繁項集; 在所述強關(guān)聯(lián)頻繁項集中獲取效用度大于最小效用度閾值的項集以生成高效用強關(guān) 聯(lián)頻繁項集。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 對所述高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度大小進行排序; 和/或 對所述高效用強關(guān)聯(lián)頻繁項集根據(jù)置信度大小進行排序; 和/或 對所述高效用強關(guān)聯(lián)頻繁項集根據(jù)效用度大小進行排序。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 分別對所述項集的支持度、置信度和效用度進行排序,基于分位數(shù)確定用于修剪所述 項集的最小支持度閾值、最小置信度閾值和最小效用度閾值。5. 根據(jù)權(quán)利要求1-4任一所述的方法,其特征在于,還包括: 對所述項集中項的數(shù)量小于等于數(shù)量閾值的項集,執(zhí)行修剪項集的步驟。6. 根據(jù)權(quán)利要求1-4任一所述的方法,其特征在于,所述效用度為所述項集的效用與所 述事務(wù)總效用的比值。7. -種數(shù)據(jù)挖掘裝置,其特征在于,包括: 項集獲取單元,用于獲取事務(wù)數(shù)據(jù)庫中事務(wù)的項集; 項集修剪單元,用于基于設(shè)定的用于修剪所述項集的閾值,修剪所述項集以獲得高效 用強關(guān)聯(lián)頻繁項集; 其中所述用于修剪所述項集的閾值包括最小支持度閾值、最小置信度閾值和最小效用 度閾值。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于, 所述項集修剪單元用于獲取所述事務(wù)的項集中支持度大于所述最小支持度閾值的項 集以獲得事務(wù)的頻繁項集;確定所述頻繁項集中置信度大于最小置信度閾值的項集以生成 強關(guān)聯(lián)頻繁項集;在所述強關(guān)聯(lián)頻繁項集中獲取效用度大于最小效用度閾值的項集以生成 高效用強關(guān)聯(lián)頻繁項集。9. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 項集排序單元,用于對所述高效用強關(guān)聯(lián)頻繁項集根據(jù)支持度大小進行排序;和/或?qū)?所述高效用強關(guān)聯(lián)頻繁項集根據(jù)置信度大小進行排序;和/或?qū)λ龈咝в脧婈P(guān)聯(lián)頻繁項 集根據(jù)效用度大小進行排序。10. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 閾值設(shè)定單元,用于分別對所述項集的支持度、置信度和效用度進行排序,基于分位數(shù) 確定用于修剪所述項集的最小支持度閾值、最小置信度閾值和最小效用度閾值。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于, 所述閾值設(shè)定單元還用于設(shè)置所述項集中項的數(shù)量閾值。12. 根據(jù)權(quán)利要求7-11任一所述的裝置,其特征在于,所述效用度為所述項集的效用與 所述事務(wù)總效用的比值。13. -種數(shù)據(jù)挖掘裝置,其特征在于,包括: 存儲器;以及 耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器的指令執(zhí)行 如權(quán)利要求1至6任一項所述的方法。
【文檔編號】G06F17/30GK105975608SQ201610324425
【公開日】2016年9月28日
【申請日】2016年5月17日
【發(fā)明人】劉朋飛, 李愛華
【申請人】北京京東尚科信息技術(shù)有限公司, 北京京東世紀貿(mào)易有限公司