本發(fā)明涉及行業(yè)對(duì)標(biāo)技術(shù)領(lǐng)域,特別是涉及一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置。
背景技術(shù):
行業(yè)對(duì)標(biāo)分析是一種較為科學(xué)先進(jìn)的企業(yè)管理方法,指企業(yè)以行業(yè)內(nèi)或行業(yè)外的優(yōu)秀企業(yè)作為標(biāo)桿,從各個(gè)方面與標(biāo)桿企業(yè)進(jìn)行比較、分析、判斷,通過(guò)學(xué)習(xí)他人的先進(jìn)經(jīng)驗(yàn)來(lái)改善自身的不足,從而趕超標(biāo)桿企業(yè),不斷追求優(yōu)秀業(yè)績(jī)的良性循環(huán)過(guò)程。
隨著生產(chǎn)力的發(fā)展,各企業(yè)的經(jīng)營(yíng)元素越來(lái)越豐富,導(dǎo)致行業(yè)對(duì)標(biāo)分析所需要解決的情況越來(lái)越復(fù)雜。例如,企業(yè)多元化經(jīng)營(yíng)充分,所涉及的各個(gè)行業(yè)發(fā)展較為均衡,無(wú)明顯的主營(yíng)業(yè)務(wù)企業(yè),單一行業(yè)項(xiàng)下的各類分析工具和指標(biāo),包括行業(yè)均值、周期等,已經(jīng)無(wú)法準(zhǔn)確的對(duì)該類企業(yè)進(jìn)行分析;又如,隨著行業(yè)不斷的細(xì)分,以及細(xì)分行業(yè)之間的跨界,催生了多樣化的微分、混搭行業(yè),雖然這些行業(yè)同屬一個(gè)國(guó)標(biāo)細(xì)分行業(yè),但其經(jīng)營(yíng)、財(cái)務(wù)等特征均不同;再如,部分企業(yè)的經(jīng)營(yíng)內(nèi)容,按其加工深度,可以對(duì)應(yīng)到多個(gè)國(guó)標(biāo)行業(yè),就像氨的制造屬于化學(xué)原料制造,加工后制成化肥,就屬于化肥制造。
同時(shí),部分行業(yè)在國(guó)標(biāo)分類上,分屬不同行業(yè),但是其實(shí)際經(jīng)營(yíng)、財(cái)務(wù)存在一定的聯(lián)系,傳統(tǒng)的基于國(guó)標(biāo)單一行業(yè)劃分項(xiàng)下的行業(yè)對(duì)標(biāo)分析方法,無(wú)法將兩者歸并到企業(yè)進(jìn)行分析,一方面導(dǎo)致了數(shù)據(jù)浪費(fèi),另一方面也會(huì)導(dǎo)致樣本不足的情況下,不能跨行業(yè)借用相似企業(yè)數(shù)據(jù)進(jìn)行分析。
以上種種因素,導(dǎo)致了行業(yè)對(duì)標(biāo)分析方法效用下降,故如何篩選對(duì)標(biāo)企業(yè)名單,就成為了行業(yè)對(duì)標(biāo)分析的前置難點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置,用于為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。
為了實(shí)現(xiàn)上述目的,本發(fā)明公開(kāi)了一種對(duì)標(biāo)企業(yè)名單的篩選方法,包括步驟:
提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素序列,進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素;
根據(jù)所述核心元素、所述修飾元素和其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值;
構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,所述企業(yè)特征矩陣包括所述目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;
根據(jù)所述企業(yè)特征矩陣和所述度量值計(jì)算所述目標(biāo)企業(yè)與每個(gè)所述比照企業(yè)之間的相似度;
根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單。
可選的,所述提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,包括步驟:
將所述有序元素序列進(jìn)行簡(jiǎn)化處理,剔除其中無(wú)意義的字符;
將經(jīng)過(guò)簡(jiǎn)化處理的有序元素序列根據(jù)預(yù)設(shè)的分割符進(jìn)行第一次分割處理;
將經(jīng)過(guò)第一次分割處理的有序元素序列進(jìn)行第二次分割處理,將超過(guò)兩個(gè)字的元素進(jìn)行分詞處理;
將經(jīng)過(guò)第二次分割處理的有序元素序列進(jìn)行分類處理,得到所述核心元素和所述修飾元素。
可選的,所述提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,還包括步驟:
將所述有序元素的組別按詞性進(jìn)行調(diào)整。
可選的,所述根據(jù)所述核心元素、所述修飾元素、其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值,包括步驟:
對(duì)所述核心元素和所述修飾元素分別進(jìn)行去重處理,形成所述比照企業(yè)的核心元素序列和修飾元素序列,并根據(jù)所述核心元素序列和所述修飾元素序列構(gòu)建層矩陣,并對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列,并根據(jù)所述其他經(jīng)營(yíng)特征元素序列構(gòu)建層矩陣,所述層矩陣包括核心元素層矩陣、修飾元素層矩陣和其他經(jīng)營(yíng)特征元素矩陣;
將所述層矩陣按預(yù)設(shè)分群規(guī)則進(jìn)行分群處理,得到多個(gè)特征集群;
對(duì)所述特征集群進(jìn)行調(diào)整;
根據(jù)預(yù)設(shè)的計(jì)算規(guī)則計(jì)算每個(gè)所述特征集群的度量值。
可選的,所述根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,包括:
根據(jù)預(yù)設(shè)的相似度閾值從上述多個(gè)比照企業(yè)中進(jìn)行查找,將相似度大于所述相似度閾值的企業(yè)選出,形成所述對(duì)標(biāo)企業(yè)名單;
或者,將所述多個(gè)比照企業(yè)按其與所述目標(biāo)企業(yè)的相似度進(jìn)行排序,從排序列表中挑出預(yù)設(shè)數(shù)量的企業(yè),形成所述對(duì)標(biāo)企業(yè)名單。
相應(yīng)的,為了保證上述方法的實(shí)施,本發(fā)明還提供了一種對(duì)標(biāo)企業(yè)名單的篩選裝置,包括:
數(shù)據(jù)提取模塊,用于提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)所述有序元素序列進(jìn)行去重和分割,得到所述比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;提取預(yù)設(shè)的比照企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素,并對(duì)所述有序元素序列進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列;
特征集群構(gòu)建模塊,用于根據(jù)所述核心元素、所述修飾元素、其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)所述特征集群進(jìn)行分群度量,得到每個(gè)所述特征集群的度量值;
特征矩陣構(gòu)建模塊,用于構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,所述企業(yè)特征矩陣包括所述目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;
相似度計(jì)算模塊,用于根據(jù)所述企業(yè)特征矩陣和所述度量值計(jì)算所述目標(biāo)企業(yè)與每個(gè)所述比照企業(yè)之間的相似度;
對(duì)標(biāo)名單確定模塊,用于根據(jù)所述相似度從所述多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單。
可選的,所述數(shù)據(jù)提取模塊包括:
序列簡(jiǎn)化單元,用于將所述有序元素序列進(jìn)行簡(jiǎn)化處理,剔除其中無(wú)意義的字符;
第一分割單元,用于將經(jīng)過(guò)簡(jiǎn)化處理的有序元素序列根據(jù)預(yù)設(shè)的分割符進(jìn)行第一次分割處理;
第二分割單元,用于將經(jīng)過(guò)第一次分割處理的有序元素序列進(jìn)行第二次分割處理,將超過(guò)兩個(gè)字的元素進(jìn)行分詞處理;
分類處理單元,用于將經(jīng)過(guò)第二次分割處理的有序元素序列進(jìn)行分類處理,得到所述核心元素和所述修飾元素。
可選的,所述數(shù)據(jù)提取模塊還包括:
組別調(diào)整單元,用于將所述有序元素的組別按詞性進(jìn)行調(diào)整。
可選的,所述特征集群構(gòu)建模塊包括:
去重處理單元,用于對(duì)所述核心元素和所述修飾元素分別進(jìn)行去重處理,形成所述比照企業(yè)的核心元素序列和修飾元素序列,并根據(jù)所述核心元素序列和所述修飾元素序列構(gòu)建層矩陣,同時(shí),對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到所述比照企業(yè)的其他經(jīng)營(yíng)特征元素序列,并根據(jù)所述其他經(jīng)營(yíng)特征元素序列構(gòu)建層矩陣,所述層矩陣包括核心元素層矩陣、修飾元素層矩陣和其他經(jīng)營(yíng)特征元素矩陣;
分群處理單元,用于將所述層矩陣按預(yù)設(shè)分群規(guī)則進(jìn)行分群處理,得到多個(gè)特征集群;
集群調(diào)整單元,用于對(duì)所述特征集群進(jìn)行調(diào)整;
度量值計(jì)算單元,用于根據(jù)預(yù)設(shè)的計(jì)算規(guī)則計(jì)算每個(gè)所述特征集群的度量值。
可選的,所述對(duì)標(biāo)名單確定模塊包括:
第一確定單元,用于根據(jù)預(yù)設(shè)的相似度閾值從上述多個(gè)比照企業(yè)中進(jìn)行查找,將相似度大于所述相似度閾值的企業(yè)選出,形成所述對(duì)標(biāo)企業(yè)名單;
第二確定單元,用于將所述多個(gè)比照企業(yè)按其與所述目標(biāo)企業(yè)的相似度進(jìn)行排序,從排序列表中挑出預(yù)設(shè)數(shù)量的企業(yè),形成所述對(duì)標(biāo)企業(yè)名單。
從上述技術(shù)方案可以看出,本發(fā)明提供了一種對(duì)標(biāo)企業(yè)名單的篩選方法和裝置,該方法和裝置具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量和修飾元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選方法實(shí)施例的步驟流程圖;
圖2為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選裝置實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明提供的對(duì)標(biāo)企業(yè)名單的篩選方法和裝置基于下述已有的信息。具體的已有信息包括:
a)若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù),且根據(jù)若干企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)構(gòu)建了企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù);
b)若干的常見(jiàn)詞及常見(jiàn)詞之間的詞性對(duì)照表;
c)上述若干家企業(yè)的經(jīng)營(yíng)特征數(shù)據(jù),例如產(chǎn)品、原材料等,并根據(jù)該經(jīng)營(yíng)特征數(shù)據(jù)構(gòu)建了企業(yè)經(jīng)營(yíng)特征數(shù)據(jù)庫(kù);
實(shí)施例一
圖1為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選方法實(shí)施例的步驟流程圖。
本實(shí)施例的執(zhí)行主體為電子計(jì)算裝置,該電子計(jì)算裝置可以位于本地終端的應(yīng)用,或者還可以為位于本地終端的應(yīng)用中的插件或軟件開(kāi)發(fā)工具包(softwaredevelopmentkit,sdk)等功能單元,本發(fā)明實(shí)施例對(duì)此不進(jìn)行特別限定。
可以理解的是,應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeapp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webapp),本發(fā)明實(shí)施例對(duì)此不進(jìn)行限定。
如圖1所示,本實(shí)施例提供的對(duì)比企業(yè)名單的篩選方法具體包括如下步驟:
s101:提取預(yù)設(shè)的多家企業(yè)的經(jīng)營(yíng)范圍元素。
在若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)的基礎(chǔ)上,提取上述多家企業(yè)的經(jīng)營(yíng)范圍元素,并將包括用于描述經(jīng)營(yíng)范圍的有序元素序列整合為元素矩陣,該元素矩陣包括核心元素層和修飾元素層。具體的處理過(guò)程包括:首先,將經(jīng)營(yíng)范圍元素進(jìn)行簡(jiǎn)化處理。將其中無(wú)實(shí)際意義的部分進(jìn)行剔除,包括兩部分,一是助詞(如:的、了、吧)和介詞(如:在、于),二是由括號(hào)(包括小括號(hào)、中括號(hào)、大括號(hào))包括的部分。
例如:對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件(不含國(guó)家規(guī)定的專營(yíng)商品)。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,簡(jiǎn)化的結(jié)果為:“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?/p>
然后,將經(jīng)過(guò)簡(jiǎn)化處理后的有序元素i進(jìn)行分割處理,以經(jīng)營(yíng)范圍中的連詞(如:和、或,與等)、標(biāo)點(diǎn)符號(hào)(如:逗號(hào)、頓號(hào)等)作為分割符,對(duì)經(jīng)營(yíng)范圍進(jìn)行第一次分割,分割后得到有序元素集合i,并得到元素初始分組集合。
自左至右進(jìn)行分割,若當(dāng)前位置以標(biāo)點(diǎn)符號(hào)分割,且分割的標(biāo)點(diǎn)符號(hào)與上一個(gè)分割的標(biāo)點(diǎn)符號(hào)不一致,則當(dāng)前分割符之后的元素與之前的元素不屬于同一組別。
例如,對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)分割后形成的有序元素i序列為:
[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列如下:
[1,1,1,1,2,2,2]。
再后,將經(jīng)過(guò)第一分割處理得到的有序元素ii再次分割,對(duì)有序元素i序列若中的每一個(gè)超過(guò)兩個(gè)字的元素進(jìn)行分詞,且保留最長(zhǎng)分詞結(jié)果。
例如:
對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)有序元素i分割后形成的序列:[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資],其對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:[1,1,1,1,2,2,2],進(jìn)行分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè),投資]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,2,2,2,2].
最后,將經(jīng)過(guò)兩次分割處理得到的有序元素序列按元素性質(zhì)進(jìn)行分類處理。對(duì)有序元素ii序列中的元素,與歷史元素庫(kù)中的元素進(jìn)行匹配,并獲取各元素的性質(zhì),對(duì)于在歷史元素庫(kù)中不存在的,則按照元素的詞性進(jìn)行性質(zhì)分類,具體為:
動(dòng)詞、動(dòng)詞短語(yǔ)的性質(zhì)分類為核心元素;
其他詞、短語(yǔ)的性質(zhì)分類為修飾元素;
例如:
對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]
進(jìn)行元素性質(zhì)分類后的有序元素iii,其性質(zhì)序列如下:
[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]
另外,還可以包括對(duì)元素組別調(diào)整。
對(duì)經(jīng)過(guò)元素性質(zhì)分類后的有序元素iii序列中的元素,逐個(gè)進(jìn)行掃描,若當(dāng)前元素的性質(zhì),與前一個(gè)元素的性質(zhì)不一致,且當(dāng)前元素與上一個(gè)元素屬于同一組別,且當(dāng)前元素之前的連續(xù)的同一組別的元素中,已存在“核心”、“修飾”兩種性質(zhì),則將自當(dāng)前元素之后,與當(dāng)前元素屬于同一組別的元素,變更為另一個(gè)組別。
例如:
對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]
進(jìn)行元素性質(zhì)分類后,有序元素iii,其性質(zhì)序列如下:
[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,1,1,1,1]
進(jìn)行元素組別調(diào)整后,有序元素iv的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,2,2,2,2]
s102:根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群。
在構(gòu)建多個(gè)特征集群后,進(jìn)一步計(jì)算每個(gè)特征集群的度量值。具體為:
首先,對(duì)全部企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv中的核心元素、修飾元素分別進(jìn)行去重,并形成核心元素序列a、修飾元素序列b,其中,核心元素序列共ka個(gè)元素、各元素記為ai,修飾元素序列共kb個(gè)元素、各元素記為bi。
構(gòu)建核心元素層矩陣ma,大小為ka行ka列,其中各元素ai,j的定義為核心元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若核心元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則ai,j=n。
構(gòu)建修飾元素層矩陣mb,大小為kb*kb,其中各元素bi,j的定義為修飾元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若修飾元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則bi,j=n。
對(duì)產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素去重,并形成各個(gè)經(jīng)營(yíng)特征元素序列s1、s2…,分別稱為第n經(jīng)營(yíng)特征元素序列(例如:其中s1對(duì)應(yīng)產(chǎn)品、s2對(duì)應(yīng)原材料等),其中,第i經(jīng)營(yíng)特征元素序列共ksn個(gè)元素、各元素記為sni。
構(gòu)建經(jīng)營(yíng)特征層矩陣msn,大小為ksn*ksn,其中各元素sni,j的定義為第n經(jīng)營(yíng)特征元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若第n經(jīng)營(yíng)特征元素序列第i元素與第j元素,同時(shí)在m個(gè)企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、或原材料等)中同時(shí)出現(xiàn)出現(xiàn),則sni,j=m。
以上操作中,每一個(gè)ai,可以理解為一個(gè)點(diǎn),每一個(gè)ai,j為ai和aj之間的邊,ai,j越大,則ai和aj之間連接約緊密,按此可以構(gòu)成一張點(diǎn)線相連的圖。
然后,將層矩陣按預(yù)設(shè)的分群規(guī)則進(jìn)行分群處理,得到多個(gè)初始的特征集群。
取隨機(jī)數(shù)序列vn,其中元素記為ni,數(shù)量為kn,且kn<ka;該隨機(jī)數(shù)序列符合以下要求:
在隨機(jī)數(shù)序列vn中任取兩個(gè)元素ni和nj,對(duì)于任意自然數(shù)l<ka,
則vn即為核心要素層的分群中心初始序列,其中各元素即為核心要素層中群中心,ni即為核心要素層i中心,對(duì)應(yīng)的ani屬于核心要素第i群。
對(duì)于任取al,其中0<l<ka,若存在ani,l>0,則al屬于核心要素第i群;若任取0<l<ka,均有ani,l=0,則從符合al,j>0要求的j中隨機(jī)取一個(gè),令al屬于核心要素第j群。
按以上步驟可以獲得核心要素的集群歸屬序列g(shù)a,其中,元素為ga,i,ga,i定義為ai元素所在的群編號(hào),即ga,i=2意為,ai屬于核心要素第2群。
類似的取隨機(jī)數(shù)序列vm,其中元素記為mi,數(shù)量為km,且km<kb;該隨機(jī)數(shù)序列符合以下要求:
在隨機(jī)數(shù)序列vm中任取兩個(gè)元素mi和mj,對(duì)于任意自然數(shù)l<kb,
則vm即為修飾要素層的分群中心初始序列,其中各元素即為修飾要素層中群中心,mi即為修飾要素層i中心,對(duì)應(yīng)的bmi屬于修飾要素第i群。
對(duì)于任取bl,其中0<l<kb,若存在bmi,l>0,則bl屬于修飾要素第i群;若任取0<l<kb,均有bmi,l=0,則從符合bl,j>0要求的j中隨機(jī)取一個(gè),令bl屬于修飾要素第j群。
按以上步驟可以獲得修飾要素的集群歸屬序列g(shù)b,其中,元素為gb,i,gb,i定義為bi元素所在的群編號(hào),即gb,i=2意為,bi屬于修飾要素第2群。
類似的對(duì)于產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素,也可以按照上述方法,獲得對(duì)應(yīng)的經(jīng)營(yíng)特征要素的集群歸屬序列g(shù)sn,其中,元素為gsn,i,gsn,i定義為sni元素所在的群編號(hào),即gsn,i=2意為,sni屬于對(duì)應(yīng)的經(jīng)營(yíng)特征要素第2群。
再后,對(duì)每個(gè)特征集群進(jìn)行分群度量,即計(jì)算每個(gè)特征集群的度量值。
對(duì)于核心要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為q,計(jì)算方式如下:
其中,
δ(ga,i,ga,j)的計(jì)算方式為:當(dāng)ga,i=ga,j時(shí),δ(ga,i,ga,j)=1,否則δ(ga,i,ga,j)=0
類似的對(duì)于修飾要素矩陣、其他經(jīng)營(yíng)特征要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為qb、qs1、qs2、…,計(jì)算方式如下:
其中,
δ(gb,i,gb,j)的計(jì)算方式為:當(dāng)gb,i=gb,j時(shí),δ(gb,i,gb,j)=1,否則δ(gb,i,gb,j)=0
其中,
δ(gsn,i,gsn,j)的計(jì)算方式為:當(dāng)gsn,i=gsn,j時(shí),δ(gsn,i,gsn,j)=1,否則δ(gsn,i,gsn,j)=0
優(yōu)選的,該分群度量值,采用的是newman提出的q-modularity度量方法,該方法屬于公開(kāi)方法,這里不再詳細(xì)介紹。
最后,對(duì)上述特征集群進(jìn)行調(diào)整處理。
任取ai,其中0<i<ka,取j=0,1,2…,ka,且i≠j,若ga,i≠ga,j,則令ga,i=ga,j,計(jì)算分群度量q’,若q’>q,則保留本次賦值,否則撤銷本次賦值。
對(duì)a中全部ai,進(jìn)行上述步驟,直至本輪中所有交換導(dǎo)致的q’均不小于q。則當(dāng)前ga即為核心元素層的分群結(jié)果,其中分群的個(gè)數(shù)為kga。
類似的可以獲得修飾元素層的分群結(jié)果gb,其中分群的個(gè)數(shù)為kgb,以及各個(gè)其他經(jīng)營(yíng)特征元素層的分群結(jié)果gsn,其中分群的個(gè)數(shù)為kgsn
以上操作實(shí)質(zhì)是對(duì)每一個(gè)元素的歸屬,調(diào)整為就近的其他群,然后計(jì)算q值,并保留那些能讓q值變大的調(diào)整。
s103:構(gòu)建目標(biāo)企業(yè)的企業(yè)特征矩陣。
提取需要對(duì)標(biāo)的目標(biāo)企業(yè)的經(jīng)營(yíng)范圍元素,形成有序元素iv序列,并構(gòu)成核心元素向量va、修飾元素向量vb,構(gòu)成企業(yè)特征矩陣。
核心元素向量va的大小為1*ka,其中元素wa,i的定義如下:
若核心元素序列a中元素ai,在當(dāng)前企業(yè)的有序元素iv序列中,則wa,i=1,否則為wa,i=0;
類似的修飾元素向量vb的大小為1*kb,其中元素wb,i的定義如下:
若修飾元素序列b中元素bi,在當(dāng)前企業(yè)的有序元素iv序列中,則wb,i=1,否則為wb,i=0。
類似的其他經(jīng)營(yíng)特征元素向量vsn的大小為1*ksn,其中元素wsn,i的定義如下:
若其他經(jīng)營(yíng)特征元素序列sn中元素sni,在當(dāng)前企業(yè)的第n個(gè)其他經(jīng)營(yíng)特征中,則wsn,i=1,否則為wsn,i=0。
構(gòu)建的矩陣mc大小為ka*kb,其定義為:vb=va·mc
s104:計(jì)算目標(biāo)企業(yè)與每個(gè)企業(yè)的相似度。
對(duì)于需要對(duì)標(biāo)的目標(biāo)企業(yè)來(lái)說(shuō),其特征為va、vb、mc、vs1、vs2…,任取一家企業(yè)作為比照企業(yè),其特征為v′a、v′b、m′c、v′s1、v′s2…,其兩者的相似度定義為pi:
其中,γa、γb、γ1、…為大于0的系數(shù),pa、pb、pn、…分別為核心元素相似度、修飾元素相似度、其他經(jīng)營(yíng)特征元素相似度,具體計(jì)算方式如下:
對(duì)于目標(biāo)企業(yè),其核心元素群歸屬特征為fa,元素總數(shù)為kga,各元素為fa,i,具體定義為:
若ga,i=j(luò),則αj=1,否則αj=0。
fa實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)核心元素,在各個(gè)核心元素各分群中出現(xiàn)的次數(shù),最終形成的向量形如[4,5,0,0,6]。
類似的對(duì)于比照企業(yè),可以取得其核心元素群歸屬特征為fai。
對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的核心元素相似度pa,i計(jì)算方式如下:
核心元素相似度的實(shí)質(zhì),為兩家企業(yè)核心元素群歸屬特征的余弦距離。
對(duì)于目標(biāo)企業(yè),其修飾元素群歸屬特征為fb,元素總數(shù)為kgb,各元素為fb,i,具體定義為,任取0<j<kgb,若存在gb,i=j(luò),則fb,i=1,否則fb,i=0。
fb實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)修飾元素,在各個(gè)修飾元素各分群中是否出現(xiàn),若出現(xiàn)則為1,否則為0。fb的定義與fa不一致,主要考慮核心元素的在分群中的多寡,關(guān)系到企業(yè)在該領(lǐng)域內(nèi)經(jīng)營(yíng)的側(cè)重,而修飾元素并無(wú)此特性。
類似的對(duì)于比照企業(yè),可以取得其修飾元素群歸屬特征為fbi。
對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的修飾元素相似度pb,i計(jì)算方式如下:
與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì),為兩家企業(yè)相似元素群歸屬特征的余弦距離。
此外,對(duì)于比照企業(yè)修飾元素群歸屬特征fbi中的元素fib,i≠fb,i的元素,可以按照如下方式計(jì)算其替代歸屬特征:
其中,
其中,若f′b,j≠fb,j,則σj=1,否則σj=0
以替代歸屬特征替換歸屬特征獲得的特征向量,稱為歸屬特征替代向量
替代特征實(shí)質(zhì)上,比照企業(yè)的元素歸屬群中與目標(biāo)企業(yè)的元素歸屬群不一致的一個(gè)群,與目標(biāo)企業(yè)的元素歸屬群的連接強(qiáng)度,其數(shù)值是比照企業(yè)的元素歸屬群與目標(biāo)企業(yè)的元素歸屬群的連接數(shù),除以目標(biāo)企業(yè)的元素歸屬群與全部其他元素歸屬群的連接數(shù)。
與修飾元素相似度類似,可以計(jì)算得其他經(jīng)營(yíng)特征相似度ps1、ps2…,以及其他經(jīng)營(yíng)特征的替代相似度
與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì)為兩家企業(yè)相似元素群歸屬特征的余弦距離。
s105:根據(jù)目標(biāo)企業(yè)與其他企業(yè)的相似度確定對(duì)標(biāo)企業(yè)名單。
對(duì)于目標(biāo)企業(yè)的行業(yè)對(duì)標(biāo),可以采用以下兩種方式之一確定對(duì)標(biāo)企業(yè)名單:
一種為設(shè)定企業(yè)相似度閾值,將企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中,與目標(biāo)企業(yè)的相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;
另一種為設(shè)定企業(yè)對(duì)標(biāo)數(shù)量,對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;
或者以上兩種方式,確定對(duì)標(biāo)的企業(yè)名單,即:
設(shè)定企業(yè)對(duì)標(biāo)數(shù)量和企業(yè)相似度閾值。對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),且相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單。
在以上方法中,若對(duì)對(duì)標(biāo)企業(yè)名單中數(shù)量有下限要求,則可以將修飾元素、其他經(jīng)營(yíng)特征元素的相似度,替換為對(duì)應(yīng)的替代相似度進(jìn)行計(jì)算,以替代相似度與閾值比較,或者進(jìn)行排序,以提取符合要求的對(duì)標(biāo)企業(yè)名單。
從上述技術(shù)方案可以看出,本實(shí)施例提供了一種對(duì)標(biāo)企業(yè)名單的篩選方法,具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素,同時(shí),對(duì)企業(yè)其他經(jīng)營(yíng)特征(如:產(chǎn)品、原材料等離散的特征)的有序元素進(jìn)行去重,得到比照企業(yè)的其他經(jīng)營(yíng)特征元素;根據(jù)核心元素、修飾元素和其他經(jīng)營(yíng)特征元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量、修飾元素向量和其他經(jīng)營(yíng)特征元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。
需要說(shuō)明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
實(shí)施例二
圖2為本發(fā)明提供的一種對(duì)標(biāo)企業(yè)名單的篩選裝置實(shí)施例的結(jié)構(gòu)框圖。
本實(shí)施例的裝置可以理解為電子計(jì)算裝置,該電子計(jì)算裝置可以位于本地終端的應(yīng)用,或者還可以為位于本地終端的應(yīng)用中的插件或軟件開(kāi)發(fā)工具包(softwaredevelopmentkit,sdk)等功能單元,本發(fā)明實(shí)施例對(duì)此不進(jìn)行特別限定。
可以理解的是,應(yīng)用可以是安裝在終端上的應(yīng)用程序(nativeapp),或者還可以是終端上的瀏覽器的一個(gè)網(wǎng)頁(yè)程序(webapp),本發(fā)明實(shí)施例對(duì)此不進(jìn)行限定。
如圖2所示,本實(shí)施例提供的對(duì)比企業(yè)名單的篩選裝置具體包括數(shù)據(jù)提取模塊10、特征集群構(gòu)建模塊20、特征矩陣構(gòu)建模塊30、相似度技術(shù)模塊40和對(duì)標(biāo)名單確定模塊。
數(shù)據(jù)提前模塊用于提取預(yù)設(shè)的多家企業(yè)的經(jīng)營(yíng)范圍元素。
在若干家企業(yè)的經(jīng)營(yíng)范圍數(shù)據(jù)的基礎(chǔ)上,提取上述多家企業(yè)的經(jīng)營(yíng)范圍元素,并將包括用于描述經(jīng)營(yíng)范圍的有序元素序列整合為元素矩陣,該元素矩陣包括核心元素層和修飾元素層。
該模塊包括序列簡(jiǎn)化單元11、第一分割單元12、第二分割單元13和分類處理單元14,具體的處理時(shí),序列簡(jiǎn)化單元用于將經(jīng)營(yíng)范圍元素進(jìn)行簡(jiǎn)化處理。將其中無(wú)實(shí)際意義的部分進(jìn)行剔除,包括兩部分,一是助詞(如:的、了、吧)和介詞(如:在、于),二是由括號(hào)(包括小括號(hào)、中括號(hào)、大括號(hào))包括的部分。
例如:對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件(不含國(guó)家規(guī)定的專營(yíng)商品)。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,簡(jiǎn)化的結(jié)果為:“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?/p>
第一分割單元用于將經(jīng)過(guò)簡(jiǎn)化處理后的有序元素i進(jìn)行分割處理,以經(jīng)營(yíng)范圍中的連詞(如:和、或,與等)、標(biāo)點(diǎn)符號(hào)(如:逗號(hào)、頓號(hào)等)作為分割符,對(duì)經(jīng)營(yíng)范圍進(jìn)行第一次分割,分割后得到有序元素集合i,并得到元素初始分組集合。
自左至右進(jìn)行分割,若當(dāng)前位置以標(biāo)點(diǎn)符號(hào)分割,且分割的標(biāo)點(diǎn)符號(hào)與上一個(gè)分割的標(biāo)點(diǎn)符號(hào)不一致,則當(dāng)前分割符之后的元素與之前的元素不屬于同一組別。
例如,對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資。”,經(jīng)分割后形成的有序元素i序列為:
[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列如下:
[1,1,1,1,2,2,2]。
第二分割單元用于將經(jīng)過(guò)第一分割處理得到的有序元素ii再次分割,對(duì)有序元素i序列若中的每一個(gè)超過(guò)兩個(gè)字的元素進(jìn)行分詞,且保留最長(zhǎng)分詞結(jié)果。
例如:
對(duì)于經(jīng)營(yíng)范圍“生產(chǎn)、加工、銷售電腦電子設(shè)備、電訊電器元件。教育、旅游產(chǎn)業(yè)及其他產(chǎn)業(yè)投資?!?,經(jīng)有序元素i分割后形成的序列:[生產(chǎn),加工,銷售電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)投資],其對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:[1,1,1,1,2,2,2],進(jìn)行分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè),投資]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,2,2,2,2].
分類處理單元用于將經(jīng)過(guò)兩次分割處理得到的有序元素序列按元素性質(zhì)進(jìn)行分類處理。對(duì)有序元素ii序列中的元素,與歷史元素庫(kù)中的元素進(jìn)行匹配,并獲取各元素的性質(zhì),對(duì)于在歷史元素庫(kù)中不存在的,則按照元素的詞性進(jìn)行性質(zhì)分類,具體為:
動(dòng)詞、動(dòng)詞短語(yǔ)的性質(zhì)分類為核心元素;
其他詞、短語(yǔ)的性質(zhì)分類為修飾元素;
例如:
對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]
進(jìn)行元素性質(zhì)分類后的有序元素iii,其性質(zhì)序列如下:
[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]
另外,該模塊還包括組別調(diào)整單元15,該單元用于對(duì)元素組別調(diào)整。
對(duì)經(jīng)過(guò)元素性質(zhì)分類后的有序元素iii序列中的元素,逐個(gè)進(jìn)行掃描,若當(dāng)前元素的性質(zhì),與前一個(gè)元素的性質(zhì)不一致,且當(dāng)前元素與上一個(gè)元素屬于同一組別,且當(dāng)前元素之前的連續(xù)的同一組別的元素中,已存在“核心”、“修飾”兩種性質(zhì),則將自當(dāng)前元素之后,與當(dāng)前元素屬于同一組別的元素,變更為另一個(gè)組別。
例如:
對(duì)經(jīng)過(guò)序元素ii分割后,有序元素ii的序列如下:
[生產(chǎn),加工,銷售,電腦電子設(shè)備,電訊電器元件,投資,教育,旅游產(chǎn)業(yè),其他產(chǎn)業(yè)]
進(jìn)行元素性質(zhì)分類后,有序元素iii,其性質(zhì)序列如下:
[核心,核心,核心,修飾,修飾,核心,修飾,修飾,修飾]
對(duì)應(yīng)的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,1,1,1,1]
進(jìn)行元素組別調(diào)整后,有序元素iv的各元素歸屬的組別序號(hào)序列為:
[1,1,1,1,1,2,2,2,2]
特征集群構(gòu)建模塊用于根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群。
在構(gòu)建多個(gè)特征集群后,進(jìn)一步計(jì)算每個(gè)特征集群的度量值。該模塊包括去重處理單元21、分群處理單元22、度量值計(jì)算單元23和集群調(diào)整單元24。
去重處理單元用于對(duì)全部企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv中的核心元素、修飾元素分別進(jìn)行去重,并形成核心元素序列a、修飾元素序列b,其中,核心元素序列共ka個(gè)元素、各元素記為ai,修飾元素序列共kb個(gè)元素、各元素記為bi。
構(gòu)建核心元素層矩陣ma,大小為ka行ka列,其中各元素ai,j的定義為核心元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若核心元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則ai,j=n。
構(gòu)建修飾元素層矩陣mb,大小為kb*kb,其中各元素bi,j的定義為修飾元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若修飾元素序列第i元素與第j元素,同時(shí)在n個(gè)企業(yè)經(jīng)營(yíng)范圍構(gòu)建成的有序元素iv的同一組別出現(xiàn),則bi,j=n。
對(duì)產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素去重,并形成各個(gè)經(jīng)營(yíng)特征元素序列s1、s2…,分別稱為第n經(jīng)營(yíng)特征元素序列(例如:其中s1對(duì)應(yīng)產(chǎn)品、s2對(duì)應(yīng)原材料等),其中,第i經(jīng)營(yíng)特征元素序列共ksn個(gè)元素、各元素記為sni。
構(gòu)建經(jīng)營(yíng)特征層矩陣msn,大小為ksn*ksn,其中各元素sni,j的定義為第n經(jīng)營(yíng)特征元素序列第i元素與第j元素同時(shí)出現(xiàn)的頻數(shù),即:若第n經(jīng)營(yíng)特征元素序列第i元素與第j元素,同時(shí)在m個(gè)企業(yè)的其他經(jīng)營(yíng)特征(如:產(chǎn)品、或原材料等)中同時(shí)出現(xiàn)出現(xiàn),則sni,j=m。
以上操作中,每一個(gè)ai,可以理解為一個(gè)點(diǎn),每一個(gè)ai,j為ai和aj之間的邊,ai,j越大,則ai和aj之間連接約緊密,按此可以構(gòu)成一張點(diǎn)線相連的圖。
分群處理單元將層矩陣按預(yù)設(shè)的分群規(guī)則進(jìn)行分群處理,得到多個(gè)初始的特征集群。
取隨機(jī)數(shù)序列vn,其中元素記為ni,數(shù)量為kn,且kn<ka;該隨機(jī)數(shù)序列符合以下要求:
在隨機(jī)數(shù)序列vn中任取兩個(gè)元素ni和nj,對(duì)于任意自然數(shù)l<ka,
則vn即為核心要素層的分群中心初始序列,其中各元素即為核心要素層中群中心,ni即為核心要素層i中心,對(duì)應(yīng)的ani屬于核心要素第i群。
對(duì)于任取al,其中0<l<ka,若存在ani,l>0,則al屬于核心要素第i群;若任取0<l<ka,均有ani,l=0,則從符合al,j>0要求的j中隨機(jī)取一個(gè),令al屬于核心要素第j群。
按以上步驟可以獲得核心要素的集群歸屬序列g(shù)a,其中,元素為ga,i,ga,i定義為ai元素所在的群編號(hào),即ga,i=2意為,ai屬于核心要素第2群。
類似的取隨機(jī)數(shù)序列vm,其中元素記為mi,數(shù)量為km,且km<kb;該隨機(jī)數(shù)序列符合以下要求:
在隨機(jī)數(shù)序列vm中任取兩個(gè)元素mi和mj,對(duì)于任意自然數(shù)l<kb,
則vm即為修飾要素層的分群中心初始序列,其中各元素即為修飾要素層中群中心,mi即為修飾要素層i中心,對(duì)應(yīng)的bmi屬于修飾要素第i群。
對(duì)于任取bl,其中0<l<kb,若存在bmi,l>0,則bl屬于修飾要素第i群;若任取0<l<kb,均有bmi,l=0,則從符合bl,j>0要求的j中隨機(jī)取一個(gè),令bl屬于修飾要素第j群。
按以上步驟可以獲得修飾要素的集群歸屬序列g(shù)b,其中,元素為gb,i,gb,i定義為bi元素所在的群編號(hào),即gb,i=2意為,bi屬于修飾要素第2群。
類似的對(duì)于產(chǎn)品、原材料等其他經(jīng)營(yíng)特征元素,也可以按照上述方法,獲得對(duì)應(yīng)的經(jīng)營(yíng)特征要素的集群歸屬序列g(shù)sn,其中,元素為gsn,i,gsn,i定義為sni元素所在的群編號(hào),即gsn,i=2意為,sni屬于對(duì)應(yīng)的經(jīng)營(yíng)特征要素第2群。
度量值計(jì)算單元用于對(duì)每個(gè)特征集群進(jìn)行分群度量,即計(jì)算每個(gè)特征集群的度量值。
對(duì)于核心要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為q,計(jì)算方式如下:
其中,
δ(ga,i,ga,j)的計(jì)算方式為:當(dāng)ga,i=ga,j時(shí),δ(ga,i,ga,j)=1,否則δ(ga,i,ga,j)=0
類似的對(duì)于修飾要素矩陣、其他經(jīng)營(yíng)特征要素矩陣的每一種要素分群結(jié)果,定義其分群效果度量值為qb、qs1、qs2、…,計(jì)算方式如下:
其中,
δ(gb,i,gb,j)的計(jì)算方式為:當(dāng)gb,i=gb,j時(shí),δ(gb,i,gb,j)=1,否則δ(gb,i,gb,j)=0
其中,
δ(gsn,i,gsn,j)的計(jì)算方式為:當(dāng)gsn,i=gsn,j時(shí),δ(gsn,i,gsn,j)=1,否則δ(gsn,i,gsn,j)=0
優(yōu)選的,該分群度量值,采用的是newman提出的q-modularity度量方法,該方法屬于公開(kāi)方法,這里不再詳細(xì)介紹。
集群調(diào)整單元用于對(duì)上述特征集群進(jìn)行調(diào)整處理。
任取ai,其中0<i<ka,取j=0,1,2…,ka,且i≠j,若ga,i≠ga,j,則令ga,i=ga,j,計(jì)算分群度量q’,若q’>q,則保留本次賦值,否則撤銷本次賦值。
對(duì)a中全部ai,進(jìn)行上述步驟,直至本輪中所有交換導(dǎo)致的q’均不小于q。則當(dāng)前ga即為核心元素層的分群結(jié)果,其中分群的個(gè)數(shù)為kga。
類似的可以獲得修飾元素層的分群結(jié)果gb,其中分群的個(gè)數(shù)為kgb,以及各個(gè)其他經(jīng)營(yíng)特征元素層的分群結(jié)果gsn,其中分群的個(gè)數(shù)為kgsn
以上操作實(shí)質(zhì)是對(duì)每一個(gè)元素的歸屬,調(diào)整為就近的其他群,然后計(jì)算q值,并保留那些能讓q值變大的調(diào)整。
特征矩陣構(gòu)建模塊用于構(gòu)建目標(biāo)企業(yè)的企業(yè)特征矩陣。
提取需要對(duì)標(biāo)的目標(biāo)企業(yè)的經(jīng)營(yíng)范圍元素,形成有序元素iv序列,并構(gòu)成核心元素向量va、修飾元素向量vb,構(gòu)成企業(yè)特征矩陣。
核心元素向量va的大小為1*ka,其中元素wa,i的定義如下:
若核心元素序列a中元素ai,在當(dāng)前企業(yè)的有序元素iv序列中,則wa,i=1,否則為wa,i=0;
類似的修飾元素向量vb的大小為1*kb,其中元素wb,i的定義如下:
若修飾元素序列b中元素bi,在當(dāng)前企業(yè)的有序元素iv序列中,則wb,i=1,否則為wb,i=0。
類似的其他經(jīng)營(yíng)特征元素向量vsn的大小為1*ksn,其中元素wsn,i的定義如下:
若其他經(jīng)營(yíng)特征元素序列sn中元素sni,在當(dāng)前企業(yè)的第n個(gè)其他經(jīng)營(yíng)特征中,則wsn,i=1,否則為wsn,i=0。
構(gòu)建的矩陣mc大小為ka*kb,其定義為:vb=va·mc
相似度計(jì)算模塊用于計(jì)算目標(biāo)企業(yè)與每個(gè)企業(yè)的相似度。
對(duì)于需要對(duì)標(biāo)的目標(biāo)企業(yè)來(lái)說(shuō),其特征為va、vb、mc、vs1、vs2…,任取一家企業(yè)作為比照企業(yè),其特征為v′a、v′b、m′c、v′s1、v′s2…,其兩者的相似度定義為pi:
其中,γa、γb、γ1、…為大于0的系數(shù),pa、pb、pn、…分別為核心元素相似度、修飾元素相似度、其他經(jīng)營(yíng)特征元素相似度,具體計(jì)算方式如下:
對(duì)于目標(biāo)企業(yè),其核心元素群歸屬特征為fa,元素總數(shù)為kga,各元素為fa,i,具體定義為:
若ga,i=j(luò),則αj=1,否則αj=0。
fa實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)核心元素,在各個(gè)核心元素各分群中出現(xiàn)的次數(shù),最終形成的向量形如[4,5,0,0,6]。
類似的對(duì)于比照企業(yè),可以取得其核心元素群歸屬特征為fai。
對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的核心元素相似度pa,i計(jì)算方式如下:
核心元素相似度的實(shí)質(zhì),為兩家企業(yè)核心元素群歸屬特征的余弦距離。
對(duì)于目標(biāo)企業(yè),其修飾元素群歸屬特征為fb,元素總數(shù)為kgb,各元素為fb,i,具體定義為,任取0<j<kgb,若存在gb,i=j(luò),則fb,i=1,否則fb,i=0。
fb實(shí)質(zhì)上是目標(biāo)企業(yè)經(jīng)營(yíng)范圍中的各個(gè)修飾元素,在各個(gè)修飾元素各分群中是否出現(xiàn),若出現(xiàn)則為1,否則為0。fb的定義與fa不一致,主要考慮核心元素的在分群中的多寡,關(guān)系到企業(yè)在該領(lǐng)域內(nèi)經(jīng)營(yíng)的側(cè)重,而修飾元素并無(wú)此特性。
類似的對(duì)于比照企業(yè),可以取得其修飾元素群歸屬特征為fbi。
對(duì)于目標(biāo)企業(yè)和比照企業(yè)而言,兩家企業(yè)的修飾元素相似度pb,i計(jì)算方式如下:
與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì),為兩家企業(yè)相似元素群歸屬特征的余弦距離。
此外,對(duì)于比照企業(yè)修飾元素群歸屬特征fbi中的元素fib,i≠fb,i的元素,可以按照如下方式計(jì)算其替代歸屬特征:
其中,
其中,若f′b,j≠fb,j,則σj=1,否則σj=0
以替代歸屬特征替換歸屬特征獲得的特征向量,稱為歸屬特征替代向量
替代特征實(shí)質(zhì)上,比照企業(yè)的元素歸屬群中與目標(biāo)企業(yè)的元素歸屬群不一致的一個(gè)群,與目標(biāo)企業(yè)的元素歸屬群的連接強(qiáng)度,其數(shù)值是比照企業(yè)的元素歸屬群與目標(biāo)企業(yè)的元素歸屬群的連接數(shù),除以目標(biāo)企業(yè)的元素歸屬群與全部其他元素歸屬群的連接數(shù)。
與修飾元素相似度類似,可以計(jì)算得其他經(jīng)營(yíng)特征相似度ps1、ps2…,以及其他經(jīng)營(yíng)特征的替代相似度
與核心元素相似度相似,修飾元素相似度的實(shí)質(zhì)為兩家企業(yè)相似元素群歸屬特征的余弦距離。
對(duì)標(biāo)名單確定模塊用于根據(jù)目標(biāo)企業(yè)與其他企業(yè)的相似度確定對(duì)標(biāo)企業(yè)名單。該模塊包括第一確定單元51和第二確定單元52。
第一確定單元用于設(shè)定企業(yè)相似度閾值,然后將企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中,與目標(biāo)企業(yè)的相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;
第二確定單元用于設(shè)定企業(yè)對(duì)標(biāo)數(shù)量,然后對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),添加到對(duì)標(biāo)企業(yè)名單;
或者以上兩種方式,確定對(duì)標(biāo)的企業(yè)名單,即:
設(shè)定企業(yè)對(duì)標(biāo)數(shù)量和企業(yè)相似度閾值。對(duì)企業(yè)經(jīng)營(yíng)范圍數(shù)據(jù)庫(kù)中的企業(yè),計(jì)算其與目標(biāo)企業(yè)的相似度,并按照相似度從高到低進(jìn)行排序,取前一定數(shù)量的企業(yè),且相似度高于閾值的企業(yè),添加到對(duì)標(biāo)企業(yè)名單。
在以上方法中,若對(duì)對(duì)標(biāo)企業(yè)名單中數(shù)量有下限要求,則可以將修飾元素、其他經(jīng)營(yíng)特征元素的相似度,替換為對(duì)應(yīng)的替代相似度進(jìn)行計(jì)算,以替代相似度與閾值比較,或者進(jìn)行排序,以提取符合要求的對(duì)標(biāo)企業(yè)名單。
從上述技術(shù)方案可以看出,本實(shí)施例提供了一種對(duì)標(biāo)企業(yè)名單的篩選裝置,具體為提取預(yù)設(shè)的多個(gè)比照企業(yè)的經(jīng)營(yíng)范圍的有序元素序列,并對(duì)有序元素序列進(jìn)行去重和分割,得到比照企業(yè)的經(jīng)營(yíng)范圍的核心元素和修飾元素;根據(jù)核心元素和修飾元素構(gòu)建多個(gè)特征集群,并對(duì)每個(gè)特征集群進(jìn)行分群度量,得到每個(gè)特征集群的度量值;構(gòu)建需要對(duì)標(biāo)的目標(biāo)企業(yè)的企業(yè)特征矩陣,企業(yè)特征矩陣包括目標(biāo)企業(yè)的核心元素向量和修飾元素向量;根據(jù)企業(yè)特征矩陣和度量值計(jì)算目標(biāo)企業(yè)與每個(gè)比照企業(yè)之間的相似度;根據(jù)相似度從多個(gè)比照企業(yè)中確定對(duì)標(biāo)企業(yè)名單,從而實(shí)現(xiàn)了為行業(yè)對(duì)標(biāo)分析提供對(duì)標(biāo)企業(yè)名單。
對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可。
本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計(jì)算機(jī)軟件和電子硬件的結(jié)合來(lái)實(shí)現(xiàn)。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
在本申請(qǐng)所提供的實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤(pán)、移動(dòng)硬盤(pán)、rom、ram、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。