本發(fā)明屬于產(chǎn)品質(zhì)量管理領(lǐng)域,涉及一種基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法。
背景技術(shù):
:
產(chǎn)品的質(zhì)量安全問題是當(dāng)今社會的永恒課題,它不僅包含產(chǎn)品的本質(zhì)安全,也包含了產(chǎn)品的使用安全。產(chǎn)品的質(zhì)量安全問題不僅影響消費者的權(quán)益(生命、財產(chǎn)、健康等),也會給制造企業(yè)帶來巨大的經(jīng)濟損失,關(guān)系到制造企業(yè)的生存和發(fā)展。運用科學(xué)的、高效的管理方法和手段,盡早發(fā)現(xiàn)各種潛在的產(chǎn)品質(zhì)量安全問題,通過技術(shù)創(chuàng)新和技術(shù)突破,對產(chǎn)品存在的問題進(jìn)行改進(jìn)和提升,提高產(chǎn)品在市場上的競爭力和影響力。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展與普及,網(wǎng)絡(luò)正逐漸改變著人們的生活和表達(dá)方式。由于不同的用戶有不同的質(zhì)量、安全需求,也可能在不同的環(huán)境、工況、負(fù)載下,產(chǎn)品在使用過程中會暴露出很多意料之外的質(zhì)量安全問題,用戶通常會選擇借助網(wǎng)絡(luò)平臺進(jìn)行交流,發(fā)表使用評價信息。這些用戶的評價信息蘊含著豐富的、有價值的信息。制造企業(yè)如果能夠快速、有效地從中提取反映產(chǎn)品質(zhì)量的信息,將會為改進(jìn)、完善產(chǎn)品開發(fā)設(shè)計提供重要的依據(jù),提高用戶的滿意度,增強企業(yè)的市場競爭力,同時,也會降低由于產(chǎn)品質(zhì)量問題造成事故給企業(yè)帶來的經(jīng)濟損失。
然而,由于互聯(lián)網(wǎng)的開放性,用戶對產(chǎn)品質(zhì)量安全的評價信息具有多源、異構(gòu)的特點,面對紛繁復(fù)雜的海量網(wǎng)絡(luò)評論數(shù)據(jù),亟需一種機制做正確的監(jiān)測,科學(xué)地分析各種潛在的質(zhì)量問題,建立完善的質(zhì)量安全監(jiān)管技術(shù)體系,從而有效規(guī)避產(chǎn)品質(zhì)量安全問題給企業(yè)帶來的經(jīng)濟、信譽等損失,增強制造企業(yè)應(yīng)對產(chǎn)品質(zhì)量安全風(fēng)險的能力。
技術(shù)實現(xiàn)要素:
:
為了能快速、有效地從多源異構(gòu)的海量產(chǎn)品質(zhì)量安全信息中提取產(chǎn)品特征,且對其進(jìn)行產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建、定量描述、結(jié)構(gòu)樹擴展等操作,本發(fā)明提供了一種基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法,是一種高效的、便捷的產(chǎn)品質(zhì)量管理的方法,也是對傳統(tǒng)產(chǎn)品質(zhì)量管理方法的一種擴充。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案如下述內(nèi)容:
基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法,其特征在于:該方法包括下述步驟:
步驟1,語料庫獲取:利用網(wǎng)絡(luò)爬蟲軟件,制定爬取規(guī)則,抓取與指定產(chǎn)品相關(guān)的電商網(wǎng)站以及論壇上的用戶評論文本進(jìn)行預(yù)處理并以結(jié)構(gòu)化形式保存到數(shù)據(jù)庫中;
步驟2,產(chǎn)品特征提?。?.1利用分詞器對語料庫進(jìn)行分詞及詞性標(biāo)注,從初次分詞結(jié)果中通過新詞發(fā)現(xiàn)方法,識別領(lǐng)域新詞,添加到用戶詞典中,再基于用戶詞典對語料庫進(jìn)行優(yōu)化分詞;2.2將優(yōu)化分詞結(jié)果進(jìn)行詞性標(biāo)注集轉(zhuǎn)換,用中文自然語言處理工具包對轉(zhuǎn)換后的優(yōu)化分詞結(jié)果進(jìn)行依存關(guān)系分析;2.3用整理的情感詞詞典對依存關(guān)系分析結(jié)果中的支配詞進(jìn)行標(biāo)注,得到以詞語為基本記錄單元的結(jié)構(gòu)化數(shù)據(jù);2.4將情感分析的結(jié)果分為訓(xùn)練集和測試集,制定條件隨機場特征模板,利用開源工具包,對已經(jīng)標(biāo)注產(chǎn)品特征的訓(xùn)練集進(jìn)行訓(xùn)練,生成條件隨機場模型,再利用該模型對測試集進(jìn)行產(chǎn)品特征標(biāo)注,并對測試結(jié)果進(jìn)行評測;2.5從語料庫中將標(biāo)記的產(chǎn)品特征提取出來;
步驟3,產(chǎn)品特征結(jié)構(gòu)樹的構(gòu)建:3.1定義產(chǎn)品特征的類型,構(gòu)建特征類型的層次結(jié)構(gòu);3.2對于每個產(chǎn)品特征,定位它在優(yōu)化分詞結(jié)果中的位置,對于位置的前面的信息,統(tǒng)計在同一條評論語句中、且是第一個能與產(chǎn)品特征表匹配的、不是本產(chǎn)品特征的產(chǎn)品特征出現(xiàn)的頻數(shù),將匹配的非本產(chǎn)品特征、非本產(chǎn)品特征的類型、非本產(chǎn)品特征頻數(shù)統(tǒng)計結(jié)果保存到結(jié)果數(shù)組中;對于位置的后面的信息,與位置前面的信息處理結(jié)果相同;3.3對結(jié)果數(shù)組中的信息按照出現(xiàn)的頻數(shù)從大到小進(jìn)行排序,基于特征類型的層次結(jié)構(gòu),在結(jié)果數(shù)組中尋找本產(chǎn)品特征的類型的上層類型,則對應(yīng)的非本產(chǎn)品特征就是尋找的關(guān)聯(lián)特征;3.4遍歷產(chǎn)品特征結(jié)構(gòu)樹,當(dāng)不存在本產(chǎn)品特征時,將本產(chǎn)品特征-關(guān)系-關(guān)聯(lián)特征這個分支保存到分支數(shù)組中;當(dāng)存在本產(chǎn)品特征時,先判斷產(chǎn)品特征樹中是否存在該分支,當(dāng)不存在該分支時,將關(guān)聯(lián)特征作為本產(chǎn)品特征的子節(jié)點,添加到產(chǎn)品特征結(jié)構(gòu)樹中;否則,不變;3.5將分支數(shù)組中的本產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點進(jìn)行匹配,當(dāng)存在時,將該分支添加到樹中對應(yīng)節(jié)點上,并刪除分支數(shù)組中的該分支,整理數(shù)組;否則,不變;
步驟4,產(chǎn)品特征的定量分析:4.1統(tǒng)計優(yōu)化分詞結(jié)果中所有產(chǎn)品特征出現(xiàn)的頻數(shù);4.2基于產(chǎn)品特征結(jié)構(gòu)樹和已統(tǒng)計的產(chǎn)品特征頻數(shù),統(tǒng)計產(chǎn)品特征中部件特征的頻數(shù);4.3分析句法分析結(jié)果中產(chǎn)品特征的支配詞和上下文,查找情感詞、程度副詞和否定詞語素,計算產(chǎn)品特征的情感得分;4.4可視化產(chǎn)品特征頻數(shù)的統(tǒng)計結(jié)果和情感得分,分析用戶對產(chǎn)品的關(guān)注點;
步驟5,產(chǎn)品特征結(jié)構(gòu)樹的擴展:5.1對同義子節(jié)點的擴展,通過定量計算特征相似度的方法,計算新產(chǎn)生的產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點之間的相似度,來確定新產(chǎn)品特征的父節(jié)點,并將其添加到產(chǎn)品特征結(jié)構(gòu)樹中;5.2對隸屬子節(jié)點的擴展,通過定量計算特征相關(guān)度的方法,計算新產(chǎn)生的產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點之間的相關(guān)度,來確定新產(chǎn)品特征的父節(jié)點,并將其添加到產(chǎn)品特征結(jié)構(gòu)樹中。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟1中,對保存到本地數(shù)據(jù)庫的原始評論文本進(jìn)行預(yù)處理,其中預(yù)處理包括刪除冗余評論文本,刪除無中文的評論文本,刪除重復(fù)標(biāo)點,修改錯別字等操作。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟2中,對初次分詞結(jié)果通過新詞發(fā)現(xiàn)方法,識別領(lǐng)域新詞,其中新詞發(fā)現(xiàn)方法包括構(gòu)造重復(fù)串、頻率過濾、內(nèi)聚性過濾和左右熵過濾操作。其中,構(gòu)造重復(fù)串操作是以初始分詞結(jié)果為基礎(chǔ),利用N-Gram模型(N表示重復(fù)串的最大長度,由用戶設(shè)定),對初始分詞結(jié)果進(jìn)行詞頻統(tǒng)計、過濾、構(gòu)造操作;頻率過濾操作是將構(gòu)造的重復(fù)串中頻率低于設(shè)定值的部分過濾掉;內(nèi)聚性過濾操作是將頻率過濾后的重復(fù)串計算內(nèi)聚性,過濾掉內(nèi)聚性低于閾值的部分;左右熵過濾操作是計算內(nèi)聚性過濾后的重復(fù)串的左熵和右熵,若某一個熵值低于閾值,則將其過濾掉。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟2中,訓(xùn)練集是對從情感分析結(jié)果里隨機抽取的實驗語料中出現(xiàn)的產(chǎn)品特征進(jìn)行人工標(biāo)注。訓(xùn)練集的字段共六列,按順序排列分別是:詞形、詞性、依存關(guān)系、支配詞、支配詞的情感判斷、人工標(biāo)注的產(chǎn)品特征標(biāo)記。其中,產(chǎn)品特征的標(biāo)注符號集為{B,I,L,O,U},它們分別表示產(chǎn)品特征開頭(B),產(chǎn)品特征內(nèi)部(I),產(chǎn)品特征結(jié)尾(L),非產(chǎn)品特征(O)和單個產(chǎn)品特征(U)。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟2中,條件隨機場特征模板的制定,采用的模板類型是Unigram Template,特征模板分為兩類,為詞形特征對應(yīng)的特征模板(原子型)和依存關(guān)系特征、支配詞特征、支配詞的情感判斷特征對應(yīng)的特征模板(復(fù)合型)。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟3中,產(chǎn)品特征可分為五大類,分別表示“產(chǎn)品的整體”、“產(chǎn)品的部件”、“產(chǎn)品的屬性”、“產(chǎn)品的功用”和“產(chǎn)品的問題”,相應(yīng)地,我們將其命名為產(chǎn)品特征、部件特征、屬性特征、功用特征、問題特征。從產(chǎn)品的角度來看,這五類詞語之間是存在聯(lián)系的。在特征結(jié)構(gòu)樹中,用四種關(guān)系符描述五類產(chǎn)品特征之間的語義關(guān)系,分別是part-of、use-of、attribute-of和problem-of。另外,結(jié)合產(chǎn)品特征可能存在多個同義詞的實際情況,再定義一種關(guān)系符equal-to表示描述同義產(chǎn)品特征之間的關(guān)系。產(chǎn)品特征是從產(chǎn)品特征表中選取的,產(chǎn)品特征表是由產(chǎn)品特征和產(chǎn)品特征類型組成的。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,計算產(chǎn)品特征中部件特征的頻數(shù)是基于產(chǎn)品特征結(jié)構(gòu)樹,從葉子節(jié)點往根節(jié)點的方向計算的;除葉子節(jié)點外,部件特征的頻數(shù)計算公式為:
Sum部件=Sum同義+μ×(Sum屬性+Sum功用+Sum問題)
其中,Sum部件表示部件特征的頻數(shù);Sum同義表示子節(jié)點上與部件特征之間是equal-to關(guān)系的產(chǎn)品特征頻數(shù)之和;Sum屬性、Sum功用、Sum問題分別表示子節(jié)點上與部件特征之間是use-of、attribute-of、problem-of關(guān)系的產(chǎn)品特征頻數(shù)之和;μ表示隸屬節(jié)點的轉(zhuǎn)換率,范圍為[0,1]。以柱狀圖的形式將產(chǎn)品特征頻數(shù)統(tǒng)計結(jié)果進(jìn)行可視化。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,用戶的褒貶態(tài)度可以用詞語的情感傾向表達(dá);情感詞典中詞語來源于互聯(lián)網(wǎng),人工挑選了網(wǎng)絡(luò)中常用的情感詞。經(jīng)過情感極性判斷,將情感詞分為三類:褒義、中性、貶義,并對其進(jìn)行情感強度定義。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,1)如果一個產(chǎn)品特征在一條評論中出現(xiàn)多次,則只討論情感強度最大的情感詞;2)不同極性的情感詞,產(chǎn)品特征情感得分的計算方法是不同的;3)在計算一條用戶評論中的產(chǎn)品特征的情感得分時,根據(jù)情感詞極性的不同分為三種情況:
第一種情況:修飾產(chǎn)品特征的是褒義情感詞,情感得分為情感詞的情感強度;
第二種情況:修飾產(chǎn)品特征的是貶義情感詞,情感得分為情感詞的情感強度的負(fù)值;
第三種情況:修飾產(chǎn)品特征的是中性情感詞,情感得分的計算采用結(jié)合上下文語境的方法:以本條評論中所有情感詞的情感強度均值作為該產(chǎn)品特征的情感得分。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,程度副詞會影響情感詞的情感強度;程度副詞詞典是基于知網(wǎng)的程度級別詞語集,從中選取了部分詞語,并另外加入了一些網(wǎng)絡(luò)評論中常出現(xiàn)的程度副詞。人工地對程度副詞詞典中的詞語進(jìn)行強度定義。當(dāng)某個產(chǎn)品特征的支配詞是情感詞,且情感詞的前面3個詞語中存在程度副詞時,該產(chǎn)品特征的情感得分變?yōu)榍楦械梅趾统潭雀痹~強度的乘積;否則,情感得分不變。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,否定詞詞典中詞語來源于評論文本數(shù)據(jù)和網(wǎng)絡(luò)中常用的否定詞;在計算某條評論中產(chǎn)品特征的情感得分時,當(dāng)句子表達(dá)的是否定的意思時,僅依靠情感詞典往往會得到相反的結(jié)果,所以需要考慮句子中存在的否定詞。當(dāng)某個產(chǎn)品特征的支配詞是情感詞,且情感詞的前面4個詞語中存在否定詞時,該產(chǎn)品特征的情感得分變?yōu)榍楦械梅值呢?fù)值;否則,情感得分不變。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟4中,產(chǎn)品特征情感得分計算方法如下:
從語料庫中提取的產(chǎn)品特征組成了特征集合{fw1,fw2,...,fwn},對于每個產(chǎn)品特征fwi,定義了一個產(chǎn)品特征的情感得分Sco(fwi),范圍為[0,100],Sco(fwi)分值越高,說明用戶對該產(chǎn)品特征的評價越高,Sco(fwi)的計算公式為:
其中,a、b、c分別表示修飾產(chǎn)品特征fwi的情感詞為褒義、貶義、中性情感詞的評論條數(shù),ScoP(fwi)、ScoN(fwi)、ScoM(fwi)分別是計算褒義、貶義、中性情感詞得到的情感得分,它們的計算公式如下:
其中,PW(k)表示第k條評論中修飾產(chǎn)品特征fwi的褒義情感詞,Str(i,PW(k))表示產(chǎn)品特征fwi的第k個褒義情感詞的情感強度;NW(k)表示第k條評論中修飾產(chǎn)品特征fwi的貶義情感詞,Str(i,NW(k))表示產(chǎn)品特征fwi的第k個貶義情感詞的情感強度;p(k)、n(k)分別表示在修飾產(chǎn)品特征的情感詞為中性的第k條評論中,褒義情感詞的個數(shù)和貶義情感詞的個數(shù),PW(k,j)表示在修飾產(chǎn)品特征的情感詞為中性的第k條評論中的第j個褒義情感詞,NW(k,t)表示在修飾產(chǎn)品特征的情感詞為中性的第k條評論中的第t個褒義情感詞。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟5中,采用基于字面相似度的詞語相似性算法和基于語境的詞語相似性算法,計算兩個產(chǎn)品特征之間的相似性。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟5中,基于字面相似度的詞語相似性算法受數(shù)量因素和位置因素影響,其中,數(shù)量因素指兩個詞語之間含有相同漢字的個數(shù),位置因素指相同漢字在各個詞語中的位置權(quán)重。字面相似度的相似性計算方法如下:
假設(shè)A和B表示需要計算相似度的兩個產(chǎn)品特征,A和B之間的字面相似度記為SimWord(A,B),且0≤SimWord(A,B)≤1。則SimWord(A,B)的計算公式為:
其中,α和β分別表示數(shù)值因素相似度和位置因素相似度在整個詞語相似度中所占的權(quán)重系數(shù),且α+β=1;dp表示為兩個產(chǎn)品特征的漢字個數(shù)之比,且Weight(A,i)表示A中第i個漢字的權(quán)重,且|A|和|B|分別表示特征A和特征B所包含的漢字個數(shù);A(i)表示A中的第i個漢字;SameHZ(A,B)表示特征A和B中共同包含的相同漢字的集合,|SameHZ(A,B)|表示SameHZ(A,B)集合的大小,即特征A和B中共同包含的相同漢字的個數(shù)。
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟5中,基于語境的詞語相似度計算方法如下:產(chǎn)品特征Featurei用一個n維的向量表示為Featurei=(Si1,Si2,...,Sij,...,Sin),其中,Sij是Featurei與常用情感詞組中的第j個情感詞的共現(xiàn)頻率。將詞語相似度計算轉(zhuǎn)化為向量的相似度計算,兩個向量之間的相似度用夾角余弦來衡量,計算公式為
在上述的基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法中,在所述的步驟5中,通過計算新產(chǎn)生的產(chǎn)品特征與產(chǎn)品結(jié)構(gòu)樹中特征的相關(guān)度來確定新特征的父節(jié)點,相關(guān)度的計算公式為:
其中,F(xiàn)ab表示產(chǎn)品特征Featurea和Featureb的共現(xiàn)頻數(shù),F(xiàn)a和Fb表示每個產(chǎn)品特征單獨出現(xiàn)的頻數(shù)。
本發(fā)明可以獲取海量與指定產(chǎn)品相關(guān)的、多源異構(gòu)的網(wǎng)絡(luò)評論文本,經(jīng)過淺層和深層的中文文本信息處理技術(shù),提取產(chǎn)品特征;對提取的產(chǎn)品特征進(jìn)行構(gòu)建特征結(jié)構(gòu)樹、定量描述、產(chǎn)品特征結(jié)構(gòu)樹擴展等。利用本發(fā)明的方法,制造企業(yè)可以快速、有效的了解用戶使用產(chǎn)品過程中對產(chǎn)品各個方面的評價,可以有效減少及預(yù)防產(chǎn)品質(zhì)量安全事件對制造企業(yè)帶來的經(jīng)濟損失,全面提高制造企業(yè)對潛在的產(chǎn)品質(zhì)量安全危害的主動管理能力,提高企業(yè)在市場中的競爭力。
附圖說明:
圖1是本發(fā)明的整體流程圖。
圖2是本發(fā)明的語料庫獲取流程圖。
圖3是本發(fā)明的產(chǎn)品特征提取技術(shù)路線圖。
圖4是本發(fā)明的產(chǎn)品特征提取的數(shù)據(jù)表字段變化圖。
圖5是本發(fā)明的產(chǎn)品特征提取的評測結(jié)果圖。
圖6是本發(fā)明的產(chǎn)品特征類型的層次結(jié)構(gòu)圖。
圖7是本發(fā)明的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建原理圖。
圖8是本發(fā)明的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建示例流程圖。
圖9是本發(fā)明的部分產(chǎn)品特征結(jié)構(gòu)樹示例圖。
圖10是本發(fā)明在不同大小窗口的情況下,否定詞識別的實驗測評結(jié)果。
圖11是本發(fā)明的產(chǎn)品特征情感得分計算流程圖。
圖12是本發(fā)明的部分產(chǎn)品特征分布的定量描述柱狀圖。
圖13是本發(fā)明的部分產(chǎn)品特征分析的定量描述柱狀圖。
具體實施方式:
下面結(jié)合具體附圖對本發(fā)明作進(jìn)一步的說明。
本發(fā)明是對多源異構(gòu)的海量用戶評論文本進(jìn)行中文文本信息處理,提取產(chǎn)品特征,且對提取的特征進(jìn)行一系列分析操作,挖掘評論文本中蘊含的有價值的信息,提高制造企業(yè)的市場競爭力。
基于評論文本挖掘的產(chǎn)品特征結(jié)構(gòu)樹構(gòu)建方法,包括語料庫的獲取、產(chǎn)品特征的提取、產(chǎn)品特征結(jié)構(gòu)樹的構(gòu)建、產(chǎn)品特征的定量分析和產(chǎn)品特征結(jié)構(gòu)樹的擴展五個方面,如圖1所示。下面分別對這各個步驟進(jìn)行詳細(xì)的說明。
步驟1,語料庫的獲?。豪镁W(wǎng)絡(luò)爬蟲軟件,制定爬取規(guī)則,抓取與指定產(chǎn)品相關(guān)的電商網(wǎng)站以及論壇上的用戶評論文本,并對原始評論文本進(jìn)行預(yù)處理,以結(jié)構(gòu)化形式保存到數(shù)據(jù)庫中。
語料庫獲取的流程如圖2所示。制定網(wǎng)絡(luò)爬蟲的爬取規(guī)則,抓取相關(guān)的電商網(wǎng)站、論壇等平臺,獲得原始評論文本并存儲到本地數(shù)據(jù)庫中,對原始評論文本進(jìn)行刪除冗余評論文本,刪除無中文的評論文本,刪除重復(fù)標(biāo)點,修改錯別字等的預(yù)處理操作,得到語料庫。
步驟2,產(chǎn)品特征的提取:2.1利用分詞器對語料庫進(jìn)行初次分詞及詞性標(biāo)注,從初次分詞結(jié)果中通過新詞發(fā)現(xiàn)方法,識別領(lǐng)域新詞,并將其添加到用戶詞典中,再基于用戶詞典對語料庫進(jìn)行優(yōu)化分詞;2.2將優(yōu)化分詞結(jié)果進(jìn)行詞性標(biāo)注集轉(zhuǎn)換,用中文自然語言處理工具包對轉(zhuǎn)換后的優(yōu)化分詞結(jié)果進(jìn)行依存關(guān)系分析;2.3用整理的情感詞詞典對依存關(guān)系分析結(jié)果中的支配詞進(jìn)行標(biāo)注,得到以詞語為基本記錄單元的結(jié)構(gòu)化數(shù)據(jù);2.4將情感分析的結(jié)果分為訓(xùn)練集和測試集,制定條件隨機場特征模板,利用開源工具包,對已經(jīng)標(biāo)注產(chǎn)品特征的訓(xùn)練集進(jìn)行訓(xùn)練,生成條件隨機場模型,再利用該模型對測試集進(jìn)行產(chǎn)品特征標(biāo)注,并對測試結(jié)果進(jìn)行評測;2.5從語料庫中將標(biāo)記的產(chǎn)品特征提取出來。
本發(fā)明提供了從多源異構(gòu)的海量評論文本語料庫中快速、高效提取產(chǎn)品特征的方法,方法的技術(shù)流程圖如圖3所示。對語料庫依次進(jìn)行分詞及詞性標(biāo)注(初次分詞、識別領(lǐng)域新詞和優(yōu)化分詞操作)、句法分析(詞性標(biāo)注集轉(zhuǎn)換和依存關(guān)系轉(zhuǎn)換操作)、情感分析(情感詞標(biāo)注)、產(chǎn)品特征標(biāo)注(條件隨機場模型訓(xùn)練和利用模型處理數(shù)據(jù))和產(chǎn)品特征提取等操作,各操作步驟結(jié)束后數(shù)據(jù)庫表的字段變化如圖4所示,具體分析各個操作步驟如下:
分詞及詞性標(biāo)注操作是現(xiàn)代自然語言處理工作的基礎(chǔ)。隨著社會的發(fā)展,出現(xiàn)了很多新詞,未更新的分詞器就不能識別詞語,一般要將它分開成為2個詞,這使得分詞結(jié)果不能滿足實驗的要求。為了解決這個問題,我們引入新詞發(fā)現(xiàn)技術(shù),在對語料庫通過分詞器進(jìn)行初次分詞后(評論記錄被分成一個一個的詞語記錄,表格字段共2列,分別是詞形和詞性),對初次分詞結(jié)果進(jìn)行構(gòu)造重復(fù)串、頻率過濾、內(nèi)聚性過濾和左右熵過濾等四步操作,識別出部分領(lǐng)域新詞,再通過人工刪選、詞性標(biāo)注,將新詞添加到用戶詞典中;用擴充的用戶詞典,再對語料庫進(jìn)行優(yōu)化分詞(基于用戶詞典,評論記錄被分成詞語記錄,表格字段也是詞形和詞性這2列),從而提高分詞的準(zhǔn)確率。
由于分詞器與中文自然語言處理工具包使用的詞性標(biāo)注集不同,在進(jìn)行依存關(guān)系分析之前,要先對經(jīng)過詞性標(biāo)注的語料庫進(jìn)行詞性標(biāo)注集轉(zhuǎn)換,為接下來的操作做準(zhǔn)備工作。中科院的分詞器采用教育部語用所詞性標(biāo)記集(共計99個,22個一類,66個二類,11個三類),而中文自然語言處理工具包采用863詞性標(biāo)注集,共劃分出28種詞性。根據(jù)人工整理的一套標(biāo)注集的轉(zhuǎn)換規(guī)則進(jìn)行轉(zhuǎn)換,使詞性符合實驗要求。
依存句法分析認(rèn)為:句子中的述語動詞或形容詞是句子的核心詞,它不受其它任何詞語的支配,而除核心詞之外的所有詞語都受另一個詞語的支配,這種支配用詞與詞之間的依存關(guān)系來表示。一個依存關(guān)系連接兩個詞,其中一個是支配詞,另一個是從屬詞,依存關(guān)系的類型表明了支配詞與從屬詞之間的依存關(guān)系類型。依存句法分析可以反映出句子各成分之間的語義修飾關(guān)系,可以獲得長距離的搭配信息,并與句子成分的物理位置無關(guān)。依存關(guān)系對產(chǎn)品特征的識別起到了一定的幫助作用。此時表格的字段共4列,分別是詞形、詞性、依存關(guān)系和支配詞。
通過人工整理的情感詞典對依存關(guān)系分析結(jié)果中的支配詞進(jìn)行情感標(biāo)注,判斷該支配詞是否是情感詞,當(dāng)是情感詞時,則將它標(biāo)記為“Y”,反之則標(biāo)記為“N”。此時表格的字段共5列,分別是詞形、詞性、依存關(guān)系、支配詞和支配詞的情感判斷。
將情感分析結(jié)果隨機抽取一些記錄成為訓(xùn)練集,則剩余記錄為測試集。對訓(xùn)練集進(jìn)行人工標(biāo)注產(chǎn)品特征,利用訓(xùn)練集訓(xùn)練出條件隨機場模型,再利用模型對測試集進(jìn)行特征標(biāo)記,然后刪選、提取出產(chǎn)品特征。訓(xùn)練集的字段共6列,分別是詞形、詞性、依存關(guān)系、支配詞、支配詞的情感判斷和人工標(biāo)注的產(chǎn)品特征標(biāo)記,其中產(chǎn)品特征的標(biāo)注符號集為{B,I,L,O,U},它們分別表示產(chǎn)品特征開頭(B),產(chǎn)品特征內(nèi)部(I),產(chǎn)品特征結(jié)尾(L),非產(chǎn)品特征(O),單個產(chǎn)品特征(U)。利用條件隨機場開源工具包進(jìn)行訓(xùn)練,訓(xùn)練出Model文件,對測試集進(jìn)行特征標(biāo)注。而測試集的字段共7列,分別是詞形、詞性、依存關(guān)系、支配詞、支配詞的情感判斷、計算機程序自動標(biāo)注的產(chǎn)品特征標(biāo)記和訓(xùn)練出的模型標(biāo)注的產(chǎn)品特征標(biāo)記。
為了對產(chǎn)品特征的提取效果進(jìn)行測評,采用了三個最常用的測評指標(biāo):準(zhǔn)確率(P)、召回率(R)和F指標(biāo)。一般情況下,準(zhǔn)確率和召回率是相互制約的,提高準(zhǔn)確率的同時會使召回率降低,反之亦然,所以只用準(zhǔn)確率和召回率這兩個測評指標(biāo)無法綜合衡量產(chǎn)品產(chǎn)品特征的提取效果,還需要使用兩者的調(diào)和均值:F指標(biāo)。三個指標(biāo)的公式如下:
其中,N1表示在測試語料中,人工標(biāo)記為產(chǎn)品特征的詞語總個數(shù);N2表示在測試語料中,模型標(biāo)記為產(chǎn)品特征的詞語總個數(shù);N3表示在測試語料中,人工標(biāo)記和模型標(biāo)記均為產(chǎn)品特征,且標(biāo)記符號相同的詞語總個數(shù),也就是說,人工標(biāo)記和模型標(biāo)記必須同時是B、I、L、U中的一種,如果人工標(biāo)記為B,而模型標(biāo)記為U,則不計入N3。圖5就是通過PER測評工具對使用了CRF++進(jìn)行產(chǎn)品特征提取數(shù)據(jù)庫進(jìn)行的效果測評結(jié)果圖。
步驟3,產(chǎn)品特征結(jié)構(gòu)樹的構(gòu)建:3.1定義產(chǎn)品特征的類型,構(gòu)建特征類型的層次結(jié)構(gòu);3.2對于每個產(chǎn)品特征,定位它在優(yōu)化分詞結(jié)果中的位置,對于位置的前面的信息,統(tǒng)計在同一條評論語句中、且是第一個能與產(chǎn)品特征表匹配的、不是本產(chǎn)品特征的產(chǎn)品特征出現(xiàn)的頻數(shù),將匹配的非本產(chǎn)品特征、非本產(chǎn)品特征的類型、非本產(chǎn)品特征頻數(shù)統(tǒng)計結(jié)果保存到結(jié)果數(shù)組中;對于位置的后面的信息,與位置前面的信息處理結(jié)果相同;3.3對結(jié)果數(shù)組中的信息按照出現(xiàn)的頻數(shù)從大到小進(jìn)行排序,基于特征類型的層次結(jié)構(gòu),在結(jié)果數(shù)組中尋找本產(chǎn)品特征的類型的上層類型,則對應(yīng)的非本產(chǎn)品特征就是尋找的關(guān)聯(lián)特征;3.4遍歷產(chǎn)品特征結(jié)構(gòu)樹,當(dāng)不存在本產(chǎn)品特征時,將本產(chǎn)品特征-關(guān)系-關(guān)聯(lián)特征這個分支保存到分支數(shù)組中;當(dāng)存在本產(chǎn)品特征時,先判斷產(chǎn)品特征樹中是否存在該分支,當(dāng)不存在該分支時,將關(guān)聯(lián)特征作為本產(chǎn)品特征的子節(jié)點,添加到產(chǎn)品特征結(jié)構(gòu)樹中;否則,不變;3.5將分支數(shù)組中的本產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點進(jìn)行匹配,當(dāng)存在時,將該分支添加到樹中對應(yīng)節(jié)點上,并刪除分支數(shù)組中的該分支,整理數(shù)組;否則,不變。
如圖6所示,產(chǎn)品特征分為產(chǎn)品特征、部件特征、屬性特征、功用特征、問題特征五大類;在特征結(jié)構(gòu)樹中,用五種關(guān)系符描述各類產(chǎn)品特征之間的語義關(guān)系,分別是part-of、attribute-of、use-of、problem-of和equal-to。下面對每種關(guān)系符的含義和適用范圍進(jìn)行說明:
(1)part-of:如“A part-of B”,表示B是A的部件特征,其中B是部件產(chǎn)品特征,A是部件產(chǎn)品特征或產(chǎn)品產(chǎn)品特征;
(2)attribute-of:如“A attribute-of B”,表示A是B的屬性特征,其中A是屬性產(chǎn)品特征,B是部件產(chǎn)品特征或產(chǎn)品產(chǎn)品特征;
(3)use-of:如“A use-of B”,表示A是B的功用特征,其中A是功用產(chǎn)品特征,B是部件產(chǎn)品特征或產(chǎn)品產(chǎn)品特征;
(4)problem-of:如“A problem-of B”,表示A是B的問題特征,其中A是問題產(chǎn)品特征,B是部件產(chǎn)品特征或產(chǎn)品產(chǎn)品特征;
(5)equal-to,如“A equal-to B”,表示A是B的同義詞。
圖7是產(chǎn)品特征結(jié)構(gòu)樹構(gòu)造的原理圖,概括地描述就是在優(yōu)化分詞結(jié)果中找到每個產(chǎn)品特征的關(guān)聯(lián)特征,并保存到特征結(jié)構(gòu)樹數(shù)據(jù)庫表中。如圖7所示,遍歷分詞結(jié)果,定位產(chǎn)品特征的位置,找到與產(chǎn)品特征A在同一條評論中、在A的位置前面、且是第一個非A的產(chǎn)品特征Ai,統(tǒng)計各個Ai出現(xiàn)的頻數(shù),將Ai、Ai的類型、Ai的頻數(shù)保存到list結(jié)構(gòu)中;找到與產(chǎn)品特征A在同一條評論中、在A的位置后面、且是第一個非A的產(chǎn)品特征Ai,統(tǒng)計各個Ai出現(xiàn)的頻數(shù),將Ai、Ai的類型、Ai的頻數(shù)保存到list結(jié)構(gòu)中;遍歷完優(yōu)化分詞結(jié)果后,Ai按出現(xiàn)的頻數(shù)從大到小的順序進(jìn)行排序,根據(jù)特征類型層次結(jié)構(gòu)和產(chǎn)品特征A的類型T,從排序結(jié)果中找到第一個T的上一層類型T1,則該T1所對應(yīng)的產(chǎn)品特征A1就是產(chǎn)品特征A的關(guān)聯(lián)特征;根據(jù)產(chǎn)品特征A、A和A1之間的關(guān)系relation、關(guān)聯(lián)特征A1組成結(jié)構(gòu)樹的分支,判斷特征結(jié)構(gòu)樹是否存在產(chǎn)品特征A,當(dāng)不存在時,將A-relation-A1分支保存到分支數(shù)組中;當(dāng)存在時,判斷特征結(jié)構(gòu)樹是否存在該分支,當(dāng)不存在時,將A1添加到A的子節(jié)點上;當(dāng)存在時,不變;再次遍歷特征結(jié)構(gòu)樹和分支數(shù)組,判斷分支數(shù)組中的產(chǎn)品特征A是否能與產(chǎn)品特征結(jié)構(gòu)樹上的節(jié)點匹配,當(dāng)能匹配時,將匹配的分支添加到結(jié)構(gòu)樹上,刪除分支數(shù)組中的該條記錄;當(dāng)不匹配時,則不變。
圖8是以產(chǎn)品特征之一的“屏幕”為例說明尋找關(guān)聯(lián)特征步驟的流程圖,使我們能詳細(xì)的了解每個步驟的執(zhí)行。如圖8所示,尋找關(guān)聯(lián)特征步驟如下:從featureword表(存放產(chǎn)品特征的表)中取出產(chǎn)品特征---屏幕和它的類型---部件,對total_fenci表(存放優(yōu)化分詞結(jié)果的表)進(jìn)行遍歷,定位屏幕在total_fenci表中的位置---第j條評論的第k位置,在第j條評論中,從第k-1位置開始往前尋找第一個產(chǎn)品特征Af,遍歷featureword表,找到Af的類型lx,將Af存到data的list中,當(dāng)data中存在Af時,則將頻數(shù)結(jié)果+1;當(dāng)data中不存在Af時,將Af、lx和1保存到data中;從第k+1位置開始往后的操作與往前操作相同;然后,判斷第j條評論中是否還有存在屏幕,當(dāng)存在時,操作與前一個屏幕的操作相同;當(dāng)不存在時,則判斷優(yōu)化分詞結(jié)果是否遍歷完,當(dāng)沒有遍歷完時,繼續(xù)向下遍歷,定位下一個屏幕的位置;當(dāng)遍歷完時,將data中的信息按Af出現(xiàn)的頻數(shù)從大到小排序;接著,遍歷data,當(dāng)出現(xiàn)Af的類型lx為產(chǎn)品名時,lx對應(yīng)的Af就是屏幕的關(guān)聯(lián)特征。
圖9是部分產(chǎn)品特征結(jié)構(gòu)樹的示例圖,反映了數(shù)據(jù)庫表中記錄的存儲形式,為接下來的產(chǎn)品特征定量分析和特征結(jié)構(gòu)樹的擴展提供研究對象,特征結(jié)構(gòu)樹的節(jié)點表示產(chǎn)品特征,枝干方向是從根節(jié)點到葉子節(jié)點,枝干表示兩個節(jié)點之間的關(guān)系。
步驟4,產(chǎn)品特征的定量分析:4.1統(tǒng)計優(yōu)化分詞結(jié)果中所有產(chǎn)品特征出現(xiàn)的頻數(shù);4.2基于產(chǎn)品特征結(jié)構(gòu)樹和已統(tǒng)計的產(chǎn)品特征頻數(shù),統(tǒng)計產(chǎn)品特征中部件特征的頻數(shù);4.3分析句法分析結(jié)果中產(chǎn)品特征的支配詞和上下文,查找情感詞、程度副詞和否定詞語素,計算產(chǎn)品特征的情感得分;4.4可視化產(chǎn)品特征頻數(shù)的統(tǒng)計結(jié)果和情感得分,分析用戶對產(chǎn)品的關(guān)注點。
在提取句子中的否定詞時,我們以情感詞為中心,在其情感詞的前面查找否定詞,當(dāng)找到否定詞時,情感詞的極性取反;否則,不變。查找范圍是由以情感詞為中心的檢測窗口決定。為了確定窗口的大小,我們選取了評論數(shù)據(jù)中一定數(shù)量的帶有否定詞的用戶評論作為實驗語料,進(jìn)行了六組不同大小窗口的否定詞識別實驗,實驗結(jié)果用準(zhǔn)確率(P)、召回率(R)和F值進(jìn)行測評,其中,準(zhǔn)確率(P)、召回率(R)和F值的計算方法如下:
其中,F(xiàn)1表示測試集中存在的否定句總數(shù),F(xiàn)2表示程序識別出的否定句總數(shù),F(xiàn)3表示程序正確識別的否定句總數(shù)。
如圖10所示,根據(jù)測試結(jié)果,我們可以發(fā)現(xiàn)準(zhǔn)確率(P)隨著窗口的增大而減小,召回率(R)隨著窗口的增大而變大,當(dāng)窗口大小為4時,綜合指標(biāo)F值最大,所以最佳窗口的大小為4。由此,我們設(shè)定查找情感詞的否定詞是在情感詞位置的上面四個詞語的范圍內(nèi)。同理,我們可以通過實驗知道程度副詞的最佳窗口是3,所以設(shè)置查找情感詞的程度副詞是在情感詞位置的上面三個詞語的范圍內(nèi)。
圖11是產(chǎn)品特征情感得分的計算流程圖。如圖11所示,從Featurewordtree表(保存產(chǎn)品特征結(jié)構(gòu)樹節(jié)點信息的表)中取一個節(jié)點A,對jufafenxi表(保存句法分析結(jié)果的表)進(jìn)行遍歷,定位A在句法分析中的位置,尋找A相應(yīng)的支配詞Z;判斷Z是否是情感詞,當(dāng)Z不是情感詞時,定位下一個A的位置,重復(fù)上述步驟;當(dāng)Z是情感詞時,遍歷情感詞詞典,獲得Z的類型和情感強度S,判斷Z的類型,當(dāng)Z的類型是P(褒義)時,Z的情感強度就是S;當(dāng)Z的類型是N(貶義)時,Z的情感強度就是-S;當(dāng)Z的類型是P(中性)時,Z的情感強度就是A所在評論的全部情感詞的情感強度的算術(shù)平均數(shù);在A所在位置的后面且在一條評論中尋找離A最近的情感詞Q,判斷Q的前面三個詞語是否有程度副詞D,當(dāng)有程度副詞D時,遍歷程度副詞表獲得D的強度SD,則產(chǎn)品特征A的情感得分S變?yōu)镾D×S;當(dāng)沒有程度副詞D時,不變;接著判斷Q的前面四個詞語是否有否定詞N,當(dāng)有否定詞N時,產(chǎn)品特征A的情感得分S變?yōu)?S;當(dāng)不存在否定詞N時,不變;然后,判斷該條評論中是否還存在A,當(dāng)存在時,計算出A的情感強度Si,比較各個Si的大小,取最大的S作為產(chǎn)品特征A的情感得分;當(dāng)不存在時,則不執(zhí)行操作;接著,將情感得分S存到Featurewordtree表中相對應(yīng)的位置,判斷jufafenxi表是否已經(jīng)遍歷完,當(dāng)沒遍歷完時,重復(fù)以上步驟;當(dāng)遍歷完時,判斷是否遍歷完Featurewordtree表,當(dāng)遍歷完時,結(jié)束程序;當(dāng)沒有遍歷完時,從Featurewordtree表中取下一個產(chǎn)品特征,重復(fù)上述步驟,直到遍歷完Featurewordtree表。
圖12是產(chǎn)品特征的定量描述的結(jié)果,我們將之進(jìn)行可視化,讓我們直觀地了解各種統(tǒng)計結(jié)果。柱狀圖的橫坐標(biāo)表示產(chǎn)品特征,縱坐標(biāo)表示產(chǎn)品特征出現(xiàn)的頻數(shù),在每個柱形條上顯示了產(chǎn)品特征對應(yīng)的頻數(shù)結(jié)果。圖13是產(chǎn)品特征分析的定量描述,柱狀圖的橫坐標(biāo)表示產(chǎn)品特征,縱坐標(biāo)表示產(chǎn)品特征的情感得分,在每個柱形條上顯示了產(chǎn)品特征對應(yīng)的情感得分計算結(jié)果。
步驟5,產(chǎn)品特征結(jié)構(gòu)樹的擴展:5.1對同義子節(jié)點的擴展,通過定量計算特征相似度的方法,計算新產(chǎn)生的產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點之間的相似度,來確定新產(chǎn)品特征的父節(jié)點,并將其添加到產(chǎn)品特征結(jié)構(gòu)樹中;5.2對隸屬子節(jié)點的擴展,通過定量計算特征相關(guān)度的方法,計算新產(chǎn)生的產(chǎn)品特征與產(chǎn)品特征結(jié)構(gòu)樹中的節(jié)點之間的相關(guān)度,來確定新產(chǎn)品特征的父節(jié)點,并將其添加到產(chǎn)品特征結(jié)構(gòu)樹中。
在評論數(shù)據(jù)更新時,會產(chǎn)生新的產(chǎn)品特征,這時候需要對產(chǎn)品特征結(jié)構(gòu)樹進(jìn)行擴展。特征結(jié)構(gòu)樹的擴展分為兩類,一類是基于詞語相似性的同義子節(jié)點擴展,同義子節(jié)點指與父節(jié)點詞義相同的產(chǎn)品特征,所以新加入的產(chǎn)品特征與其父節(jié)點的語義關(guān)系為equal-to,另一類是基于詞語相關(guān)性的隸屬子節(jié)點擴展,隸屬子節(jié)點指與父節(jié)點是上下位關(guān)系的產(chǎn)品特征,隸屬子節(jié)點與其父節(jié)點的語義關(guān)系為part-of、attribute-of、use-of和problem-of中的一種,具體的取值由產(chǎn)品特征的種類確定。
本發(fā)明能夠利用爬蟲軟件抓取網(wǎng)絡(luò)上與指定產(chǎn)品相關(guān)的用戶評論數(shù)據(jù),并從中發(fā)現(xiàn)蘊含著的有價值的產(chǎn)品信息,改進(jìn)產(chǎn)品的設(shè)計,使得產(chǎn)品更符合人機關(guān)系。利用本發(fā)明的方法,制造企業(yè)可以快速、有效地了解用戶反饋的使用產(chǎn)品信息,有助于進(jìn)行用戶與企業(yè)之間的對話,幫助企業(yè)進(jìn)行產(chǎn)品設(shè)計的改進(jìn)。