一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法
【專利摘要】本發(fā)明涉及一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,該系統(tǒng)包括:評論數(shù)據(jù)預處理模塊,用于抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,將評論數(shù)據(jù)轉化成句子集合;單位情感信息度量模塊,用于計算每個單位的情感信息量;句子情感信息度量模塊,用于計算每個句子的情感信息量;以及情感文摘生成模塊,用于根據(jù)句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。該系統(tǒng)及方法有利于從評論數(shù)據(jù)中提取包含主流情感信息的情感文摘,準確度高,適應范圍廣。
【專利說明】一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法
【技術領域】
[0001]本發(fā)明涉及產品領域的情感文摘【技術領域】,更具體地,涉及一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,適用于歸納總結各產品的評論數(shù)據(jù),幫助用戶快速了解廣品的關鍵/[目息。
【背景技術】
[0002]情感文摘旨在提取具有明顯傾向性的情感信息。情感信息的度量是獲取情感文摘的主要步驟。在現(xiàn)有技術中,存在一些度量文摘中情感信息的方法。然而這些方法大多數(shù)是根據(jù)評價對象、評價詞、極性來度量情感信息,并不足以表達情感信息的情感強度。這是因為,如果兩個句子擁有同樣的評價對象,評價對象所對應評價詞的極性也是一樣的,但是極性強度不一樣,評論者所表達觀點的情感強弱也不一樣。
[0003]同時,情感文摘中應該包含盡可能多的產品屬性及其觀點,且文摘句子之間冗余信息應盡可能少,即多樣性。目前,存在一些方法用于解決文本文摘中多樣性問題。Wan等提出基于manifold-ranking的方法,先根據(jù)manifold-ranking算法計算句子和查詢之間的相關度,選擇排名最高的句子放進摘要中,接著加入懲罰函數(shù),度量剩下句子和文摘句子之間的重疊值。Fukumoto等提出采用譜聚類的方法代替K-means算法,實現(xiàn)降維去噪的目的,而且使得分類更準確,從而提高文摘結果的準確度。Yan等把多樣性的問題轉化為兩個詞分布之間的相似度問題,根據(jù)Kullback-Leibler散度的方法進行度量。然而,以上的方法大多適用于傳統(tǒng)文檔文摘,然而對于產品領域的情感文摘,用戶更多關注的是評論者對產品屬性所表達的觀點。
[0004]因此,圍繞這兩個問題,引入極性強度,同時結合評價對象、評價短語等情感元素,分析這些情感元素對情感信息中情感強弱、多樣性問題的影響,提出相對應的解決方案,以提高中文情感文摘的精度。
【發(fā)明內容】
[0005]本發(fā)明的目的在于提供一種用于度量主流情感信息的中文情感文摘系統(tǒng)及方法,該系統(tǒng)及方法有利于從評論數(shù)據(jù)中提取包含主流情感信息的情感文摘,準確度高,適應范圍廣。
[0006]為實現(xiàn)上述目的,本發(fā)明的技術方案是:一種用于度量主流情感信息的中文情感文摘系統(tǒng),該系統(tǒng)包括:
評論數(shù)據(jù)預處理模塊,用于抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,所述評價對象數(shù)據(jù)結構包含以下信息:評價對象、該評價對象在評論數(shù)據(jù)中對應的所有評價短語構成的集合即評價短語集合、該評價對象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評價短語集合中的元素一一對應,第一數(shù)組中每個元素表示所對應評價短語在評論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個元素表示所對應評價短語和該評價對象在評論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個元素表示所對應評價短語的情感強度等級,第四數(shù)組中包括η個元素,表示該評價對象與η類情感強度等級之間的情感信息量;將評論數(shù)據(jù)轉化成句子集合,所述句子集合中的每個元素與評論數(shù)據(jù)中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數(shù)據(jù)中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量;
單位情感信息度量模塊,用于計算每個單位的情感信息量:以評論數(shù)據(jù)預處理模塊構建的評價對象數(shù)據(jù)結構作為輸入,對于每個評價對象,根據(jù)情感強度等級不同對評價短語進行分類,然后計算評價對象和每一類評價短語的情感信息量,獲取評價對象和η類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量;
句子情感信息度量模塊,用于計算每個句子的情感信息量:以句子集合和單位情感信息度量模塊處理后的評價對象數(shù)據(jù)結構作為輸入,先利用聚類算法對所有的句子進行分類,使內容相似的句子聚類,獲得每個句子的類別,每個類別的情感信息量根據(jù)每個類別所包含的單位進行計算,句子和類別之間的關聯(lián)程度也根據(jù)句子和類別所包含的單位進行計算,句子之間的關聯(lián)程度根據(jù)句子所包含單位之間的距離進行計算,最后迭代求取每個句子的情感信息量;以及
情感文摘生成模塊,用于生成情感文摘:以句子情感信息度量模塊處理后的句子集合作為輸入,根據(jù)句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。
[0007]進一步的,所述評論數(shù)據(jù)預處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對評論數(shù)據(jù)進行解析,即對評論數(shù)據(jù)進行分句、句法結構分析,所述抽取模塊采用基于規(guī)則的無監(jiān)督方法對句法分析器解析的結果進行處理,抽取評價對象及其對應的評價短語,組成〈評價對象,評價短語 > 對,然后使用情感強度等級模塊計算評價短語對應的情感強度等級,將〈評價對象,評價短語 > 對轉化為由評價對象及其對應的情感強度等級構成的單位,并建立所述評價對象數(shù)據(jù)結構和句子集合。
[0008]進一步的,所述情感強度等級模塊按如下方法計算評價短語的情感強度等級:評價短語由評價詞和修飾副詞組成,從情感詞典中獲取評價詞的極性強度,并根據(jù)評價詞和修飾副詞之間的關系,形成一定的評定規(guī)則,然后根據(jù)所述評定規(guī)則計算評價短語的極性強度,并將評價短語的極性強度離散化為η個情感強度等級,進而得到評價短語的情感強度等級。
[0009]本發(fā)明還提供了 一種用于度量主流情感信息的中文情感文摘方法,該方法包括以下步驟:
步驟(I)評論數(shù)據(jù)預處理模塊抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,所述評價對象數(shù)據(jù)結構包含以下信息:評價對象、該評價對象在評論數(shù)據(jù)中對應的所有評價短語構成的集合、該評價對象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評價短語集合中的元素一一對應,第一數(shù)組中每個元素表示所對應評價短語在評論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個元素表示所對應評價短語和該評價對象在評論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個元素表示所對應評價短語的情感強度等級,第四數(shù)組中包括η個元素,表示該評價對象與η類情感強度等級之間的情感信息量;將評論數(shù)據(jù)轉化成句子集合,所述句子集合中的每個元素與評論數(shù)據(jù)中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數(shù)據(jù)中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量;
步驟(2)單位情感信息度量模塊接收評論數(shù)據(jù)預處理模塊構建的評價對象數(shù)據(jù)結構,計算每個單位的情感信息量:對于每個評價對象,根據(jù)情感強度等級不同對評價短語進行分類,然后計算評價對象和每一類評價短語的情感信息量,獲取評價對象和η類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量;
步驟(3)句子情感信息度量模塊接收句子集合和單位情感信息度量模塊處理后的評價對象數(shù)據(jù)結構,計算每個句子的情感信息量:先利用聚類算法對所有的句子進行分類,使內容相似的句子聚類,獲得每個句子的類別,每個類別的情感信息量根據(jù)每個類別所包含的單位進行計算,句子和類別之間的關聯(lián)程度也根據(jù)句子和類別所包含的單位進行計算,句子之間的關聯(lián)程度根據(jù)句子所包含單位之間的距離進行計算,最后迭代求取每個句子的情感信息量;
步驟(4)情感文摘生成模塊接收句子情感信息度量模塊處理后的句子集合,根據(jù)句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。
[0010]進一步的,所述步驟(I)中,由評價短語計算情感強度等級的方法如下:評價短語由評價詞和修飾副詞組成,從情感詞典中獲取評價詞的極性強度,并根據(jù)評價詞和修飾副詞之間的關系,形成一定的評定規(guī)則,然后根據(jù)所述評定規(guī)則計算評價短語的極性強度,并將評價短語的極性強度離散化為η個情感強度等級,進而得到評價短語的情感強度等級。
[0011]本發(fā)明的有益效果是提出了一種面向產品領域的中文情感文摘系統(tǒng)及方法,該系統(tǒng)及方法能夠高效、準確地從評論數(shù)據(jù)中提取包含主流情感信息的情感文摘,滿足主流性、多樣性、冗余性要求,即情感文摘中的每個產品屬性的觀點是大多數(shù)評論者贊同的,情感文摘的內容包含盡可能多的產品屬性及其觀點,情感文摘中每個句子之間冗余信息盡可能少,使用效果好,具有很強的實用性和廣闊的應用前景。
【專利附圖】
【附圖說明】
[0012]圖1是本發(fā)明系統(tǒng)的結構示意圖。
【具體實施方式】
[0013]下面結合附圖及具體實施例對本發(fā)明作進一步的詳細說明。
[0014]本發(fā)明用于度量主流情感信息的中文情感文摘系統(tǒng),如圖1所示,包括評論數(shù)據(jù)預處理模塊、單位情感信息度量模塊、句子情感信息度量模塊和情感文摘生成模塊。
[0015]所述評論數(shù)據(jù)預處理模塊,抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,所述評價對象數(shù)據(jù)結構包含以下信息:評價對象、該評價對象在評論數(shù)據(jù)中對應的所有評價短語構成的集合(即評價短語集合)、該評價對象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評價短語集合中的元素一一對應,第一數(shù)組中每個元素表示所對應評價短語在評論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個元素表示所對應評價短語和該評價對象在評論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個元素表示所對應評價短語的情感強度等級,第四數(shù)組中包括5個元素,表示該評價對象與5類情感強度等級之間的情感信息量;將評論數(shù)據(jù)轉化成句子集合,所述句子集合中的每個元素與評論數(shù)據(jù)中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數(shù)據(jù)中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量。在評價對象數(shù)據(jù)結構中,評價對象和第三數(shù)組中的每個元素,組成I個單位。第四數(shù)組用于記錄評價對象和每類情感強度等級(即單位)的情感信息量。
[0016]所述評論數(shù)據(jù)預處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對評論數(shù)據(jù)進行解析,即對評論數(shù)據(jù)進行分句、句法結構分析,所述抽取模塊采用基于規(guī)則的無監(jiān)督方法對句法分析器解析的結果進行處理,抽取評價對象及其對應的評價短語,組成〈評價對象,評價短語 > 對,然后使用情感強度等級模塊計算評價短語對應的情感強度等級,將〈評價對象,評價短語 > 對轉化為由評價對象及其對應的情感強度等級構成的單位,并建立所述評價對象數(shù)據(jù)結構和句子集合。
[0017]所述情感強度等級模塊按如下方法計算評價短語的情感強度等級:評價短語由評價詞和修飾副詞組成,修飾副 詞分為程度副詞和否定副詞,能夠對評價詞的極性強度起到增大、減小、置反的作用,從已存在的情感詞典(SentiWordnet 1.0版)中獲取評價詞的極性強度,并根據(jù)評價詞和修飾副詞之間的關系,形成一定的評定規(guī)則,然后根據(jù)所述評定規(guī)則計算評價短語的極性強度,極性強度的范圍在[_1,1]之間,為了更準確地表達語義,將評價短語的極性強度離散化為5個情感強度等級,進而得到評價短語的情感強度等級。
[0018]所述單位情感信息度量模塊,計算每個單位的情感信息量:以評論數(shù)據(jù)預處理模塊構建的評價對象數(shù)據(jù)結構作為輸入,對于每個評價對象,根據(jù)情感強度等級不同對評價短語進行分類,然后計算評價對象和每一類評價短語的情感信息量,獲取評價對象和5類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量。
[0019]下面進一步描述單位情感信息度量模塊是如何計算單位的情感信息量。主要思想是根據(jù)逐點交互信息理論表達評價對象和情感強度等級之間的關聯(lián)程度。逐點交互信息值越高,兩個者之間的關聯(lián)程度越大,逐點交互信息值越低,關聯(lián)程度越低。用兩者之間的關聯(lián)程度的高低表示情感信息量的大小。
[0020]在評論數(shù)據(jù)中,評價對象t,其對應評價短語集合為E。評價短語集合根據(jù)情感強度等級分成m個評價短語子集,即m類。如果評價對象t和第k類的評價短語子集的逐點交互信息值大,那么評價對象t與第k類評價短語子集的關聯(lián)程度大,第k類所對應的情感強度等級就是語料中大多數(shù)評論者對評價對象t表達的情感強度。
[0021]具體步驟:
1.遍歷評論數(shù)據(jù),統(tǒng)計各個評價對象出現(xiàn)的數(shù)目Targetnum,各個評價短語的出現(xiàn)數(shù)目Phrasesnum,各個 < 評價對象,評價短語 > 出現(xiàn)的數(shù)目Tpnum ;
2.初始化每一個I(^Pj)=O;
3.for (對于每一個評價對象tj{
計算評價對象在評論數(shù)據(jù)中的概率: p(h、;
for (ti對應的評價短語集合中的每一個評價短語ej {
計算評價短語在評論數(shù)據(jù)中的概率:
【權利要求】
1.一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,該系統(tǒng)包括: 評論數(shù)據(jù)預處理模塊,用于抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,所述評價對象數(shù)據(jù)結構包含以下信息:評價對象、該評價對象在評論數(shù)據(jù)中對應的所有評價短語構成的集合即評價短語集合、該評價對象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評價短語集合中的元素一一對應,第一數(shù)組中每個元素表示所對應評價短語在評論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個元素表示所對應評價短語和該評價對象在評論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個元素表示所對應評價短語的情感強度等級,第四數(shù)組中包括η個元素,表示該評價對象與η類情感強度等級之間的情感信息量;將評論數(shù)據(jù)轉化成句子集合,所述句子集合中的每個元素與評論數(shù)據(jù)中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數(shù)據(jù)中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量; 單位情感信息度量模塊,用于計算每個單位的情感信息量:以評論數(shù)據(jù)預處理模塊構建的評價對象數(shù)據(jù)結構作為輸入,對于每個評價對象,根據(jù)情感強度等級不同對評價短語進行分類,然后計算評價對象和每一類評價短語的情感信息量,獲取評價對象和η類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量; 句子情感信息度量模塊,用于計算每個句子的情感信息量:以句子集合和單位情感信息度量模塊處理后的評價對象數(shù)據(jù)結構作 為輸入,先利用聚類算法對所有的句子進行分類,使內容相似的句子聚類,獲得每個句子的類別,每個類別的情感信息量根據(jù)每個類別所包含的單位進行計算,句子和類別之間的關聯(lián)程度也根據(jù)句子和類別所包含的單位進行計算,句子之間的關聯(lián)程度根據(jù)句子所包含單位之間的距離進行計算,最后迭代求取每個句子的情感信息量;以及 情感文摘生成模塊,用于生成情感文摘:以句子情感信息度量模塊處理后的句子集合作為輸入,根據(jù)句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。
2.根據(jù)權利要求1所述的一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,所述評論數(shù)據(jù)預處理模塊包括句法分析器和抽取模塊,所述句法分析器用于對評論數(shù)據(jù)進行解析,即對評論數(shù)據(jù)進行分句、句法結構分析,所述抽取模塊采用基于規(guī)則的無監(jiān)督方法對句法分析器解析的結果進行處理,抽取評價對象及其對應的評價短語,組成〈評價對象,評價短語 > 對,然后使用情感強度等級模塊計算評價短語對應的情感強度等級,將〈評價對象,評價短語 > 對轉化為由評價對象及其對應的情感強度等級構成的單位,并建立所述評價對象數(shù)據(jù)結構和句子集合。
3.根據(jù)權利要求2所示的一種用于度量主流情感信息的中文情感文摘系統(tǒng),其特征在于,所述情感強度等級模塊按如下方法計算評價短語的情感強度等級:評價短語由評價詞和修飾副詞組成,從情感詞典中獲取評價詞的極性強度,并根據(jù)評價詞和修飾副詞之間的關系,形成一定的評定規(guī)則,然后根據(jù)所述評定規(guī)則計算評價短語的極性強度,并將評價短語的極性強度離散化為η個情感強度等級,進而得到評價短語的情感強度等級。
4.一種用于度量主流情感信息的中文情感文摘方法,其特征在于,該方法包括以下步驟: 步驟(1)評論數(shù)據(jù)預處理模塊抽取評論數(shù)據(jù)中每個句子包含的各個評價對象及其對應的評價短語,轉化為由評價對象及其對應的情感強度等級構成的單位,所述情感強度等級由相應的評價短語計算得到;建立與各個評價對象相對應的評價對象數(shù)據(jù)結構,所述評價對象數(shù)據(jù)結構包含以下信息:評價對象、該評價對象在評論數(shù)據(jù)中對應的所有評價短語構成的集合、該評價對象出現(xiàn)的次數(shù)、第一數(shù)組、第二數(shù)組、第三數(shù)組和第四數(shù)組,所述第一數(shù)組、第二數(shù)組、第三數(shù)組中的元素分別與評價短語集合中的元素一一對應,第一數(shù)組中每個元素表示所對應評價短語在評論數(shù)據(jù)中出現(xiàn)的次數(shù),第二數(shù)組中每個元素表示所對應評價短語和該評價對象在評論數(shù)據(jù)中共現(xiàn)的次數(shù),第三數(shù)組中每個元素表示所對應評價短語的情感強度等級,第四數(shù)組中包括η個元素,表示該評價對象與η類情感強度等級之間的情感信息量;將評論數(shù)據(jù)轉化成句子集合,所述句子集合中的每個元素與評論數(shù)據(jù)中的每個句子相對應,句子集合中的每個元素包含以下信息:該句子在評論數(shù)據(jù)中的位置、該句子的內容、該句子的類別、該句子包含的所有單位構成的集合、該句子的情感信息量; 步驟(2)單位情感信息度量模塊接收評論數(shù)據(jù)預處理模塊構建的評價對象數(shù)據(jù)結構,計算每個單位的情感信息量:對于每個評價對象,根據(jù)情感強度等級不同對評價短語進行分類,然后計算評價對象和每 一類評價短語的情感信息量,獲取評價對象和η類情感強度等級之間的情感信息量,最后獲得全部單位的情感信息量; 步驟(3)句子情感信息度量模塊接收句子集合和單位情感信息度量模塊處理后的評價對象數(shù)據(jù)結構,計算每個句子的情感信息量:先利用聚類算法對所有的句子進行分類,使內容相似的句子聚類,獲得每個句子的類別,每個類別的情感信息量根據(jù)每個類別所包含的單位進行計算,句子和類別之間的關聯(lián)程度也根據(jù)句子和類別所包含的單位進行計算,句子之間的關聯(lián)程度根據(jù)句子所包含單位之間的距離進行計算,最后迭代求取每個句子的情感信息量; 步驟(4)情感文摘生成模塊接收句子情感信息度量模塊處理后的句子集合,根據(jù)句子的情感信息量大小對所有句子進行排序,選擇前k個句子組成最終的情感文摘。
5.根據(jù)權利要求4所述的一種用于度量主流情感信息的中文情感文摘方法,其特征在于,所述步驟(1)中,由評價短語計算情感強度等級的方法如下:評價短語由評價詞和修飾副詞組成,從情感詞典中獲取評價詞的極性強度,并根據(jù)評價詞和修飾副詞之間的關系,形成一定的評定規(guī)則,然后根據(jù)所述評定規(guī)則計算評價短語的極性強度,并將評價短語的極性強度離散化為η個情感強度等級,進而得到評價短語的情感強度等級。
【文檔編號】G06F17/27GK103744838SQ201410034395
【公開日】2014年4月23日 申請日期:2014年1月24日 優(yōu)先權日:2014年1月24日
【發(fā)明者】陳國龍, 廖祥文, 潘敏, 郭文忠, 魏晶晶 申請人:福州大學