【技術(shù)領(lǐng)域】
本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的關(guān)鍵詞提取方法及裝置、設(shè)備與可讀介質(zhì)。
背景技術(shù):
人工智能(artificialintelligence;ai),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支,它企圖了解智能的實(shí)質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識(shí)別、圖像識(shí)別、自然語言處理和專家系統(tǒng)等。
在當(dāng)前信息爆炸的時(shí)代,用戶不可能瀏覽所有可能包含有相關(guān)信息的文檔,而關(guān)鍵詞則是文檔信息最重要和最簡(jiǎn)潔的一種歸納;因此,抽取文檔中的關(guān)鍵詞給用戶提供參考,對(duì)用戶精準(zhǔn)的獲取信息、降低用戶獲取信息的成本有著重大的意義。但是,如何從一個(gè)長(zhǎng)文檔中自動(dòng)提取出極少量的最重要的關(guān)鍵詞是非常具有挑戰(zhàn)性的。
通常情況下,文檔的主題信息對(duì)于文檔的關(guān)鍵詞抽取有著重要的意義,文檔的關(guān)鍵詞必然是某些與文檔主題高度相關(guān)的詞語。例如,對(duì)應(yīng)一篇科技類的文章,其對(duì)應(yīng)的關(guān)鍵詞更可能為“互聯(lián)網(wǎng)”等詞?,F(xiàn)在技術(shù)中,可以采用如下方式獲取文檔的關(guān)鍵詞:具體可以利用一種主題模型如(latentdirichletallocation;lda)模型獲取文檔的主題分布概率p(w|z)(例如在主題1下,詞w出現(xiàn)的概率)以及主題的詞分布概率p(w|z)(例如在主題1下,詞w出現(xiàn)的概率);然后可以得到文檔中每個(gè)詞的生成概率p(w|d)=∑zp(w|z)p(z|d),其中z表示主題,d表示文檔,w表示某個(gè)詞,然后根據(jù)文檔中每個(gè)詞的生成概率,可以選擇最大的k個(gè)詞作為文檔的關(guān)鍵詞。其中主題的詞分布概率p(w|z)是根據(jù)預(yù)設(shè)的包含各種主題的文檔的文檔庫中統(tǒng)計(jì)出來的每個(gè)詞在各種主題下出現(xiàn)的概率。
但是,基于上述的關(guān)鍵詞的提取方法存在著對(duì)高頻詞嚴(yán)重的傾向,因?yàn)樵诿總€(gè)主題下,如果該詞出現(xiàn)的次數(shù)更多的話,那么對(duì)應(yīng)的概率就越高,所以基于上述的公式進(jìn)行計(jì)算,高頻詞的生成概率會(huì)更加大,從而導(dǎo)致召回的結(jié)果大部分都是某個(gè)主題下的高頻詞。然而高頻詞在不同文檔當(dāng)中出現(xiàn)得都很廣泛,在很多時(shí)候并不是好的關(guān)鍵詞例如文檔中的“我們”、“你們”等之類的詞語,因此,現(xiàn)有技術(shù)的關(guān)鍵詞的提取方案不能獲取有效地關(guān)鍵詞,提取的關(guān)鍵詞的準(zhǔn)確性較差。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了一種基于人工智能的關(guān)鍵詞提取方法及裝置、設(shè)備與可讀介質(zhì),用于提高提取的關(guān)鍵詞的準(zhǔn)確性。
本發(fā)明提供一種基于人工智能的關(guān)鍵詞提取方法,所述方法包括:
基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各所述主題中的分布概率;
計(jì)算所述目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性;其中各所述詞語的詞向量和各所述主題的主題向量均基于詞向量模型生成;
根據(jù)各所述詞語在各所述主題中的分布概率以及各所述詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性,從所述多個(gè)詞語中提取作為所述目標(biāo)文檔的關(guān)鍵詞的詞語。
進(jìn)一步可選地,如上所述的方法中,根據(jù)各所述詞語在各所述主題中的分布概率以及各所述詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性,從所述多個(gè)詞語中提取作為所述目標(biāo)文檔的關(guān)鍵詞的詞語,具體包括:
根據(jù)各所述詞語在各所述主題中的分布概率以及各所述詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性,計(jì)算各所述詞語在所述目標(biāo)文檔中的生成概率;
根據(jù)各所述詞語在所述目標(biāo)文檔中的生成概率,從所述多個(gè)詞語中提取作為所述目標(biāo)文檔的關(guān)鍵詞的詞語。
進(jìn)一步可選地,如上所述的方法中,計(jì)算所述目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性之前,所述方法還包括:
從預(yù)設(shè)的詞料庫中獲取各所述詞語對(duì)應(yīng)的詞料的詞向量;
從預(yù)設(shè)的主題向量庫中獲取各所述主題的主題向量。
進(jìn)一步可選地,如上所述的方法中,從預(yù)設(shè)的詞料庫中獲取各所述詞語對(duì)應(yīng)的詞料的詞向量之前,所述方法還包括:
根據(jù)預(yù)設(shè)的包括多個(gè)文檔的文檔庫,生成包括數(shù)個(gè)詞料的詞料庫;
根據(jù)所述詞料庫中的各所述詞料以及各所述詞料在所述文檔庫中的各文檔中與其它所述詞料的共現(xiàn)信息,訓(xùn)練所述詞向量模型和各所述詞料的詞向量;
將各所述詞料的詞向量存儲(chǔ)在所述詞料庫中。
進(jìn)一步可選地,如上所述的方法中,從預(yù)設(shè)的主題向量庫中獲取各所述主題的主題向量之前,所述方法還包括:
獲取各所述詞料對(duì)應(yīng)的主題標(biāo)識(shí);
根據(jù)所述詞料庫中各所述詞料的詞向量、各所述詞料對(duì)應(yīng)的主題標(biāo)識(shí)以及訓(xùn)練后的所述詞向量模型,訓(xùn)練各所述主題標(biāo)識(shí)對(duì)應(yīng)的主題的主題向量;
將各所述主題的主題向量存儲(chǔ)在所述主題向量庫中。
本發(fā)明提供一種基于人工智能的關(guān)鍵詞提取裝置,所述裝置包括:
預(yù)測(cè)模塊,用于基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各所述主題中的分布概率;
計(jì)算模塊,用于計(jì)算所述目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性;其中各所述詞語的詞向量和各所述主題的主題向量均基于詞向量模型生成;
提取模塊,用于根據(jù)各所述詞語在各所述主題中的分布概率以及各所述詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性,從所述多個(gè)詞語中提取作為所述目標(biāo)文檔的關(guān)鍵詞的詞語。
進(jìn)一步可選地,如上所述的裝置中,所述提取模塊,具體用于:
根據(jù)各所述詞語在各所述主題中的分布概率以及各所述詞語的詞向量分別與所述多個(gè)主題中各所述主題的主題向量之間的相關(guān)性,計(jì)算各所述詞語在所述目標(biāo)文檔中的生成概率;
根據(jù)各所述詞語在所述目標(biāo)文檔中的生成概率,從所述多個(gè)詞語中提取作為所述目標(biāo)文檔的關(guān)鍵詞的詞語。
進(jìn)一步可選地,如上所述的裝置中,還包括:
獲取模塊,用于從預(yù)設(shè)的詞料庫中獲取各所述詞語對(duì)應(yīng)的詞料的詞向量;
所述獲取模塊,還用于從預(yù)設(shè)的主題向量庫中獲取各所述主題的主題向量。
進(jìn)一步可選地,如上所述的裝置中,還包括:
生成模塊,用于根據(jù)預(yù)設(shè)的包括多個(gè)文檔的文檔庫,生成包括數(shù)個(gè)詞料的詞料庫;
訓(xùn)練模塊,用于根據(jù)所述詞料庫中的各所述詞料以及各所述詞料在所述文檔庫中的各文檔中與其它所述詞料的共現(xiàn)信息,訓(xùn)練所述詞向量模型和各所述詞料的詞向量;
存儲(chǔ)模塊,用于將各所述詞料的詞向量存儲(chǔ)在所述詞料庫中。
進(jìn)一步可選地,如上所述的裝置中:
所述獲取模塊,還用于獲取各所述詞料對(duì)應(yīng)的主題標(biāo)識(shí);
所述訓(xùn)練模塊,還用于根據(jù)所述詞料庫中各所述詞料的詞向量、各所述詞料對(duì)應(yīng)的主題標(biāo)識(shí)以及訓(xùn)練后的所述詞向量模型,獲取各所述主題標(biāo)識(shí)對(duì)應(yīng)的主題的主題向量;
所述存儲(chǔ)模塊,還用于將各所述主題的主題向量存儲(chǔ)在所述主題向量庫中。
本發(fā)明還提供一種計(jì)算機(jī)設(shè)備,所述設(shè)備包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)器,用于存儲(chǔ)一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的基于人工智能的關(guān)鍵詞提取方法。
本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的基于人工智能的關(guān)鍵詞提取方法。
本發(fā)明的基于人工智能的關(guān)鍵詞提取方法及裝置、設(shè)備與可讀介質(zhì),通過基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各主題中的分布概率;計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性;其中各詞語的詞向量和各主題的主題向量均基于詞向量模型生成;根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。本實(shí)施例通過采用上述技術(shù)方案,提取的關(guān)鍵詞不是高頻詞,而是根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性來提取,從而能夠使得提取的關(guān)鍵詞與目標(biāo)文檔的主題更貼合,更有效,也更準(zhǔn)確。
【附圖說明】
圖1為本發(fā)明的基于人工智能的關(guān)鍵詞提取方法實(shí)施例的流程圖。
圖2為本發(fā)明的基于人工智能的關(guān)鍵詞提取裝置實(shí)施例一的結(jié)構(gòu)圖。
圖3為本發(fā)明的基于人工智能的關(guān)鍵詞提取裝置實(shí)施例二的結(jié)構(gòu)圖。
圖4為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。
圖5為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。
【具體實(shí)施方式】
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
圖1為本發(fā)明的基于人工智能的關(guān)鍵詞提取方法實(shí)施例的流程圖。如圖1所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取方法,具體可以包括如下步驟:
100、基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各主題中的分布概率;
本實(shí)施例的基于人工智能的關(guān)鍵詞提取方法的執(zhí)行主體為基于人工智能的關(guān)鍵詞提取裝置,該基于人工智能的關(guān)鍵詞提取裝置可以為一電子的實(shí)體裝置,也可以為采用軟件集成的裝置。
本實(shí)施例的基于人工智能的關(guān)鍵詞提取方法可以應(yīng)用于各種如新聞之類的文檔應(yīng)用(application;app)中,以提取每個(gè)目標(biāo)文檔的有效關(guān)鍵詞,供用戶參考。本實(shí)施例的基于人工智能的關(guān)鍵詞提取方法中,所選擇的主題模型可以為如lda之類的主題模型,該主題模型可以進(jìn)行預(yù)先訓(xùn)練,能夠預(yù)測(cè)出任一目標(biāo)文檔在多個(gè)主題中的各主題中的分布概率。本實(shí)施例的多個(gè)主題可以包括類似于文檔標(biāo)簽的多個(gè)如科技、教育、房產(chǎn)、娛樂、體育、汽車等等之類的類別。本實(shí)施例的多個(gè)主題可以在提取關(guān)鍵詞之前預(yù)先設(shè)置,
例如,本實(shí)施例的主題模型可以采用多個(gè)已知主題的訓(xùn)練文檔進(jìn)行訓(xùn)練得到,使得訓(xùn)練得到的主題模型能夠準(zhǔn)確預(yù)測(cè)出各個(gè)目標(biāo)文檔的主題分布概率。例如有一篇目標(biāo)文檔“abc”,基于主題模型lda,預(yù)測(cè)得到該目標(biāo)文檔的主題分布概率可以為:主題topic1的分布概率為p1,主題topic2的分布概率為p2等等。由于主題模型是預(yù)測(cè)該目標(biāo)文檔在各個(gè)主題下的分布概率,因此預(yù)測(cè)的各個(gè)主題的分布概率值均為大于或者等于0,且小于或者等于1的數(shù);且同一目標(biāo)文檔的各個(gè)主題下的分布概率之和等于1。
101、計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性;其中各詞語的詞向量和各主題的主題向量均基于詞向量模型生成;
本實(shí)施例中首先可以對(duì)目標(biāo)文檔中的每一個(gè)語句進(jìn)行分詞處理,獲取目標(biāo)文檔所包括的多個(gè)詞語。然后對(duì)于目標(biāo)文檔的每個(gè)詞語,可以從預(yù)設(shè)的詞料庫中獲取該詞語對(duì)應(yīng)的詞向量,也就是說,本實(shí)施例中預(yù)設(shè)的詞料庫中包括的詞料以及各詞料對(duì)應(yīng)的詞向量的數(shù)量足夠的多,普通的較為常見的詞語均包括。本實(shí)施例中,詞料與詞語同義,為了便于描述,將詞料庫中的詞語稱為詞料;而目標(biāo)文檔中獲取的為詞語;對(duì)于從目標(biāo)文檔中獲取的非生僻詞語,一般可以從詞料庫中獲取到對(duì)應(yīng)的詞料以及對(duì)應(yīng)的詞向量。而且本實(shí)施例的詞料庫還可以定期進(jìn)行更新,增加一些詞料以及詞料的詞向量。如果對(duì)于一些怪癖的、在文檔中出現(xiàn)的頻率較低的詞語,也可以采用詞向量模型訓(xùn)練該詞語的詞向量,并更新存儲(chǔ)在詞料庫中。本實(shí)施例的詞料庫中的所有詞料的詞向量均可以基于該詞料在文檔中的上下文中與其它詞料的共現(xiàn)信息來預(yù)測(cè)得到。本實(shí)施例中,每個(gè)詞語的詞向量可以唯一標(biāo)識(shí)該詞語,且該詞向量還能夠表征該詞語與其它詞語語義上的相關(guān)性。例如當(dāng)某兩個(gè)詞語的語義較為接近,那么該兩個(gè)詞語的詞向量之間的相關(guān)性較大;若某兩個(gè)詞語的語義完全無關(guān),那么該兩個(gè)詞語的詞向量之間的相關(guān)性較小。本實(shí)施例中,還可以采用類似于詞向量的形式來表示主題,即得到主題向量。由于主題也具有一定的語義,且通常情況下,某個(gè)主題下的文檔中的詞語的語義較為接近該文檔的主題,因此可以認(rèn)為該詞語與該主題相關(guān)性較大,從而基于已經(jīng)獲得的詞向量和詞向量模型,可以預(yù)先訓(xùn)練該主題對(duì)應(yīng)的主題向量。對(duì)于每一個(gè)主題,均可以采用類似的方式,訓(xùn)練獲得對(duì)應(yīng)的主題向量;并將獲得的各個(gè)主題向量存儲(chǔ)在一主題向量庫中,以便在使用時(shí)直接從主題向量庫中獲取對(duì)應(yīng)的主題向量。
例如,此時(shí)該步驟101“計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性”之前,具體還可以包括如下步驟:
(a1)從預(yù)設(shè)的詞料庫中獲取各詞語對(duì)應(yīng)的詞料的詞向量;
(a2)從預(yù)設(shè)的主題向量庫中獲取各主題的主題向量。
進(jìn)一步可選地,步驟(a1)“從預(yù)設(shè)的詞料庫中獲取各詞語對(duì)應(yīng)的詞料的詞向量”之前,具體還可以包括如下步驟:
(b1)根據(jù)預(yù)設(shè)的包括多個(gè)文檔的文檔庫,生成包括數(shù)個(gè)詞料的詞料庫;
(b2)根據(jù)詞料庫中的各詞料以及各詞料在文檔庫中的各文檔中與其它詞料的共現(xiàn)信息,訓(xùn)練詞向量模型和各詞料的詞向量;
(b3)將各詞料的詞向量存儲(chǔ)在詞料庫中。
本實(shí)施例中,可以預(yù)先采集多個(gè)文檔,形成文檔庫;并將文檔庫中的每個(gè)文檔中的每個(gè)語句進(jìn)行分詞處理,得到數(shù)個(gè)詞料;并將數(shù)個(gè)詞料集合在一起生成詞料庫。本實(shí)施例的詞料與詞語具有相同的意義,本實(shí)施例中為了便于描述,將從預(yù)設(shè)文檔庫中獲取的詞語稱為詞料。然后根據(jù)每個(gè)詞料在文檔中的上下中與其它詞料的共現(xiàn)信息,訓(xùn)練詞向量模型以及各詞料的詞向量。例如該詞向量模型和各詞料的詞向量都設(shè)置有初始值,訓(xùn)練時(shí),可以根據(jù)該詞料的上下文,獲取與該詞料一起共現(xiàn)的詞料作為訓(xùn)練正例詞料,然后再根據(jù)該詞料的上下文,從數(shù)個(gè)詞料中獲取不可能與該詞料一起共現(xiàn)的詞料作為該詞料的負(fù)例詞料,可選地,負(fù)例詞料的數(shù)量可以為正例詞料的4倍或者其他整數(shù)倍。然后可以將該詞料、該詞料對(duì)應(yīng)的正例詞料以及該詞料對(duì)應(yīng)的負(fù)例詞料作為一組訓(xùn)練數(shù)據(jù)輸入值詞向量模型中,使得詞向量模型輸出該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量。由于正例詞料與該詞料是一起共現(xiàn)的,而負(fù)例詞料與該詞料是不能一起共現(xiàn)的,所以要求該詞料的詞向量與正例詞料的詞向量之間的相關(guān)性較大,例如大于或者等于預(yù)設(shè)相關(guān)性閾值,而要求該詞料的詞向量與負(fù)例詞料的詞向量之間的相關(guān)性較小,例如小于預(yù)設(shè)相關(guān)性閾值。若詞向量模型輸出的該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量不滿足上述條件,可以通過調(diào)整詞向量模型的參數(shù)以及調(diào)整各詞料的詞向量中的元素的數(shù)值,使得該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量滿足上述條件。
訓(xùn)練時(shí),對(duì)于每一組訓(xùn)練數(shù)據(jù),可以先調(diào)整詞向量模型的參數(shù),使得該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量滿足上述條件;否則還不滿足時(shí),可以再調(diào)整該詞料的詞向量中的元素的數(shù)值,使得詞向量模型輸出的該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量滿足上述條件。每一組訓(xùn)練數(shù)據(jù)訓(xùn)練完,再使用下一組訓(xùn)練數(shù)據(jù)繼續(xù)訓(xùn)練,且下一組訓(xùn)練數(shù)據(jù)訓(xùn)練時(shí),前面已經(jīng)訓(xùn)練好的詞向量固定,不再調(diào)整;以此類推,使用詞料庫中的詞料組成的無數(shù)組訓(xùn)練數(shù)據(jù)對(duì)詞向量模型進(jìn)行訓(xùn)練,直到詞料庫中的每一個(gè)詞料的詞向量以及詞向量模型的參數(shù)不用調(diào)整,便可以滿足詞向量模型輸出的該詞料的詞向量、和與該詞料在同一上下文共現(xiàn)的詞料的詞向量之間的相關(guān)性大于或者等于預(yù)設(shè)相關(guān)性閾值;而與該詞料未在同一上下文共現(xiàn)的詞料的詞向量之間的相關(guān)性小于預(yù)設(shè)相關(guān)性閾值,此時(shí)詞向量模型的參數(shù)確定,詞向量模型確定。并將最后訓(xùn)練得到的詞料庫中的各詞料的詞向量存儲(chǔ)在詞料庫中。也就是說,該詞料庫中存儲(chǔ)的詞料,可以按照如下方式存儲(chǔ):詞料-詞料向量。進(jìn)一步地,還可以存儲(chǔ)該詞料在文檔庫中所有文檔出現(xiàn)的次數(shù),此時(shí)對(duì)應(yīng)的存儲(chǔ)方式可以為:詞料-詞料向量-出現(xiàn)次數(shù)。
另外,可選地,本實(shí)施例中,若詞向量模型輸出的該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量不滿足該詞料的詞向量與正例詞料的詞向量之間的相關(guān)性大于或者等于預(yù)設(shè)相關(guān)性閾值、且該詞料的詞向量與負(fù)例詞料的詞向量之間的相關(guān)性小于預(yù)設(shè)相關(guān)性閾值的條件時(shí),也可以僅調(diào)整各詞料的詞向量中的元素的數(shù)值即僅調(diào)整詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量,使得該詞料的詞向量、正例詞料的詞向量以及負(fù)例詞料的詞向量滿足上述條件。其余過程與上述同時(shí)調(diào)整詞向量模型的參數(shù)以及調(diào)整各詞料的詞向量中的元素的數(shù)值的過程相同,詳細(xì)可以參考上述實(shí)施例的記載,在此不再贅述。
現(xiàn)有技術(shù)中,基于自然語言處理(naturallanguageprocess;nlp)模型中最直觀,也是到目前為止最常用的詞表示方法是one-hotrepresentation,這種方法把每個(gè)詞語表示為一個(gè)很長(zhǎng)的詞向量。這個(gè)詞向量的維度是詞表大小,而詞表的大小等于預(yù)先統(tǒng)計(jì)的詞語的數(shù)量。詞向量中絕大多數(shù)元素為0,只有一個(gè)維度的值為1,這個(gè)維度就代表了當(dāng)前的詞語。例如:“話筒”的詞向量可以表示為[0001000000000000…],“麥克風(fēng)”的詞向量表示為[0000000010000000…]。但是,這種詞向量的表示方式存在一個(gè)重要的問題就是“詞匯鴻溝”現(xiàn)象:任意兩個(gè)詞之間都是孤立的。單從這兩個(gè)詞向量中看不出兩個(gè)詞語是否有關(guān)系,哪怕是話筒和麥克這樣的同義詞也不能幸免于難。
基于上述現(xiàn)有的詞向量的技術(shù)問題,本實(shí)施例的詞向量則是通過詞語與詞語之間的共現(xiàn)信息去挖掘文本語義信息,而且本實(shí)施例的詞向量可以采用低維的實(shí)數(shù)向量去表示每個(gè)詞語,例如通過訓(xùn)練之后,詞語“話筒”可以表示[0.792,-0.177,-0.107,0.109,-0.542,…],詞語“麥克風(fēng)”可以表示為[0.722,-0.127,-0.187,0.119,-0.542,…],本實(shí)施例的詞向量的維度可以遠(yuǎn)遠(yuǎn)小于詞表大小,例如可以為128維、64維或者其他的2n維。最主要的是,本實(shí)施例的詞向量最大的貢獻(xiàn)就是可以通過衡量詞向量的相關(guān)性來衡量?jī)蓚€(gè)詞語的相關(guān)性,例如話筒跟麥克風(fēng)它們之間的語義比較接近;這兩個(gè)詞向量之間的相關(guān)性可以較大,例如可以大于或者等于預(yù)設(shè)相關(guān)性閾值。
另外,由于本實(shí)施例中是從預(yù)設(shè)的詞料庫中獲取各詞語對(duì)應(yīng)的詞料的詞向量,因此,在步驟101“計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性”之前,還可以包括確定目標(biāo)文檔的多個(gè)詞語。也就是說,本實(shí)施例中,不需要對(duì)目標(biāo)文檔中的每一個(gè)詞語都進(jìn)行上述處理,可以先對(duì)目標(biāo)文檔中的每個(gè)語句進(jìn)行分詞處理,獲取無數(shù)個(gè)詞語,然后根據(jù)詞料庫對(duì)無數(shù)個(gè)詞語進(jìn)行過濾,濾除在詞料庫中沒有對(duì)應(yīng)的詞料的詞語,這樣得到的多個(gè)詞語,在詞料庫中都有對(duì)應(yīng)的詞向量,便可以參與后續(xù)的提取關(guān)鍵詞的處理。由于本實(shí)施例的詞料庫中包括的詞料足夠的多,本實(shí)施例中,可以認(rèn)為過濾掉的詞語均為文檔中比較生僻、出現(xiàn)概率較小的一些非關(guān)鍵性的詞語。
或者,在步驟101“計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性”之前,對(duì)目標(biāo)文檔中的每個(gè)語句進(jìn)行分詞處理,獲取無數(shù)個(gè)詞語之后,暫不對(duì)無數(shù)個(gè)詞語進(jìn)行任何過濾處理;而在根據(jù)步驟(a1)“從詞料庫中獲取詞語對(duì)應(yīng)的詞料的詞向量”時(shí),若該詞料庫中不存在某詞語對(duì)應(yīng)的詞料時(shí),則獲取不到對(duì)應(yīng)的詞向量,此時(shí)可以將該詞向量置為0;并將0向量與任一主題的主題向量之間的相關(guān)性也定義為0,這樣可以保證在詞料庫中沒有的對(duì)應(yīng)詞料的詞語,后續(xù)不會(huì)被提取為關(guān)鍵詞。
進(jìn)一步可選地,步驟(a2)“從預(yù)設(shè)的主題向量庫中獲取各主題的主題向量”之前,具體還可以包括如下步驟:
(c1)獲取各詞料對(duì)應(yīng)的主題標(biāo)識(shí);
(c2)根據(jù)詞料庫中各詞料的詞向量、各詞料對(duì)應(yīng)的主題標(biāo)識(shí)以及訓(xùn)練后的詞向量模型,訓(xùn)練各主題標(biāo)識(shí)對(duì)應(yīng)的主題的主題向量;
(c3)將各主題的主題向量存儲(chǔ)在主題向量庫中。
具體地,對(duì)于詞料庫中的每個(gè)詞料,可以根據(jù)主題模型預(yù)測(cè)該詞料所在的文檔在各主題中的分布概率,確定該文檔對(duì)應(yīng)的主題,從而確定該詞料對(duì)應(yīng)的主題。例如,可以從各主題的分布概率中選擇分布概率最大的主題標(biāo)識(shí)作為該文檔的主題標(biāo)識(shí),并將該主題標(biāo)識(shí)為該詞料對(duì)應(yīng)的主題標(biāo)識(shí)?;蛘哌€可以根據(jù)主題模型預(yù)測(cè)的各主題的分布概率,取出分布概率最大的前n個(gè)主題標(biāo)識(shí)作為候選主題標(biāo)識(shí),然后通過隨機(jī)采樣的方式,從n個(gè)候選主題標(biāo)識(shí)中選擇一個(gè)主題標(biāo)識(shí)作為該詞料對(duì)應(yīng)的主題標(biāo)識(shí)。例如可以從文檔庫中一個(gè)選定的范圍內(nèi)統(tǒng)計(jì)該詞料對(duì)應(yīng)的主題標(biāo)識(shí)為n個(gè)候選主題標(biāo)識(shí)中的哪一個(gè),并將其作為該詞料對(duì)應(yīng)的主題標(biāo)識(shí)。本實(shí)施例中,不用知道每一個(gè)主題確切的名稱,例如該主題是教育還是科技還是娛樂等,而僅需要知道該主題是topic1還是topic2之類的主題標(biāo)識(shí)即可。這樣,還可以在詞料庫中標(biāo)識(shí)該詞料的主題標(biāo)識(shí),例如表示方式可以為:詞料-詞料向量-出現(xiàn)次數(shù)-主題標(biāo)識(shí)。
然后可以根據(jù)詞料庫中已經(jīng)訓(xùn)練好的各詞料的詞向量、各詞料對(duì)應(yīng)的主題標(biāo)識(shí)以及訓(xùn)練后的詞向量模型,獲取各主題標(biāo)識(shí)對(duì)應(yīng)的主題的主題向量。具體地,根據(jù)詞料庫中存儲(chǔ)的信息,可以獲取到每一個(gè)主題標(biāo)識(shí)對(duì)應(yīng)的所有詞料,將這些詞料作為主題標(biāo)識(shí)對(duì)應(yīng)的正例,然后還可以從詞料庫中獲取一些該主題標(biāo)識(shí)不對(duì)應(yīng)的詞料作為該主題標(biāo)識(shí)對(duì)應(yīng)的負(fù)例,同理,負(fù)例可以為正例的4倍或者其他倍數(shù)。然后由于上述實(shí)施例中已經(jīng)訓(xùn)練好詞向量模型,即詞向量模型的參數(shù)已經(jīng)確定,接下類可以根據(jù)主題標(biāo)識(shí)對(duì)應(yīng)的正例和負(fù)例,訓(xùn)練該主題標(biāo)識(shí)對(duì)應(yīng)的主題向量;例如,可以將主題輸入訓(xùn)練好的詞向量模型中,該詞向量模型輸出該主題的主題向量。然后判斷主題向量分別與主題的正例的詞向量和主題的負(fù)例的詞向量的相關(guān)性;若主題向量與主題標(biāo)識(shí)對(duì)應(yīng)的正例的詞向量之間的相關(guān)性小于預(yù)設(shè)相關(guān)性閾值,或主題向量與主題標(biāo)識(shí)對(duì)應(yīng)的負(fù)例的詞向量之間的相關(guān)性大于或者等于預(yù)設(shè)相關(guān)性閾值,此時(shí)調(diào)整主題向量中的元素的數(shù)值,使得主題向量與主題標(biāo)識(shí)對(duì)應(yīng)的正例的詞向量之間的相關(guān)性大于或者等于預(yù)設(shè)相關(guān)性閾值,而主題向量與主題標(biāo)識(shí)對(duì)應(yīng)的負(fù)例的詞向量之間的相關(guān)性小于預(yù)設(shè)相關(guān)性閾值?;谌斯ぶ悄艿年P(guān)鍵詞提取裝置經(jīng)過多次訓(xùn)練,可以得到每一個(gè)主題的主題向量。最后將各主題的主題向量存儲(chǔ)在主題向量庫中,以便于后續(xù)使用時(shí)獲取。本實(shí)施例的主題向量的維度與詞向量的維度相同。
102、根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。
對(duì)于目標(biāo)文檔中的每個(gè)詞語,根據(jù)步驟101可以得到該詞語的詞向量與各個(gè)主題的主題向量之間的相關(guān)性,例如,可以采用通過計(jì)算該詞語的詞向量與各個(gè)主題的主題向量之間的cosine距離,來確定該詞語的詞向量與各個(gè)主題的主題向量之間相關(guān)性,cosine距離越大,表示該詞語與該主題越相關(guān),否則cosine距離越小,表示該詞語與該主題越不相關(guān)。本實(shí)施例在提取關(guān)鍵詞時(shí),同時(shí)考慮各詞語在各主題中的分布概率和各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,實(shí)現(xiàn)從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。
例如,步驟102“根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語”具體可以包括如下步驟:
(d1)根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,計(jì)算各詞語在目標(biāo)文檔中的生成概率;
例如步驟(d1)“根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,計(jì)算各詞語在目標(biāo)文檔中的生成概率”,具體可以采用如下公式實(shí)現(xiàn):
其中:p(w|d)表示詞語w在目標(biāo)文檔d中的生成概率,p(z|d)表示目標(biāo)文檔d在主題z中的分布概率,cos<w,z>表示詞語w的詞向量與主題z的主題向量之間的相關(guān)性。
也就是說,每個(gè)詞語在目標(biāo)文檔中的生成概率等于:將“該詞語的詞向量與主題向量的相關(guān)性”與對(duì)應(yīng)的主題的分布概率的乘積,再按照各個(gè)主題求和。本實(shí)施例中,該詞語的詞向量與主題向量的相關(guān)性越大表示,該詞向量與該主題越接近,而詞語在主題中的分布概率越大,該詞語屬于該主題的概率越大。因此,本實(shí)施例中,可以根據(jù)詞語的詞向量與主題向量的相關(guān)性、以及詞語在各主題中的分布概率,構(gòu)造該詞語在目標(biāo)文檔中的生成概率,以不僅考慮到該詞語與主題的相關(guān)性,還考慮到該詞語對(duì)應(yīng)的主題的概率,從而使得該詞語的生成概率更能夠表征該詞語在該目標(biāo)文檔中的重要性。
(d2)根據(jù)各詞語在目標(biāo)文檔中的生成概率,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。
根據(jù)上述方式構(gòu)成的詞語的生成概率能夠更加準(zhǔn)確地表征該詞語在目標(biāo)文檔中的重要性,因此,生成概率越大,表示該詞語在目標(biāo)文檔中越重要,否則生成概率越小,表示該詞語在目標(biāo)文檔中越不重要。對(duì)于目標(biāo)文檔中的多個(gè)詞語,均可以按照上述方式生成該詞語在目標(biāo)文檔中的生成概率。然后可以對(duì)多個(gè)詞語在目標(biāo)文檔中的生成概率按照大小順序進(jìn)行排序,并從前往后取出k個(gè)詞語作為目標(biāo)文檔的關(guān)鍵詞。本實(shí)施例的k可以根據(jù)實(shí)際需求來設(shè)置,例如可以設(shè)置k的數(shù)值為1個(gè)、3個(gè)或者5個(gè),或者其他數(shù)值個(gè)。
本實(shí)施例的基于人工智能的關(guān)鍵詞提取方法,通過基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各主題中的分布概率;計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性;其中各詞語的詞向量和各主題的主題向量均基于詞向量模型生成;根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。本實(shí)施例通過采用上述技術(shù)方案,提取的關(guān)鍵詞不是高頻詞,而是根據(jù)各詞語在各主題中的分布概率以及各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性來提取,從而能夠使得提取的關(guān)鍵詞與目標(biāo)文檔的主題更貼合,更有效,也更準(zhǔn)確。
例如,下表1為將現(xiàn)有技術(shù)中的主題模型多項(xiàng)分布p(w|z)召回的關(guān)鍵詞、和本實(shí)施例的采用主題向量的方式在向量空間中召回的最鄰近的詞的詞頻進(jìn)行對(duì)比,可以發(fā)現(xiàn)使用現(xiàn)有技術(shù)的主題模型召回的關(guān)鍵詞的詞頻更高,而本實(shí)施例召回的關(guān)鍵詞的詞頻并不高,但與主題更為貼合,更準(zhǔn)確。
圖2為本發(fā)明的基于人工智能的關(guān)鍵詞提取裝置實(shí)施例一的結(jié)構(gòu)圖。如圖2所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置,具體可以包括:預(yù)測(cè)模塊10、計(jì)算模塊11和提取模塊12。
其中預(yù)測(cè)模塊10用于基于主題模型,預(yù)測(cè)目標(biāo)文檔在多個(gè)主題中的各主題中的分布概率;計(jì)算模塊11用于計(jì)算目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性;其中各詞語的詞向量和各主題的主題向量均基于詞向量模型生成;提取模塊12用于根據(jù)預(yù)測(cè)模塊10預(yù)測(cè)的各詞語在各主題中的分布概率以及計(jì)算模塊11計(jì)算的各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。
本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置,通過采用上述模塊實(shí)現(xiàn)基于人工智能的關(guān)鍵詞提取的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
圖3為本發(fā)明的基于人工智能的關(guān)鍵詞提取裝置實(shí)施例二的結(jié)構(gòu)圖。如圖3所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置在上述圖2所示實(shí)施例的技術(shù)方案的基礎(chǔ)上,進(jìn)一步更加詳細(xì)地介紹本發(fā)明的技術(shù)方案。
本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置中,提取模塊12具體用于:
根據(jù)預(yù)測(cè)模塊10預(yù)測(cè)的各詞語在各主題中的分布概率以及計(jì)算模塊11計(jì)算的各詞語的詞向量分別與多個(gè)主題中各主題的主題向量之間的相關(guān)性,計(jì)算各詞語在目標(biāo)文檔中的生成概率;
根據(jù)各詞語在目標(biāo)文檔中的生成概率,從多個(gè)詞語中提取作為目標(biāo)文檔的關(guān)鍵詞的詞語。
進(jìn)一步可選地,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置中,計(jì)算模塊11具體用于可以采用如下公式實(shí)現(xiàn):
其中:p(w|d)表示詞語w在目標(biāo)文檔d中的生成概率,p(z|d)表示目標(biāo)文檔d在主題z中的分布概率,cos<w,z>表示詞語w的詞向量與主題z的主題向量之間的相關(guān)性。
進(jìn)一步可選地,如圖3所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置中,還包括:
獲取模塊13用于從預(yù)設(shè)的詞料庫中獲取各詞語對(duì)應(yīng)的詞料的詞向量;
獲取模塊13還用于從預(yù)設(shè)的主題向量庫中獲取各主題的主題向量。
對(duì)應(yīng)地,計(jì)算模塊11用于計(jì)算獲取模塊13獲取的目標(biāo)文檔的多個(gè)詞語中各詞語的詞向量分別與獲取模塊13獲取的多個(gè)主題中各主題的主題向量之間的相關(guān)性。
進(jìn)一步可選地,如圖3所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置中,還包括:
生成模塊14用于根據(jù)預(yù)設(shè)的包括多個(gè)文檔的文檔庫,生成包括數(shù)個(gè)詞料的詞料庫s;
訓(xùn)練模塊15用于根據(jù)生成模塊14生成的詞料庫s中的各詞料以及各詞料在文檔庫中的各文檔中與其它詞料的共現(xiàn)信息,訓(xùn)練詞向量模型和各詞料的詞向量;
存儲(chǔ)模塊16用于將訓(xùn)練模塊15訓(xùn)練得到的各詞料的詞向量存儲(chǔ)在生成模塊14生成的詞料庫s中。
對(duì)應(yīng)地,獲取模塊13用于從生成模塊14和存儲(chǔ)模塊16處理后的詞料庫s中獲取各詞語對(duì)應(yīng)的詞料的詞向量。
進(jìn)一步可選地,如圖3所示,本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置中,獲取模塊13還用于獲取各詞料對(duì)應(yīng)的主題標(biāo)識(shí);
訓(xùn)練模塊15還用于根據(jù)生成模塊14和存儲(chǔ)模塊16處理后的詞料庫s中各詞料的詞向量、各詞料對(duì)應(yīng)的主題標(biāo)識(shí)以及訓(xùn)練后的詞向量模型,獲取各主題標(biāo)識(shí)對(duì)應(yīng)的主題的主題向量;
存儲(chǔ)模塊16還用于將訓(xùn)練模塊15訓(xùn)練得到的各主題的主題向量存儲(chǔ)在主題向量庫m中。
對(duì)應(yīng)地,獲取模塊13還用于從存儲(chǔ)模塊16處理后的主題向量庫m中獲取各主題的主題向量。
本實(shí)施例的基于人工智能的關(guān)鍵詞提取裝置,通過采用上述模塊實(shí)現(xiàn)基于人工智能的關(guān)鍵詞提取的實(shí)現(xiàn)原理以及技術(shù)效果與上述相關(guān)方法實(shí)施例的實(shí)現(xiàn)相同,詳細(xì)可以參考上述相關(guān)方法實(shí)施例的記載,在此不再贅述。
圖4為本發(fā)明的計(jì)算機(jī)設(shè)備實(shí)施例的結(jié)構(gòu)圖。如圖4所示,本實(shí)施例的計(jì)算機(jī)設(shè)備,包括:一個(gè)或多個(gè)處理器30,以及存儲(chǔ)器40,存儲(chǔ)器40用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)存儲(chǔ)器40中存儲(chǔ)的一個(gè)或多個(gè)程序被一個(gè)或多個(gè)處理器30執(zhí)行,使得一個(gè)或多個(gè)處理器30實(shí)現(xiàn)如上圖1-圖3所示實(shí)施例的基于人工智能的關(guān)鍵詞提取方法。圖4所示實(shí)施例中以包括多個(gè)處理器30為例。
例如,圖5為本發(fā)明提供的一種計(jì)算機(jī)設(shè)備的示例圖。圖5示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12a的框圖。圖5顯示的計(jì)算機(jī)設(shè)備12a僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。
如圖5所示,計(jì)算機(jī)設(shè)備12a以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12a的組件可以包括但不限于:一個(gè)或者多個(gè)處理器16a,系統(tǒng)存儲(chǔ)器28a,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28a和處理器16a)的總線18a。
總線18a表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。
計(jì)算機(jī)設(shè)備12a典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12a訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。
系統(tǒng)存儲(chǔ)器28a可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30a和/或高速緩存存儲(chǔ)器32a。計(jì)算機(jī)設(shè)備12a可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34a可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖5中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18a相連。系統(tǒng)存儲(chǔ)器28a可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明上述圖1-圖3各實(shí)施例的功能。
具有一組(至少一個(gè))程序模塊42a的程序/實(shí)用工具40a,可以存儲(chǔ)在例如系統(tǒng)存儲(chǔ)器28a中,這樣的程序模塊42a包括——但不限于——操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42a通常執(zhí)行本發(fā)明所描述的上述圖1-圖3各實(shí)施例中的功能和/或方法。
計(jì)算機(jī)設(shè)備12a也可以與一個(gè)或多個(gè)外部設(shè)備14a(例如鍵盤、指向設(shè)備、顯示器24a等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12a交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12a能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22a進(jìn)行。并且,計(jì)算機(jī)設(shè)備12a還可以通過網(wǎng)絡(luò)適配器20a與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20a通過總線18a與計(jì)算機(jī)設(shè)備12a的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12a使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理器、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。
處理器16a通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28a中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)上述實(shí)施例所示的基于人工智能的關(guān)鍵詞提取方法。
本發(fā)明還提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述實(shí)施例所示的基于人工智能的關(guān)鍵詞提取方法。
本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以包括上述圖5所示實(shí)施例中的系統(tǒng)存儲(chǔ)器28a中的ram30a、和/或高速緩存存儲(chǔ)器32a、和/或存儲(chǔ)系統(tǒng)34a。
隨著科技的發(fā)展,計(jì)算機(jī)程序的傳播途徑不再受限于有形介質(zhì),還可以直接從網(wǎng)絡(luò)下載,或者采用其他方式獲取。因此,本實(shí)施例中的計(jì)算機(jī)可讀介質(zhì)不僅可以包括有形的介質(zhì),還可以包括無形的介質(zhì)。
本實(shí)施例的計(jì)算機(jī)可讀介質(zhì)可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括——但不限于——電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(read-onlymemory,rom)、隨機(jī)存取存儲(chǔ)器(randomaccessmemory,ram)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。