獲取搜索結(jié)果的方法和裝置制造方法
【專利摘要】本發(fā)明提出一種獲取搜索結(jié)果的方法和裝置,該獲取搜索結(jié)果的方法包括接收要搜索的問題;對所述問題進行句法語義分析,得到句法語義分析后的問題;獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù);根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。該方法能夠提高獲取的搜索結(jié)果的準(zhǔn)確度。
【專利說明】獲取搜索結(jié)果的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,尤其涉及一種獲取搜索結(jié)果的方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的普及,互聯(lián)網(wǎng)上的信息也越來越豐富,現(xiàn)在人們通過搜索引擎可以便捷的獲取自己想要的信息。但是,搜索引擎通常是以關(guān)鍵詞匹配來檢索信息,停留在語言的表層,使得檢索效果很難進一步提升。
[0003]為了克服搜索引擎的弊端,在對檢索技術(shù)的研究過程中出現(xiàn)了自動問答系統(tǒng),例如,百度研發(fā)的小度機器人。在自動問答系統(tǒng)中,用戶不需要把問題拆解成關(guān)鍵詞,可以直接將問題提交給問答系統(tǒng),問答系統(tǒng)通過自然語言處理技術(shù)得到問題的答案。
[0004]但是,現(xiàn)有技術(shù)的自動問答系統(tǒng)的知識抽取技術(shù)很存在一些問題,致使獲取的搜索結(jié)果不夠理想。
【發(fā)明內(nèi)容】
[0005]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0006]為此,本發(fā)明的一個目的在于提出一種獲取搜索結(jié)果的方法,該方法可以提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0007]本發(fā)明的另一個目的在于提出一種獲取搜索結(jié)果的裝置。
[0008]為達到上述目的,本發(fā)明第一方面實施例提出的獲取搜索結(jié)果的方法,包括:接收要搜索的問題;對所述問題進行句法語義分析,得到句法語義分析后的問題;獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù);根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。
[0009]本發(fā)明第一方面實施例提出的獲取搜索結(jié)果的方法,通過對問題進行句法語義分析,并且搜索的知識內(nèi)容也是對原始文本數(shù)據(jù)進行句法語義分析后得到的,由于句法語義分析可以抽取出句子的主干信息,并且可以實現(xiàn)語序無關(guān)和缺省信息自動補全,因此可以提高知識抽取的效果,提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0010]為達到上述目的,本發(fā)明第二方面實施例提出的獲取搜索結(jié)果的裝置,包括:接收模塊,用于接收要搜索的問題;分析模塊,用于對所述問題進行句法語義分析,得到句法語義分析后的問題;獲取模塊,用于獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù);確定模塊,用于根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果O
[0011]本發(fā)明第二方面實施例提出的獲取搜索結(jié)果的裝置,通過對問題進行句法語義分析,并且搜索的知識內(nèi)容也是對原始文本數(shù)據(jù)進行句法語義分析后得到的,由于句法語義分析可以抽取出句子的主干信息,并且可以實現(xiàn)語序無關(guān)和缺省信息自動補全,因此可以提高知識抽取的效果,提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0012]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0013]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0014]圖1是本發(fā)明一實施例提出的獲取搜索結(jié)果的方法的流程示意圖;
[0015]圖2是本發(fā)明實施例中語義角色標(biāo)注一個示例的示意圖;
[0016]圖3是本發(fā)明另一實施例提出的獲取搜索結(jié)果的方法的流程示意圖;
[0017]圖4是本發(fā)明實施例中知識抽取的流程示意圖;
[0018]圖5是本發(fā)明實施例中語義角色標(biāo)注的實現(xiàn)示意圖;
[0019]圖6是本發(fā)明實施例中一種搜索結(jié)果的展示示意圖;
[0020]圖7是本發(fā)明另一實施例提出的獲取搜索結(jié)果的裝置的結(jié)構(gòu)示意圖;
[0021]圖8是本發(fā)明另一實施例提出的獲取搜索結(jié)果的裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0022]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0023]圖1是本發(fā)明一實施例提出的獲取搜索結(jié)果的方法的流程示意圖,該方法包括:
[0024]Sll:接收要搜索的問題。
[0025]本實施例的方法可以應(yīng)用到自動問答系統(tǒng)中,在自動問答系統(tǒng)中,用戶可以在客戶端輸入問題,客戶端接收到用戶輸入的問題后,可以將該問題發(fā)送給服務(wù)端,以便服務(wù)端獲取問題對應(yīng)的答案。
[0026]S12:對所述問題進行句法語義分析,得到句法語義分析后的問題。
[0027]為了提高自動問答系統(tǒng)的知識抽取技術(shù),本實施例中,將句法語義分析引入到自動問答系統(tǒng)中。通過句法語義分析能夠從問題中更有效的抽取問題的有效信息。
[0028]句法語義分析可以包括:句法分析和語義角色標(biāo)注。句法分析可以具體是依存分析。
[0029]依存分析是一種句法分析技術(shù),它將句子分析成一顆依存句法樹,描述出各個詞語之間的依存關(guān)系,指出了詞語之間在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。
[0030]相關(guān)技術(shù)中,自動問答系統(tǒng)的知識抽取技術(shù)存在一些弊端,導(dǎo)致如下問題:
[0031]一是長句主干信息定位不準(zhǔn)確,對于較長的問題或較長的文本把握不住句子的重點;二是句子語序變換敏感,自然語言表述中存在語序自由的特點,不同語序可以表示相同的意思,目前問答系統(tǒng)中還不能有效處理語序問題;三是缺省信息無法有效補全,自然語言表述中常常存在缺省成分,需要根據(jù)上下文才能有效補全。
[0032]而本實施例中在自動問答系統(tǒng)引入語義角色標(biāo)注,以解決相關(guān)技術(shù)中自動問答系統(tǒng)存在的上述三個問題。
[0033]語義角色標(biāo)注技術(shù)是一種淺層語義分析技術(shù),用于抽取句子的主干信息。在語義角色標(biāo)注中,句子的語義單元用格表示,每個語義格包括一個謂詞及多個論元,謂詞是該語義格中的核心詞,論文是謂詞支配的語義角色。一般謂詞是由動詞或名詞組成,謂詞支配的語義角色包括施事、受事、主事、系事、時間、地點、方式和處所等。語義角色標(biāo)注以句子的分詞、詞性標(biāo)注、專名識別和依存分析結(jié)果作為輸入。參見圖2,圖2中是對句子“外商投資企業(yè)在改善中國出口商品結(jié)構(gòu)中發(fā)揮了顯著作用”的語義角色標(biāo)注結(jié)果,句子上方是依存分析結(jié)果,其中“HED” (頭結(jié)點)、“SBV” (主謂)、“V0B” (動賓)、“ATT” (修飾)、“ADV” (狀中)、“MT” (語態(tài))、“Ρ0Β” (介賓)、“L0C” (處所)表示兩個詞的依存關(guān)系;句子下方第一行為詞性標(biāo)注結(jié)果,“η”和“nr”表示名詞,“V”表示動詞;句子下方第二行為專名識別結(jié)果,
”和“N0R”表示非專名;句子下方第三行及以后每行表示一個語義格,大括號標(biāo)識的為當(dāng)前語義格的謂詞,虛線連接的其它詞為當(dāng)前謂詞的論元及角色標(biāo)簽,比如,第三行表示謂詞為“改善”,論元為“結(jié)構(gòu)”,“結(jié)構(gòu)”的角色標(biāo)簽是“patient”(受事)。“agent”表示施事,“manner”表示“方式”。
[0034]從圖2可以看出,通過語義角色標(biāo)注可以準(zhǔn)確定位長句主干信息。
[0035]另外,通過語義角色標(biāo)注還可以實現(xiàn)語序無關(guān)和缺省信息自動補全。
[0036]針對語序無關(guān):例如,如下三個句子對應(yīng)同一種“語義主干”:
[0037]1.百度現(xiàn)任總裁是誰
[0038]百度現(xiàn)任總裁[主事]是[謂詞]誰[系事]
[0039]主干:總裁-是-誰
[0040]i1.誰是百度現(xiàn)任總裁
[0041 ] 提問的方式變了,但句子主干不變
[0042]主干:誰-是-總裁
[0043]雖然提問的方式變了,但主干不變,因此可以實現(xiàn)語序無關(guān)。
[0044]針對缺省信息自動補全:一個句子的主干,總是由“主謂賓定狀補”這樣的結(jié)構(gòu)來一次或者多次嵌套/組合而成。即使主語(或者賓語,等)被隱藏,仍然無法阻止知識抽取系統(tǒng)抽取顯式的主干。例如:
[0045]1.百度現(xiàn)任總裁是誰?
[0046]i1.百度現(xiàn)任總裁是?
[0047]這兩個句子中的“是”這個謂詞,都是需要主語和賓語的,只不過第二個句子中的賓語被省略了。抽取出來的主干類似于:
[0048]總裁/王事-是/謂詞_誰/系事
[0049]總裁/王事_是/謂詞-〈unknown〉/系事
[0050]這種抽取出來的主干,就為非單個句子的信息抽取,提供了很好的線索。例如:
[0051]百度現(xiàn)任總裁是?李彥宏。
[0052]從這兩句話中,可以抽取到“總裁/主事-是/謂詞-李彥宏/系事”這樣的事件(event)。
[0053]S13:獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù)。
[0054]其中,可以預(yù)先收集原始文本數(shù)據(jù),例如,在互聯(lián)網(wǎng)上收集原始數(shù)據(jù),之后采用上述的句法語義分析方法對原始文本數(shù)據(jù)進行處理,得到知識內(nèi)容,并保存到知識庫中。
[0055]S14:根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。
[0056]其中,當(dāng)問題不需要分解時,可以直接根據(jù)句法語義分析后的問題在知識內(nèi)容中進行搜索,得到對應(yīng)的答案;例如,當(dāng)搜索的問題時“珠穆朗瑪峰多高時”,可以直接在知識內(nèi)容中搜索得到答案,如8844.43米。或者,
[0057]當(dāng)問題包含多個子問題時,可以對問題進行分解,得到子問題,對應(yīng)每個子問題在知識內(nèi)容中進行搜索得到答案,再將對應(yīng)每個子問題的答案進行組合得到最終的答案。例如,當(dāng)搜索的問題是“世界第一高峰多高時”,則可以首先分解成“世界第一高峰是哪個山峰”和“該山峰多高”,并搜索到對應(yīng)的答案,如“世界第一高峰是珠穆朗瑪峰”和“珠穆朗瑪峰是8844.43米”,則經(jīng)過組合后可以得到答案是8844.43米。
[0058]本實施例通過對問題進行句法語義分析,并且搜索的知識內(nèi)容也是對原始文本數(shù)據(jù)進行句法語義分析后得到的,由于句法語義分析可以抽取出句子的主干信息,并且可以實現(xiàn)語序無關(guān)和缺省信息自動補全,因此可以提高知識抽取的效果,提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0059]圖3是本發(fā)明另一實施例提出的獲取搜索結(jié)果的方法的流程示意圖,該方法包括:
[0060]S31:獲取互聯(lián)網(wǎng)數(shù)據(jù),將該數(shù)據(jù)確定為原始文本數(shù)據(jù)。
[0061]例如,可以采用爬蟲技術(shù)等從互聯(lián)網(wǎng)中獲取大量的文本數(shù)據(jù)。
[0062]S32:對獲取的原始文本數(shù)據(jù)進行知識抽取,獲取知識內(nèi)容。
[0063]參見圖4,知識抽取的流程可以包括:
[0064]S41:對獲取的原始文本數(shù)據(jù)進行基礎(chǔ)處理。
[0065]其中,基礎(chǔ)處理可以包括:分詞,詞性標(biāo)注,專名識別和歸一化處理等。
[0066]歸一化處理例如將不同表述方式的同語義的詞歸為一種。
[0067]S42:對基礎(chǔ)處理后的文本數(shù)據(jù)進行句法語義分析。
[0068]與現(xiàn)有技術(shù)不同,本實施例在建立知識庫中需要對文本數(shù)據(jù)進行句法語義分析,以獲取句法語義分析后的文本數(shù)據(jù)。
[0069]句法語義分析可以包括:依存分析和語義角色標(biāo)注。
[0070]依次分析和語義角色標(biāo)注的描述可以參見上一實施例。
[0071]具體的,參見圖5,語義角色標(biāo)注的實現(xiàn)可以分為三步,在圖5中用三個任務(wù)表示,分別是:
[0072]任務(wù)一:謂語識別,識別句子中每個語義格的核心詞一謂詞,一般是動詞或名
ο
[0073]任務(wù)二:謂語語義分類,一般一個謂詞包含多個語義,如“打毛衣”和“打醬油”中的“打”表示不同的意思,分別指“編織”和“購買”。
[0074]任務(wù)三:謂語的論云識別和角色判定,這個任務(wù)包括兩個階段,即謂詞論元識別,和論元與謂詞關(guān)系判定,本發(fā)明中這兩個任務(wù)是同時實現(xiàn)的。語義角色包括:施事、受事、時間、處所和方式等。
[0075]圖5中輸入句子為“百度現(xiàn)任總裁是誰”,任務(wù)一將句子中的謂詞“是”識別出來并用“Y”標(biāo)識;任務(wù)二對謂詞“是”進行語義類別判定,“是.01”表示“是”的語義類別是知網(wǎng)語義庫中的第I個類別;任務(wù)三種將謂詞“是”的論元“總裁”和“誰”識別出來,并判定每個論元充當(dāng)?shù)恼Z義角色,包括“主事”、“系事”等。
[0076]S43:對句法語義分析后的文本數(shù)據(jù)進行知識計算,得到知識內(nèi)容。
[0077]知識計算可以包括:關(guān)系識別,指代消解和關(guān)系推理等。
[0078]S33:將知識內(nèi)容保存在知識庫中。
[0079]該知識庫可以是一次性建立周期性更新的。
[0080]上述的S31-S33可以離線完成。當(dāng)在線搜索時,可以執(zhí)行如下步驟:
[0081 ] S34:獲取用戶輸入的問題。
[0082]例如,用戶在客戶端輸入問題,服務(wù)端接收客戶端發(fā)送的該問題。用戶可以采用自然語言進行問題輸入。
[0083]S35:對該問題進行句法語義分析。
[0084]句法語義分析可以包括依存分析和語義角色標(biāo)注,具體內(nèi)容可以參見上述相關(guān)描述。
[0085]如果問題包含多個子問題,該方法還可以包括:
[0086]S36:對問題進行問題分解,得到多個子問題。
[0087]例如,對于輸入的問題,問答系統(tǒng)使用依存分析和語義角色標(biāo)注技術(shù)對問題進行初步分析,在初步分析基礎(chǔ)上再進行意圖分析和定型詞(Lexical answer type,LAT)識別;然后根據(jù)意圖分析和LAT識別結(jié)果對問題進行分解,一個問題根據(jù)分析的不同意圖或不同類型可以分解成多個子問題。
[0088]S37:對應(yīng)每個子問題,在知識庫進行知識搜索,得到對應(yīng)每個子問題的答案。
[0089]針對各個子問題可以從知識庫中進行知識搜索,得到對應(yīng)每個子問題的答案,其中,每個子問題的答案可以是對知識搜索結(jié)果進行排序并選擇后得到的。
[0090]S38:將對應(yīng)每個子問題的答案進行答案合成,得到用戶輸入的問題對應(yīng)的答案。
[0091]可以將所有子問題的答案進行合成后得到答案。
[0092]S39:輸出答案。
[0093]服務(wù)端獲取答案后,可以將答案發(fā)送給客戶端,由客戶端進行展示。
[0094]例如,參見圖6,用戶可以采用自然語言表述的問題“珠穆朗瑪峰有多高”61,問答系統(tǒng)對問題進行分析,并用句法語義匹配方式從知識庫中尋找準(zhǔn)確答案,再將答案返回給客戶端,客戶端將答案62展示給用戶。
[0095]本實施例中,在自動問答系統(tǒng)中引入可語義角色標(biāo)注技術(shù),并在知識抽取時也采用可語義角色標(biāo)注技術(shù),通過采用語義角色標(biāo)注,可以解決知識抽取中的主干識別、語序適配和成分缺省問題,并在語義角色標(biāo)注中引入專名識別特征。通過引入上述的語義角色標(biāo)注可以提高知識抽取的效果,提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0096]圖7是本發(fā)明另一實施例提出的獲取搜索結(jié)果的裝置的結(jié)構(gòu)示意圖,該裝置70包括:接收模塊71、分析模塊72、獲取模塊73和確定模塊74。
[0097]接收模塊71用于接收要搜索的問題。
[0098]該裝置可以位于自動問答系統(tǒng)的服務(wù)端。
[0099]用戶可以在客戶端輸入問題,客戶端接收到用戶輸入的問題后,可以將該問題發(fā)送給服務(wù)端,以便服務(wù)端獲取問題對應(yīng)的答案。
[0100]分析模塊72用于對所述問題進行句法語義分析,得到句法語義分析后的問題;
[0101]可選的,所述分析模塊72具體用于:
[0102]對所述問題進行句法分析和語義角色標(biāo)注,得到句法語義分析后的問題。
[0103]可選的,所述分析模塊72具體用于:
[0104]對所述問題進行依存分析;
[0105]對依存分析后的問題進行謂語識別,謂語語義分類,以及,謂語的論元識別和角色判定,得到句法語義分析后的問題。
[0106]為了提高自動問答系統(tǒng)的知識抽取技術(shù),本實施例中,將句法語義分析引入到自動問答系統(tǒng)中。通過句法語義分析能夠從問題中更有效的抽取問題的有效信息。
[0107]句法語義分析可以包括:句法分析和語義角色標(biāo)注。句法分析可以具體是依存分析。
[0108]依存分析是一種句法分析技術(shù),它將句子分析成一顆依存句法樹,描述出各個詞語之間的依存關(guān)系,指出了詞語之間在句法上的搭配關(guān)系,這種搭配關(guān)系是和語義相關(guān)聯(lián)的。
[0109]相關(guān)技術(shù)中,自動問答系統(tǒng)的知識抽取技術(shù)存在一些弊端,導(dǎo)致如下問題:
[0110]一是長句主干信息定位不準(zhǔn)確,對于較長的問題或較長的文本把握不住句子的重點;二是句子語序變換敏感,自然語言表述中存在語序自由的特點,不同語序可以表示相同的意思,目前問答系統(tǒng)中還不能有效處理語序問題;三是缺省信息無法有效補全,自然語言表述中常常存在缺省成分,需要根據(jù)上下文才能有效補全。
[0111]而本實施例中在自動問答系統(tǒng)引入語義角色標(biāo)注,以解決相關(guān)技術(shù)中自動問答系統(tǒng)存在的上述三個問題。
[0112]語義角色標(biāo)注技術(shù)是一種淺層語義分析技術(shù),用于抽取句子的主干信息。在語義角色標(biāo)注中,句子的語義單元用格表示,每個語義格包括一個謂詞及多個論元,謂詞是該語義格中的核心詞,論文是謂詞支配的語義角色。一般謂詞是由動詞或名詞組成,謂詞支配的語義角色包括施事、受事、主事、系事、時間、地點、方式和處所等。語義角色標(biāo)注以句子的分詞、詞性標(biāo)注、專名識別和依存分析結(jié)果作為輸入。參見圖2,圖2中是對句子“外商投資企業(yè)在改善中國出口商品結(jié)構(gòu)中發(fā)揮了顯著作用”的語義角色標(biāo)注結(jié)果,句子上方是依存分析結(jié)果,其中“HED” (頭結(jié)點)、“SBV” (主謂)、“V0B” (動賓)、“ATT” (修飾)、“ADV” (狀中)、“MT” (語態(tài))、“Ρ0Β” (介賓)、“L0C” (處所)表示兩個詞的依存關(guān)系;句子下方第一行為詞性標(biāo)注結(jié)果,“η”和“nr”表示名詞,“V”表示動詞;句子下方第二行為專名識別結(jié)果,
”和“N0R”表示非專名;句子下方第三行及以后每行表示一個語義格,大括號標(biāo)識的為當(dāng)前語義格的謂詞,虛線連接的其它詞為當(dāng)前謂詞的論元及角色標(biāo)簽,比如,第三行表示謂詞為“改善”,論元為“結(jié)構(gòu)”,“結(jié)構(gòu)”的角色標(biāo)簽是“patient”(受事)?!癮gent”表示施事,“manner”表示“方式”。
[0113]從圖2可以看出,通過語義角色標(biāo)注可以準(zhǔn)確定位長句主干信息。
[0114]另外,通過語義角色標(biāo)注還可以實現(xiàn)語序無關(guān)和缺省信息自動補全。
[0115]針對語序無關(guān):例如,如下三個句子對應(yīng)同一種“語義主干”:
[0116]1.百度現(xiàn)任總裁是誰
[0117]百度現(xiàn)任總裁[主事]是[謂詞]誰[系事]
[0118]主干:總裁-是-誰
[0119]i1.誰是百度現(xiàn)任總裁
[0120]提問的方式變了,但句子主干不變
[0121]主干:誰-是-總裁
[0122]雖然提問的方式變了,但主干不變,因此可以實現(xiàn)語序無關(guān)。
[0123]針對缺省信息自動補全:一個句子的主干,總是由“主謂賓定狀補”這樣的結(jié)構(gòu)來一次或者多次嵌套/組合而成。即使主語(或者賓語,等)被隱藏,仍然無法阻止知識抽取系統(tǒng)抽取顯式的主干。例如:
[0124]1.百度現(xiàn)任總裁是誰?
[0125]i1.百度現(xiàn)任總裁是?
[0126]這兩個句子中的“是”這個謂詞,都是需要主語和賓語的,只不過第二個句子中的賓語被省略了。抽取出來的主干類似于:
[0127]總裁/主事-是/謂詞_誰/系事
[0128]總裁/王事_是/謂詞-〈unknown〉/系事
[0129]這種抽取出來的主干,就為非單個句子的信息抽取,提供了很好的線索。例如:
[0130]百度現(xiàn)任總裁是?李彥宏。
[0131]從這兩句話中,可以抽取到“總裁/主事-是/謂詞-李彥宏/系事”這樣的事件(event)。
[0132]獲取模塊73用于獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù);
[0133]其中,可以預(yù)先收集原始文本數(shù)據(jù),例如,在互聯(lián)網(wǎng)上收集原始數(shù)據(jù),之后采用上述的句法語義分析方法對原始文本數(shù)據(jù)進行處理,得到知識內(nèi)容,并保存到知識庫中。
[0134]確定模塊74用于根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。
[0135]可選的,所述確定模塊74具體用于:
[0136]在所述知識內(nèi)容中搜索與所述句法語義分析后的問題匹配的答案,將所述匹配的答案確定為所述問題對應(yīng)的答案;或者,
[0137]對所述句法語義分析后的問題進行分析,根據(jù)分析結(jié)果將所述問題分解為至少兩個子問題,在所述知識內(nèi)容中搜索得到與所述子問題對應(yīng)的子答案,對所述子答案進行合成,將合成后的答案確定為所述問題對應(yīng)的答案。
[0138]其中,當(dāng)問題不需要分解時,可以直接根據(jù)句法語義分析后的問題在知識內(nèi)容中進行搜索,得到對應(yīng)的答案;例如,當(dāng)搜索的問題時“珠穆朗瑪峰多高時”,可以直接在知識內(nèi)容中搜索得到答案,如8844.43米。或者,
[0139]當(dāng)問題包含多個子問題時,可以對問題進行分解,得到子問題,對應(yīng)每個子問題在知識內(nèi)容中進行搜索得到答案,再將對應(yīng)每個子問題的答案進行組合得到最終的答案。例如,當(dāng)搜索的問題是“世界第一高峰多高時”,則可以首先分解成“世界第一高峰是哪個山峰”和“該山峰多高”,并搜索到對應(yīng)的答案,如“世界第一高峰是珠穆朗瑪峰”和“珠穆朗瑪峰是8844.43米”,則經(jīng)過組合后可以得到答案是8844.43米。
[0140]另一實施例中,參見圖8,該裝置70還包括:
[0141]收集模塊75,用于收集原始文本數(shù)據(jù);
[0142]例如,可以采用爬蟲技術(shù)等從互聯(lián)網(wǎng)中獲取大量的文本數(shù)據(jù)。
[0143]第一處理模塊76,用于對所述原始文本數(shù)據(jù)進行基礎(chǔ)處理,得到基礎(chǔ)處理后的文本數(shù)據(jù);
[0144]其中,基礎(chǔ)處理可以包括:分詞,詞性標(biāo)注,專名識別和歸一化處理等。
[0145]歸一化處理例如將不同表述方式的同語義的詞歸為一種。
[0146]第二處理模塊77,用于對所述基礎(chǔ)處理后的文本數(shù)據(jù)進行句法語義分析,得到句法語義分析后的文本數(shù)據(jù);
[0147]與現(xiàn)有技術(shù)不同,本實施例在建立知識庫中需要對文本數(shù)據(jù)進行句法語義分析,以獲取句法語義分析后的文本數(shù)據(jù)。
[0148]句法語義分析可以包括:依存分析和語義角色標(biāo)注。
[0149]依次分析和語義角色標(biāo)注的描述可以參見上述相關(guān)描述。
[0150]具體的,參見圖5,語義角色標(biāo)注的實現(xiàn)可以分為三步,在圖5中用三個任務(wù)表示,分別是:
[0151]任務(wù)一:謂語識別,識別句子中每個語義格的核心詞一謂詞,一般是動詞或名
ο
[0152]任務(wù)二:謂語語義分類,一般一個謂詞包含多個語義,如“打毛衣”和“打醬油”中的“打”表示不同的意思,分別指“編織”和“購買”。
[0153]任務(wù)三:謂語的論云識別和角色判定,這個任務(wù)包括兩個階段,即謂詞論元識別,和論元與謂詞關(guān)系判定,本發(fā)明中這兩個任務(wù)是同時實現(xiàn)的。語義角色包括:施事、受事、時間、處所和方式等。
[0154]圖5中輸入句子為“百度現(xiàn)任總裁是誰”,任務(wù)一將句子中的謂詞“是”識別出來并用“Y”標(biāo)識;任務(wù)二對謂詞“是”進行語義類別判定,“是.01”表示“是”的語義類別是知網(wǎng)語義庫中的第I個類別;任務(wù)三種將謂詞“是”的論元“總裁”和“誰”識別出來,并判定每個論元充當(dāng)?shù)恼Z義角色,包括“主事”、“系事”等。
[0155]第三處理模塊78,用于對所述句法語義分析后的文本數(shù)據(jù)進行知識計算,得到知識內(nèi)容;
[0156]知識計算可以包括:關(guān)系識別,指代消解和關(guān)系推理等。
[0157]保存模塊79,用于將所述知識內(nèi)容保存到知識庫中。
[0158]該知識庫可以是一次性建立周期性更新的。
[0159]在得到知識庫中,可以在線對輸入的問題進行基于句法語義的分析,得到匹配的結(jié)果。
[0160]本實施例通過對問題進行句法語義分析,并且搜索的知識內(nèi)容也是對原始文本數(shù)據(jù)進行句法語義分析后得到的,由于句法語義分析可以抽取出句子的主干信息,并且可以實現(xiàn)語序無關(guān)和缺省信息自動補全,因此可以提高知識抽取的效果,提高獲取的搜索結(jié)果的準(zhǔn)確度。
[0161]需要說明的是,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0162]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0163]應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0164]本【技術(shù)領(lǐng)域】的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0165]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
[0166]上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0167]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0168]盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。
【權(quán)利要求】
1.一種獲取搜索結(jié)果的方法,其特征在于,包括: 接收要搜索的問題; 對所述問題進行句法語義分析,得到句法語義分析后的問題; 獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù); 根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,包括: 在所述知識內(nèi)容中搜索與所述句法語義分析后的問題匹配的答案,將所述匹配的答案確定為所述問題對應(yīng)的答案;或者, 對所述句法語義分析后的問題進行分析,根據(jù)分析結(jié)果將所述問題分解為至少兩個子問題,在所述知識內(nèi)容中搜索得到與所述子問題對應(yīng)的子答案,對所述子答案進行合成,將合成后的答案確定為所述問題對應(yīng)的答案。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述接收要搜索的問題之前,所述方法還包括:建立所述知識庫,所述建立所述知識庫,包括: 收集原始文本數(shù)據(jù); 對所述原始文本數(shù)據(jù)進行基礎(chǔ)處理,得到基礎(chǔ)處理后的文本數(shù)據(jù); 對所述基礎(chǔ)處理后的文本數(shù)據(jù)進行句法語義分析,得到句法語義分析后的文本數(shù)據(jù); 對所述句法語義分析后的文本數(shù)據(jù)進行知識計算,得到知識內(nèi)容; 將所述知識內(nèi)容保存到知識庫中。
4.根據(jù)權(quán)利要求1-3任一項所述的方法,其特征在于,所述句法語義分析,包括: 句法分析和語義角色標(biāo)注。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述語義角色分析包括: 謂語識別; 謂語語義分類;以及, 謂語的論元識別和角色判定。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述句法分析是依存分析。
7.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述句法語義分析后的問題進行分析,包括: 對所述句法語義分析后的問題進行意圖分析和LAT分析。
8.一種獲取搜索結(jié)果的裝置,其特征在于,包括: 接收模塊,用于接收要搜索的問題; 分析模塊,用于對所述問題進行句法語義分析,得到句法語義分析后的問題; 獲取模塊,用于獲取預(yù)先建立的知識庫中的知識內(nèi)容,所述知識內(nèi)容包括對原始文本數(shù)據(jù)進行句法語義分析后得到的文本數(shù)據(jù); 確定模塊,用于根據(jù)所述句法語義分析后的問題和所述知識內(nèi)容,得到與所述問題對應(yīng)的答案,并將所述答案確定為搜索結(jié)果。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊具體用于: 在所述知識內(nèi)容中搜索與所述句法語義分析后的問題匹配的答案,將所述匹配的答案確定為所述問題對應(yīng)的答案;或者, 對所述句法語義分析后的問題進行分析,根據(jù)分析結(jié)果將所述問題分解為至少兩個子問題,在所述知識內(nèi)容中搜索得到與所述子問題對應(yīng)的子答案,對所述子答案進行合成,將合成后的答案確定為所述問題對應(yīng)的答案。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還包括: 收集模塊,用于收集原始文本數(shù)據(jù); 第一處理模塊,用于對所述原始文本數(shù)據(jù)進行基礎(chǔ)處理,得到基礎(chǔ)處理后的文本數(shù)據(jù); 第二處理模塊,用于對所述基礎(chǔ)處理后的文本數(shù)據(jù)進行句法語義分析,得到句法語義分析后的文本數(shù)據(jù); 第三處理模塊,用于對所述句法語義分析后的文本數(shù)據(jù)進行知識計算,得到知識內(nèi)容; 保存模塊,用于將所述知識內(nèi)容保存到知識庫中。
11.根據(jù)權(quán)利要求8-10任一項所述的裝置,其特征在于,所述分析模塊具體用于: 對所述問題進行句法分析和語義角色標(biāo)注,得到句法語義分析后的問題。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述分析模塊具體用于: 對所述問題進行依存分析; 對依存分析后的問題進行謂語識別,謂語語義分類,以及,謂語的論元識別和角色判定,得到句法語義分析后的問題。
【文檔編號】G06F17/30GK104298658SQ201410594905
【公開日】2015年1月21日 申請日期:2014年10月29日 優(yōu)先權(quán)日:2014年10月29日
【發(fā)明者】吳文權(quán), 吳先超, 劉占一 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司