文件搜索設(shè)備和文件搜索方法
【專利摘要】本發(fā)明涉及文件搜索設(shè)備和文件搜索方法。文件搜索設(shè)備接收來自用戶的請求(搜索請求),并且向文件集管理系統(tǒng)發(fā)出搜索查詢,根據(jù)對搜索服務(wù)使用的限制來構(gòu)建該搜索查詢。存儲單元存儲多個搜索項。生成單元選擇兩個或更多個搜索項。生成單元確定要被選擇的搜索項的組合,使得搜索查詢的大小等于或小于第一閾值,并且使得響應(yīng)于搜索查詢要由文件集管理系統(tǒng)檢索的文件數(shù)目的估計值等于或小于第二閾值。
【專利說明】
文件搜索設(shè)備和文件搜索方法
技術(shù)領(lǐng)域
[0001 ]本文討論的實施例涉及文件搜索設(shè)備和文件搜索方法。
【背景技術(shù)】
[0002] 存在管理大量文件集的信息處理系統(tǒng)。例如,一些提供所謂的社交網(wǎng)站服務(wù)的系 統(tǒng)接收若干用戶經(jīng)由網(wǎng)絡(luò)發(fā)布的文本,并且基于每個用戶的設(shè)置,將發(fā)布的每個文本分配 至除發(fā)布該文本的用戶以外的其他用戶,管理大量文件集的系統(tǒng)經(jīng)常提供搜索服務(wù),其接 收包括搜索項的搜索請求,從所管理的文件集中檢索包含搜索詞的文件,并且傳輸經(jīng)檢索 的文件。例如,通過使用由存儲若干用戶發(fā)布的文本的系統(tǒng)提供的搜索服務(wù),經(jīng)??梢粤私?到某個主題中公眾興趣的趨勢。
[0003] 已經(jīng)提出了通過添加搜索項來協(xié)助對一組搜索結(jié)果進(jìn)行篩選的統(tǒng)計估計設(shè)備。所 提出的統(tǒng)計估計設(shè)備對匹配來自數(shù)據(jù)庫的搜索項的元素進(jìn)行搜索,獲得搜索結(jié)果集,并且 提取獲得搜索結(jié)果集的一部分作為樣本集。當(dāng)指定附加搜索項時,統(tǒng)計估計設(shè)備搜索與來 自樣本集的附加搜索項匹配的元素,以便獲得樣本子集。統(tǒng)計估計設(shè)備通過使得樣本子集 的元素數(shù)目除以整個樣本集的元素數(shù)目來計算出現(xiàn)率。然后,統(tǒng)計估計設(shè)備將出現(xiàn)率乘以 原始搜索結(jié)果集的元素數(shù)目,并且通過使用原始搜索項和附加搜索項在數(shù)據(jù)庫中再次執(zhí)行 搜索,從而估計要被獲得的元素數(shù)目。
[0004] 此外,已經(jīng)提出了改變搜索條件的搜索范圍確定設(shè)備,使得從目標(biāo)數(shù)據(jù)庫獲得的 搜索結(jié)果的數(shù)目落入用戶指定的范圍。所提出的搜索范圍確定設(shè)備預(yù)先將樣品搜索條件傳 輸至目標(biāo)數(shù)據(jù)庫,并且獲得匹配樣品搜索條件的搜索結(jié)果的數(shù)目。此外,搜索范圍確定設(shè)備 對小于目標(biāo)數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)庫進(jìn)行搜索,并且獲得與樣品搜索條件匹配的搜索結(jié)果的數(shù) 目。然后,搜索范圍確定設(shè)備預(yù)先計算目標(biāo)數(shù)據(jù)庫的搜索結(jié)果的數(shù)目與基礎(chǔ)數(shù)據(jù)庫的搜索 結(jié)果的數(shù)目的比率。當(dāng)用戶指定搜索條件時,搜索范圍確定設(shè)備在搜索目標(biāo)數(shù)據(jù)庫之前搜 索基礎(chǔ)數(shù)據(jù)庫,將預(yù)先計算的比率乘以基礎(chǔ)數(shù)據(jù)庫的搜索結(jié)果的數(shù)目,并且從而估計要從 目標(biāo)數(shù)據(jù)庫獲得的搜索結(jié)果的數(shù)目。
[0005] 例如,參見日本公開特許公報第11-85764號和第2000-99514號。
[0006] 通過使用搜索服務(wù),提供搜索服務(wù)的系統(tǒng)的用戶經(jīng)常需要收集與各種各樣搜索項 相關(guān)的大量文件。如上所述,例如用戶經(jīng)常需要收集涉及各種主題的文本,以便分析公眾興 趣的趨勢。在這種情況下,用戶需要獲得的文件可以是包含若干搜索項中的至少一個的文 件。亦即,搜索條件可以是包括結(jié)合有或(0R)運算符的許多搜索項的一個。因此,如果包括 所有期望搜索項的搜索查詢被傳輸至系統(tǒng)以便獲得包含一批中搜索項中的至少一個的所 有文件,則過度的處理負(fù)載被施加于系統(tǒng)。
[0007] 因此,在某些情況下,為了不施加過度的處理負(fù)載,對搜索服務(wù)的使用進(jìn)行限制。 在其它情況下,響應(yīng)于來自系統(tǒng)操作員的請求,用戶需要主動對搜索服務(wù)的使用進(jìn)行限制。
[0008] 如果存在對搜索服務(wù)的使用的限制,則可能不會允許用戶發(fā)出包括許多結(jié)合有或 運算符的搜索項的"重的"搜索查詢。因此,代替地,用戶需要發(fā)出多個"輕的"搜索查詢。然 而,問題是如何創(chuàng)建使得能夠?qū)ο到y(tǒng)限制下的所有期望的文件進(jìn)行有效檢索的搜索查詢。
【發(fā)明內(nèi)容】
[0009] 根據(jù)一個方面,本發(fā)明旨在提供一種能減少在系統(tǒng)限制下發(fā)出搜索查詢的次數(shù)的 文件搜索設(shè)備和文件搜索方法。
[0010] 根據(jù)本發(fā)明的一個方面,提供了一種文件搜索設(shè)備,包括:存儲器,其存儲由請求 指定的多個搜索項,該請求通過使用管理文件集的系統(tǒng)來請求針對包括多個搜索項中的至 少一個的文件的搜索;以及執(zhí)行過程的處理器,包括:當(dāng)選擇來自多個搜索項的兩個或更多 個搜索項并且生成搜索查詢時,確定要被選擇的搜索項的組合,使得搜索查詢的大小等于 或小于第一閾值,并且使得響應(yīng)于搜索查詢要由系統(tǒng)檢索的文件數(shù)目的估計值等于或小于 第二閾值,其中,所述搜索查詢包括所選擇的兩個或更多個搜索項,并且要被輸入至系統(tǒng)。
【附圖說明】
[0011]圖1圖示了根據(jù)第一實施例的文件搜索設(shè)備的配置的示例;
[0012] 圖2圖示了根據(jù)第二實施例的搜索系統(tǒng)的配置的示例;
[0013] 圖3圖示了根據(jù)第二實施例的搜索中介服務(wù)器的硬件配置的示例;
[0014] 圖4圖示了根據(jù)第二實施例的搜索中介服務(wù)器的功能配置的示例;
[0015] 圖5是根據(jù)第二實施例的搜索中介過程的流程圖;
[0016] 圖6和圖7是根據(jù)第二實施例的查詢構(gòu)建過程的流程圖;
[0017]圖8圖示了根據(jù)第二實施例的搜索項表格的示例;
[0018]圖9圖不了根據(jù)第二實施例的查詢候選列表的不例;
[0019]圖10圖不了根據(jù)第二實施例的查詢候選列表的不例;
[0020]圖11圖示了根據(jù)第二實施例的搜索項表格的示例;
[0021 ]圖12是根據(jù)第二實施例的搜索服務(wù)使用過程的流程圖;
[0022]圖13是根據(jù)第二實施例的估計參數(shù)更新過程的流程圖;
[0023]圖14是根據(jù)第二實施例的已知比率更新過程的流程圖;
[0024]圖15圖示了根據(jù)第二實施例的比率表格的示例;
[0025]圖16是根據(jù)第二實施例的已知共生比率更新過程的流程圖;
[0026] 圖17圖示了根據(jù)第二實施例的共生比率表格的示例;
[0027] 圖18是根據(jù)第二實施例的相似性參數(shù)更新過程的流程圖;
[0028] 圖19圖示了根據(jù)第二實施例的相似性參數(shù)更新過程的示例;
[0029]圖20是根據(jù)第二實施例的估計比率更新過程的流程圖;
[0030]圖21是根據(jù)第二實施例的相似性計算過程的流程圖;
[0031 ]圖22是根據(jù)第二實施例的估計共生比率更新過程的流程圖;
[0032] 圖23圖示了根據(jù)第二實施例的關(guān)系字典的示例;
[0033] 圖24圖示了根據(jù)參考實施例(在文件集沒有重疊的情況下)發(fā)出搜索查詢的示例;
[0034] 圖25圖示了根據(jù)第二實施例(在文件集沒有重疊的情況下)發(fā)出搜索查詢的示例;
[0035] 圖26圖示了根據(jù)參考實施例(在文件集重疊的情況下)發(fā)出搜索查詢的示例;
[0036] 圖27圖示了根據(jù)第二實施例(在文件集重疊的情況下)發(fā)出搜索查詢的示例;
[0037]圖28圖示了根據(jù)第二實施例在查詢執(zhí)行之前的用戶界面顯示的示例;
[0038]圖29圖示了根據(jù)第二實施例在查詢執(zhí)行之后的用戶界面顯示的示例;以及 [0039]圖30圖示了根據(jù)第二實施例的顯示日志的用戶界面顯示的示例。
【具體實施方式】
[0040]在下面將參考附圖對幾個實施例進(jìn)行描述,在附圖中,貫穿全文,相同的附圖標(biāo)記 指代相同的元素。
[0041 ] (a)第一實施例
[0042]首先,將參考圖1來描述根據(jù)第一實施例的文件搜索設(shè)備1。圖1圖示了根據(jù)第一實 施例的文件搜索設(shè)備1的配置的示例。
[0043]文件搜索設(shè)備1是可連接至文件集管理系統(tǒng)8的信息處理設(shè)備。文件集管理系統(tǒng)8 提供文件搜索服務(wù),該服務(wù)接收搜索請求并且返回包含任何包括在搜索請求中的搜索項的 文件集8b來作為文件數(shù)據(jù)庫8a中的搜索結(jié)果。
[0044] 當(dāng)提供搜索服務(wù)時,文件集管理系統(tǒng)8對用戶進(jìn)行的搜索服務(wù)的使用施加限制。對 搜索服務(wù)使用的限制例如包括:對搜索輸入的量的限制(搜索查詢的大小等),對搜索輸出 的量的限制(例如,要被輸出的文件的數(shù)目等),對使用頻率的限制等。由于對文件集管理系 統(tǒng)8的使用的這些限制,用戶經(jīng)常需要多次使用搜索服務(wù)且花費大量時間,以便獲得包含任 何多個搜索項的文件集8b。
[0045] 文件搜索設(shè)備1接收來自用戶的請求(搜索請求)2,并且發(fā)出搜索查詢6至文件集 管理系統(tǒng)8,根據(jù)對搜索服務(wù)使用的限制來構(gòu)建該搜索查詢6。因此,在減少搜索服務(wù)使用的 次數(shù)的同時,文件搜索設(shè)備1獲得文件集8b。
[0046] 文件搜索設(shè)備1包括存儲單元la和生成單元lb。存儲單元la存儲多個搜索項(搜索 項3a、3b、…和3n)。存儲單元la例如可以是隨機(jī)存取存儲器(RAM)等。在請求2中指定搜索項 3a、3b、…和3n。請求2通過使用文件集管理系統(tǒng)8來請求對包含搜索項3a、3b、…和3n中的至 少一個的文件進(jìn)行搜索。
[0047]生成單元lb從搜索項3a、3b、…和3n中選擇兩個或更多個搜索項(例如,搜索項3 j 和3k)。生成單元lb確定要被選擇的搜索項,使得搜索項的組合滿足預(yù)定條件。
[0048]預(yù)定條件是搜索查詢6的大小等于或小于第一閾值4a,并且響應(yīng)于搜索查詢6,要 由文件集管理系統(tǒng)8檢索的文件5的數(shù)目的估計值等于或小于第二閾值4b。
[0049] 搜索查詢6的大小是對應(yīng)于文件集管理系統(tǒng)8的輸入限制的指標(biāo),并且例如可以是 包括在搜索查詢6中的字符的數(shù)目。要注意的是,搜索查詢6的大小可以是包括在搜索查詢6 中的搜索項的數(shù)目。第一閾值4a是對應(yīng)于文件集管理系統(tǒng)8的輸入限制的值。例如,預(yù)先對 第一閾值4a進(jìn)行設(shè)置并且存儲在存儲單元la中。
[0050] 要由文件集管理系統(tǒng)8針對搜索查詢6來進(jìn)行檢索的文件5的數(shù)目的估計值是對應(yīng) 于文件集管理系統(tǒng)8的輸出限制的指標(biāo),并且文件5的數(shù)目的估計值例如可以通過文件集管 理系統(tǒng)8被輸出為搜索查詢6的搜索結(jié)果。估計值是使用預(yù)定估計方法來進(jìn)行估計的值。第 二閾值4b是對應(yīng)于文件集管理系統(tǒng)8的輸出限制的值。例如,預(yù)先對第二閾值4b進(jìn)行設(shè)置并 且存儲在存儲單元la中。
[0051]例如,生成單元lb從搜索項3 j和3k這樣所選擇的組合來生成包括搜索表達(dá)式"搜 索項3 j或搜索項3k"的搜索查詢6。期望搜索查詢6的搜索結(jié)果中的文件數(shù)目不超過文件集 管理系統(tǒng)8的輸出限制。因此,文件搜索設(shè)備1不需要使用相同的搜索項來再次發(fā)出搜索查 詢6。因此,文件搜索設(shè)備1能夠減少在系統(tǒng)限制(對文件集管理系統(tǒng)8的使用的限制)下發(fā)出 的搜索查詢6的次數(shù)。
[0052] (b)第二實施例
[0053]接下來,將參考圖2來描述根據(jù)第二實施例的搜索系統(tǒng)50。圖2圖示了根據(jù)第二實 施例的搜索系統(tǒng)50的配置的示例。
[0054]搜索系統(tǒng)50包括:搜索中介服務(wù)器10、搜索終端設(shè)備51、文件搜索服務(wù)器52、文件 數(shù)據(jù)庫53以及網(wǎng)絡(luò)54和網(wǎng)絡(luò)55。搜索系統(tǒng)50提供接收搜索請求的文件搜索服務(wù),并且返回 文件數(shù)據(jù)庫53中的搜索結(jié)果。搜索中介服務(wù)器10是文件搜索設(shè)備的一種形式。
[0055] 搜索中介服務(wù)器10經(jīng)由網(wǎng)絡(luò)54連接至搜索終端設(shè)備51,并且經(jīng)由網(wǎng)絡(luò)55連接至文 件搜索服務(wù)器52。要注意的是,搜索中介服務(wù)器10可以是包括搜索終端設(shè)備51的功能的一 種服務(wù)器。
[0056]接下來,將參考圖3來描述搜索中介服務(wù)器10的硬件配置。圖3圖示了根據(jù)第二實 施例的搜索中介服務(wù)器10的硬件配置的示例。
[0057] 搜索中介服務(wù)器10的全部操作由處理器101來控制。亦即,處理器101充當(dāng)搜索中 介服務(wù)器10的控制單元。RAM 102和多個外圍裝置經(jīng)由總線109連接至處理器101。處理器 101可以是多處理器。處理器101例如可以是中央處理器(CPU)、微處理單元(MPU)、數(shù)字信號 處理器(DSP)、專用集成電路(ASIC)或可編程邏輯裝置(PLD)。替代地,處理器101可以是選 自〇卩1]、]\^1]、05?^51(:和?〇)的兩個或更多個的組合。
[0058] RAM 102充當(dāng)搜索中介服務(wù)器10的主存儲器裝置。RAM 102暫時存儲由處理器101 執(zhí)行的應(yīng)用程序和操作系統(tǒng)(0S)程序的至少一部分,RAM 102還存儲用于由處理器101處理 的各種類型的數(shù)據(jù)。
[0059] 連接至總線109的外圍裝置包括:硬盤驅(qū)動器(HDD) 103、圖形處理單元104、輸入接 口 105、光驅(qū)106、裝置連接接口 107和網(wǎng)絡(luò)接口 108。
[0060] HDD 103將數(shù)據(jù)磁寫入其內(nèi)部磁盤,并且從其內(nèi)部磁盤讀取數(shù)據(jù)。HDD 103充當(dāng)搜 索中介服務(wù)器10的二級存儲器裝置。HDD 103存儲0S程序、應(yīng)用程序和各種類型的數(shù)據(jù)。要 注意的是,半導(dǎo)體存儲器裝置(如閃存等)可以被用作二級存儲器裝置。
[0061] 監(jiān)視器90連接至圖形處理單元104。圖形處理單元104根據(jù)來自處理器101的指示 在監(jiān)視器90的屏幕上顯示圖像。監(jiān)視器90的示例包括使用陰極射線管(CRT)和液晶顯示裝 置等的顯示裝置。
[0062]鍵盤91和鼠標(biāo)92連接至輸入接口 105。輸入接口 105接收來自鍵盤91和鼠標(biāo)92的信 號,并且將接收的信號傳輸至處理器101。鼠標(biāo)92是點擊裝置的示例,并且也可以使用其它 類型的點擊裝置。其它類型的點擊裝置的示例包括觸控面板、平板電腦、觸摸板和軌跡球 等。
[0063]光驅(qū)106通過使用激光束等從光盤93讀取數(shù)據(jù)。光盤93是便攜式存儲介質(zhì)并且存 儲數(shù)據(jù),使得可以通過光學(xué)反射來讀取數(shù)據(jù)。光盤93的示例包括:數(shù)字通用光盤(DVD)、DVD-RAM、光盤只讀存儲器(CD-ROM)、可記錄光盤(CD-R)和可重寫光盤(CD-RW)等。
[0064]裝置連接接口 107是將外圍裝置連接至搜索中介服務(wù)器10的通信接口。例如,存儲 器裝置94以及存儲器讀寫器95可以連接至裝置連接接口 107。存儲器裝置94是具有與裝置 連接接口 107進(jìn)行通信的功能的存儲介質(zhì)。存儲器讀寫器95是將數(shù)據(jù)寫入存儲卡96并從存 儲卡96讀取數(shù)據(jù)的裝置。存儲卡96是卡片式存儲介質(zhì)。
[0065] 網(wǎng)絡(luò)接口 108連接至網(wǎng)絡(luò)54和網(wǎng)絡(luò)55。網(wǎng)絡(luò)接口 108經(jīng)由網(wǎng)絡(luò)54和網(wǎng)絡(luò)55與包括搜 索終端設(shè)備51和文件搜索服務(wù)器52的其它計算機(jī)或通信設(shè)備進(jìn)行數(shù)據(jù)交換。
[0066] 用以上描述的硬件配置,可以實現(xiàn)第二實施例的處理功能。要注意的是,第一實施 例中圖示的文件搜索設(shè)備1以及第二實施例中圖示的搜索終端設(shè)備51和文件搜索服務(wù)器52 也可以用與圖3圖示的搜索中介服務(wù)器10的硬件相同的硬件來實現(xiàn)。
[0067] 例如,搜索中介服務(wù)器10通過執(zhí)行存儲在計算機(jī)可讀存儲介質(zhì)中的程序來實現(xiàn)第 二實施例的處理功能。要由搜索中介服務(wù)器10執(zhí)行的程序描述操作可以被存儲在各種存儲 介質(zhì)中。例如,要由搜索中介服務(wù)器10執(zhí)行的程序可以被存儲在HDD 103中。處理器101將程 序的至少一部分從HDD 103加載到RAM 102中,以便執(zhí)行程序。要由搜索中介服務(wù)器10執(zhí)行 的程序也可以被存儲在便攜式存儲介質(zhì)中,諸如光盤93、存儲器裝置94和儲存卡96等。例 如,在處理器101的控制下,可以在將存儲在便攜式記錄介質(zhì)中的程序安裝到HDD 103中之 后執(zhí)行該程序。此外,處理器101可以通過從便攜式存儲介質(zhì)直接讀取程序來執(zhí)行該程序。
[0068] 接下來,將參考圖4來描述搜索中介服務(wù)器10的功能配置。圖4圖示了根據(jù)第二實 施例的搜索中介服務(wù)器10的功能配置的示例。
[0069]搜索中介服務(wù)器10包括查詢構(gòu)建單元11、搜索服務(wù)使用單元12和估計參數(shù)更新單 元13。搜索中介服務(wù)器10能夠?qū)⑺阉黜椉?4、比率列表15、共生比率列表16、相似性參數(shù)17、 樣本文件集18和搜索結(jié)果文件集19存儲在RAM 102或HDD 103中。RAM 102和HDD 103充當(dāng)搜 索中介服務(wù)器10的存儲單元。
[0070] 搜索中介服務(wù)器10基于包括在從搜索終端設(shè)備51接收的請求(搜索請求)中的搜 索項而生成搜索項集14。此外,搜索中介服務(wù)器10將從文件搜索服務(wù)器52獲得的搜索結(jié)果 返回至搜索終端設(shè)備51。
[0071] 查詢構(gòu)建單元11構(gòu)建來自搜索項和各種預(yù)設(shè)參數(shù)的搜索查詢,該搜索項包括在搜 索項集14中。各種預(yù)設(shè)參數(shù)包括:比率列表15、共生比率列表16和相似性參數(shù)17。例如,當(dāng)處 理器101執(zhí)行將參考圖5至圖7在下文描述的查詢構(gòu)建過程時,實現(xiàn)查詢構(gòu)建單元11。查詢構(gòu) 建單元11具有第一實施例的生成單元lb的功能。
[0072] 搜索服務(wù)使用單元12使用搜索服務(wù),其由使用搜索查詢的文件搜索服務(wù)器52提 供。搜索服務(wù)使用單元12根據(jù)搜索結(jié)果生成搜索結(jié)果文件集19。此外,搜索服務(wù)使用單元12 通過預(yù)先從文件搜索服務(wù)器52獲得的樣本文件來生成樣本文件集18。樣本文件集18是從由 文件數(shù)據(jù)庫53保留的整個文件集提取的子集,該文件數(shù)據(jù)庫53由文件搜索服務(wù)器52管理。 例如,當(dāng)處理器101執(zhí)行將參考圖5和圖12在下文描述的搜索服務(wù)使用過程時,實現(xiàn)搜索服 務(wù)使用單元12。
[0073] 估計參數(shù)更新單元13基于搜索結(jié)果來更新各種用于構(gòu)建搜索查詢的參數(shù)。更具體 地,估計參數(shù)更新單元13基于搜索查詢、樣本文件集18和搜索結(jié)果文件集19來更新更新比 率列表15、共生比率列表16和相似性參數(shù)17。估計參數(shù)更新單元13包括已知比率更新單元 130、已知共生比率更新單元131、相似性參數(shù)更新單元132、估計比率更新單元133和估計共 生比率更新單元134。例如,當(dāng)處理器101執(zhí)行將參考圖5和圖13在下文描述的估計參數(shù)更新 過程時,實現(xiàn)估計參數(shù)更新單元13。
[0074]已知比率更新單元130針對已經(jīng)獲得搜索結(jié)果的搜索項(已知搜索項)的比率(已 知比率)來更新比率列表15。已知共生比率更新單元131針對已知搜索項的組合中的共生比 率(已知共生比率)來更新共生比率列表16。相似性參數(shù)更新單元132更新用于計算搜索項 之間的相似性的相似性參數(shù)17。估計比率更新單元133針對尚未獲得搜索結(jié)果的搜索項(未 知搜索項)的比率的估計值(估計比率)來更新比率列表15。估計共生比率更新單元134針對 尚未計算的已知共生比率的搜索項的組合中的共生比率的估計值(估計共生比率)來更新 共生比率列表16。
[0075] 接下來,將參考圖5來描述搜索中介過程。圖5是根據(jù)第二實施例的搜索中介過程 的流程圖。搜索中介過程是當(dāng)接收到搜索請求時由搜索中介服務(wù)器10執(zhí)行的過程。
[0076] (步驟S1)查詢構(gòu)建單元11執(zhí)行查詢構(gòu)建過程,其基于包括在接收的搜索請求中的 搜索項和各種預(yù)設(shè)參數(shù)來構(gòu)建搜索查詢。將參考圖6和圖7在下文描述查詢構(gòu)建過程。
[0077] (步驟S2)搜索服務(wù)使用單元12發(fā)出搜索查詢,并且執(zhí)行搜索服務(wù)使用過程,該過 程使用由文件搜索服務(wù)器52提供的搜索服務(wù)。將參考圖12在下文描述搜索服務(wù)使用過程。
[0078] (步驟S3)估計參數(shù)更新單元13執(zhí)行估計參數(shù)更新過程,其基于搜索結(jié)果來更新用 于構(gòu)建搜索查詢的各種參數(shù)。將參考圖13在下文描述估計參數(shù)更新過程。
[0079] (步驟S4)搜索中介服務(wù)器10(控制單元)確定在包括在接收的搜索請求中的搜索 項中是否存在尚未用于搜索的任何未知搜索項。如果存在未知搜索項,則過程返回至步驟 S1。如果不存在未知搜索項,則搜索中介過程結(jié)束。
[0080] 以這樣的方式,搜索中介服務(wù)器10重復(fù)步驟S1到S4的操作,并且針對所有包括在 接收的搜索請求中的搜索項來獲得搜索結(jié)果。在此過程中,搜索中介服務(wù)器10每次更新參 數(shù)時,搜索中介服務(wù)器10發(fā)出搜索查詢,并且接收搜索結(jié)果。當(dāng)生成下一個搜索查詢時,要 被參考的參數(shù)為更新的參數(shù)。因此,對于稍后的搜索查詢來說,提高了搜索服務(wù)的使用效 率。
[0081] 接下來,將參考圖6和圖7來描述查詢構(gòu)建過程。圖6和圖7是根據(jù)第二實施例的查 詢構(gòu)建過程的流程圖。查詢構(gòu)建過程是由搜索中介過程的步驟S1中的查詢構(gòu)建單元11執(zhí)行 的過程。
[0082] (步驟S11)查詢構(gòu)建單元11從未知搜索項集中選擇其文件的估計數(shù)目大的未知搜 索項。文件的估計數(shù)目指示文件數(shù)目的估計值,該文件包含文件數(shù)據(jù)庫53中存儲的文件中 的搜索項。查詢構(gòu)建單元11能夠基于樣本文件集18和比率列表15來計算文件的估計數(shù)目。 例如,查詢構(gòu)建單元11對包含來自樣本文件集18的未知搜索項的樣本文件進(jìn)行搜索,將對 應(yīng)于未知搜索項的估計比率乘以這樣的樣本文件的數(shù)目,并且從而計算出文件的估計數(shù) 目。要注意的是,在第一次執(zhí)行上述步驟S1并且未曾執(zhí)行步驟S3的情況下,所有的估計比率 可以被初始化為1。在這種情況下,從樣本文件集18獲得的樣本文件的數(shù)目被視為文件的估 計數(shù)目。
[0083] 在包括在搜索項集14中的搜索項中,未知搜索項集是針對其搜索尚未被執(zhí)行的一 組未知搜索項。在初始狀態(tài)中,未知搜索項集等同于搜索項集14。
[0084] 在下文中,將參考圖8來描述用于檢測未知搜索項集的搜索項表格。圖8圖示了根 據(jù)第二實施例的搜索項表格200的示例。搜索項表格200包括項目"搜索項"和項目"搜索"。 項目"搜索項"指示包括在搜索項集14中的搜索項。項目"已搜索"用"是"或"否"來指示是否 已經(jīng)對搜索項進(jìn)行了搜索。值"是"指示搜索項是已知搜索項,而值"否"指示搜索項是未知 搜索項。因此,圖8的搜索項表格200指示所有的搜索項"FFF 1'、"云"和"BBB"是未知搜索項。
[0085] (步驟S12)查詢構(gòu)建單元11將步驟S11中選擇的未知搜索項添加至查詢候選列表。
[0086] (步驟S13)查詢構(gòu)建單元11從未知搜索項集中選擇其共生文件的估計數(shù)目的總和 大的未知搜索項,其中,在所述共生文件中查詢候選列表上的每個未知搜索項(查詢候選搜 索項)和未知搜索項同時出現(xiàn)。在文件數(shù)據(jù)庫53中存儲的文件中,共生文件的估計數(shù)目指示 文件(文件滿足多個搜索項的與(AND)條件)數(shù)目的估計值,該文件包含所有包括在搜索項 的組合中的搜索項。查詢構(gòu)建單元11能夠基于樣本文件集18和共生比率列表16來計算共生 文件的估計數(shù)目。例如,查詢構(gòu)建單元11對包含來自樣本文件集18的兩個未知搜索項兩者 的樣本文件進(jìn)行搜索,將對應(yīng)于兩個未知搜索項的組合的估計共生比率乘以這樣的樣本文 件的數(shù)目,并且從而計算出共生文件的估計數(shù)目。要注意的是,在第一次執(zhí)行上面描述的步 驟S1并且尚未執(zhí)行步驟S3的情況下,所有的估計共生比率可以被初始化為1。在這種情況 下,從樣本文件集18獲得的樣本文件的數(shù)目被視為共生文件的估計數(shù)目。
[0087] (步驟S14)查詢構(gòu)建單元11將步驟S13中選擇的未知搜索項添加至查詢候選列表。
[0088] 在下文中,將參考圖9來描述查詢候選列表。圖9圖示了根據(jù)第二實施例的查詢候 選列表210的示例。查詢候選列表210包括項目"搜索項"。項目"搜索項"指示由步驟S12或步 驟S14中的查詢構(gòu)建單元11添加的未知搜索項。查詢候選列表210指示由步驟S12或步驟S14 中的查詢構(gòu)建單元11來添加搜索項"FFF"、"云"和"BBB"。
[0089] (步驟S15)查詢構(gòu)建單元11確定查詢候選搜索項的數(shù)目是否等于或小于針對搜索 項的數(shù)目(例如10項)的閾值。如果查詢候選搜索項的數(shù)目等于或小于針對搜索項數(shù)目的閾 值,則過程進(jìn)行至步驟S16。否則,過程進(jìn)行至步驟S18。
[0090] 針對搜索項的數(shù)目的閾值是可以包括在搜索查詢中的搜索項的數(shù)目的上限。搜索 項的數(shù)目的閾值例如由文件搜索服務(wù)器52提供的搜索服務(wù)來限定。替代地,針對搜索項的 數(shù)目的閾值可以由搜索中介服務(wù)器10來進(jìn)行設(shè)置。針對搜索項的數(shù)目的閾值是限制搜索查 詢的大小的閾值中的一個。
[0091] (步驟S16)查詢構(gòu)建單元11確定當(dāng)構(gòu)建包括所有查詢候選搜索項的搜索查詢時搜 索查詢中的字符的數(shù)目是否等于或小于針對查詢中的字符數(shù)目的閾值(例如1000個字符)。 如果當(dāng)構(gòu)建查詢時搜索查詢中的字符的數(shù)目等于或小于針對查詢中的字符的數(shù)目的閾值, 則過程進(jìn)行至步驟S17。否則,過程進(jìn)行至步驟S18。
[0092] 針對查詢中的字符的數(shù)目的閾值是搜索查詢中的字符的數(shù)目的上限。要注意的 是,針對查詢中的字符的數(shù)目的閾值例如通過由文件搜索服務(wù)器52提供的搜索服務(wù)來限 定。替代地,針對查詢中的字符的數(shù)目的閾值可以由搜索中介服務(wù)器10來進(jìn)行設(shè)置。查詢中 的字符的數(shù)目的閾值是限制搜索查詢的大小的閾值中的一個。
[0093](步驟S17)查詢構(gòu)建單元11確定包括在未知搜索項集中的所有搜索項是否已經(jīng)被 添加至查詢候選列表。如果包括在未知搜索項集中的所有搜索項都已經(jīng)被添加至查詢候選 列表,則過程進(jìn)行至步驟S19;如果不是包括在未知搜索項集中的所有搜索項都已經(jīng)被添加 至查詢候選列表,則過程返回至步驟S11。
[0094](步驟S18)查詢構(gòu)建單元11從查詢候選列表中去除最后添加的未知搜索項。因此, 查詢構(gòu)建單元11校正了由最后添加的未知搜索項所妨礙的搜索查詢的大小的限制。
[0095] (步驟S19)查詢構(gòu)建單元11確定是否存在兩個或更多個查詢候選搜索項。如果存 在兩個或更多個查詢候選搜索項,則過程進(jìn)行至步驟S20。如果不存在兩個或更多個查詢候 選搜索項,則過程進(jìn)行至步驟S23。
[0096] (步驟S20)查詢構(gòu)建單元11對可以從查詢候選列表去除的查詢候選搜索項進(jìn)行檢 測。可以從查詢候選列表中去除查詢候選搜索項,如果通過從查詢候選列表去除了查詢候 選搜索項,則對應(yīng)于搜索查詢的文件的估計數(shù)目變得比將其去除之前更加可取,其中,用剩 余的查詢候選搜索項來構(gòu)建該搜索查詢。當(dāng)文件的估計數(shù)目等于可以從文件搜索服務(wù)器52 一批中獲得的文件的數(shù)目(輸出限制數(shù)目)的整數(shù)倍或接近且小于整數(shù)倍時,文件的估計數(shù) 目是可取的。換言之,當(dāng)文件的估計數(shù)目稍微大于輸出限制數(shù)目的整數(shù)倍時,文件的估計數(shù) 目不可取。通過將文件的估計數(shù)目提供為可取的值,在輸出限制之內(nèi)可以增加從文件搜索 服務(wù)器52-批中獲得的文件的數(shù)目,并且減少發(fā)出搜索查詢的次數(shù)。
[0097] 例如,基于文件F的估計總數(shù)目和輸出限制數(shù)目S的整數(shù)倍之間的差,查詢構(gòu)建單 元11可以使用表達(dá)式(1)作為評價未知搜索項的每個候選組合的一個示例。如果表達(dá)式(1) 的值比其去除之前更接近"〇",則查詢構(gòu)建單元11確定可以從查詢候選列表中去除查詢候 選搜索項。
[0098] S-{(F_l)mod S}_1.?.(1)
[0099] 要注意的是,輸出限制數(shù)目S例如通過由文件搜索服務(wù)器52提供的搜索服務(wù)來進(jìn) 行限定。替代地,輸出限制數(shù)目S可以由搜索中介服務(wù)器10來進(jìn)行設(shè)置。輸出限制數(shù)目S是針 對要由文件搜索服務(wù)器52所提供的搜索服務(wù)來檢索的針對文件的估計數(shù)目的閾值中的一 個。
[0100] 文件F的估計總數(shù)目是包含文件數(shù)據(jù)庫53中存儲的文件中的兩個或更多個查詢候 選搜索項中的至少一個的文件的數(shù)目,亦即,文件的數(shù)目滿足兩個或多個查詢候選搜索項 的或(0R)條件??梢愿鶕?jù)每個查詢候選搜索項的文件的估計數(shù)目和兩個查詢候選搜索項的 每個組合(每兩個查詢候選搜索項使用與(AND)運算符進(jìn)行結(jié)合)中的共生文件的估計數(shù)目 來計算文件F的估計總數(shù)目。
[0101] 查詢構(gòu)建單元11能夠基于樣本文件集18和比率列表15來確定每個查詢候選搜索 項的文件的估計數(shù)目。例如,查詢構(gòu)建單元11對包括來自樣本文件集18的查詢候選搜索項 的樣本文件進(jìn)行搜索,將對應(yīng)于查詢候選搜索項的估計比率乘以這樣的樣本文件的數(shù)目, 并且從而計算出文件的估計數(shù)目。
[0102] 此外,基于包含包括在查詢候選列表和共生比率列表16中的兩個查詢候選搜索項 的共生文件的估計數(shù)目,查詢構(gòu)建單元11能夠確定包含兩個查詢候選搜索項二者的共生文 件的估計數(shù)目。例如,查詢構(gòu)建單元11對包含來自樣本文件集18的兩個查詢候選搜索項二 者的樣本文件進(jìn)行搜索,將對應(yīng)于這些查詢候選搜索項的組合的估計共生比率乘以這樣的 文件的數(shù)目(樣本共生文件的數(shù)目),并且從而計算出共生文件的估計數(shù)目。
[0103] 以這樣的方式,查詢構(gòu)建單元11能夠計算文件F的估計總數(shù)目。例如,查詢構(gòu)建單 元11對包括在查詢候選列表中的每個查詢候選搜索項的文件估計數(shù)目的總和進(jìn)行計算,并 且對包括在查詢候選列表中的查詢候選搜索項的每個組合的共生文件的估計數(shù)目的總和 進(jìn)行計算。然后,查詢構(gòu)建單元11通過從文件的估計數(shù)目的總和中減去共生文件的估計數(shù) 目的總和來計算文件F的估計總數(shù)目。在該實施例中,為了簡化計算,在不考慮包含三個或 更多個查詢候選搜索項的文件的影響的情況下,計算文件F的估計總數(shù)目。然而,查詢構(gòu)建 單元11可以更加精確地計算文件F的估計總數(shù)。在這種情況下,對應(yīng)于三個或更多個搜索項 的組合的共生比率也被登記在共生比率列表16中。
[0104] 例如,假定查詢候選列表包括搜索項"A"、"B"和"C"。在這種情況下,查詢構(gòu)建單元 11引用樣本文件集18,并且對包含搜索項"A"的樣本文件的數(shù)目、包含搜索項"B"的樣本文 件的數(shù)目以及包含搜索項"C"的樣本文件的數(shù)目進(jìn)行計算。此外,查詢構(gòu)建單元11引用樣本 文件集18,并且對包含搜索項"A"和"B"的組合的樣本共生文件的數(shù)目、包含搜索項"A"和 "C"的組合的樣本共生文件的數(shù)目以及包含搜索項"B"和的組合的樣本共生文件的數(shù)目 進(jìn)行計算。此外,查詢構(gòu)建單元11根據(jù)比率列表15對搜索項"A"的估計比率、搜索項"B"的估 計比率和搜索項"C"的估計比率進(jìn)行搜索。此外,查詢構(gòu)建單元11根據(jù)共生比率列表16對搜 索項"A"和"B"的組合的估計共生比率、搜索項"A"和"C"的組合的估計共生比率和搜索項 "B"和"C"的組合的估計共生比率進(jìn)行搜索??梢曰跇颖疚募臄?shù)目、樣本共生文件的數(shù) 目、估計比率和估計共生比率來計算文件F的估計總數(shù)目。
[0105] 要注意的是,在包含兩個或更多個未知搜索項的文件數(shù)目少于包含每個未知搜索 項的文件數(shù)目并且可忽略的情況下,可以更簡單地計算文件F的估計總數(shù)目。例如,當(dāng)假定 估計共生比率=0時,查詢構(gòu)建單元11可以根據(jù)每個未知搜索項的估計比率和樣本文件的 數(shù)目來計算文件F的估計總數(shù)目。在這種情況下,搜索中介服務(wù)器10不需要包括共生比率列 表16。此外,查詢構(gòu)建單元11不需要對包含來自樣本文件集18的兩個未知搜索項二者的樣 本共生文件進(jìn)行搜索。
[0106] 要注意的是,比率列表15、共生比率列表16和相似性參數(shù)17可以在每次從搜索終 端設(shè)備51接收搜索查詢時被初始化,或者可以被保持以用于多個搜索請求。在后一種情況 下,先前計算的已知比率已經(jīng)常被登記在比率列表15中,以用于某個查詢候選搜索項。此 外,先前計算的已知共生比率已經(jīng)經(jīng)常被登記在共生比率列表16中,以用于查詢候選搜索 項的某種組合。
[0107] 在這種情況下,當(dāng)已經(jīng)計算出已知比率時,查詢構(gòu)建單元11可以使用已知比率,并 且可以在尚未計算出已知比率的情況下使用估計比率。亦即,已知比率優(yōu)選于估計比率來 使用。此外,如果已經(jīng)計算出已知共生比率,則查詢構(gòu)建單元11可以使用已知共生比率,而 在尚未計算出已知共生比率的情況下,可以使用估計共生比率。亦即,已知比率優(yōu)選于估計 比率來使用。以下將連同估計參數(shù)更新單元13對已知比率、估計比率、已知共生比率和估計 共生比率進(jìn)行描述。
[0108] (步驟S21)查詢構(gòu)建單元11確定是否存在可以從查詢候選列表中去除的任何查詢 候選搜索項。如果存在可以從查詢候選列表中去除的查詢候選搜索項,則過程進(jìn)行至步驟 S22。如果不存在可以從查詢候選列表中去除的查詢候選搜索項,則過程進(jìn)行至步驟S23。
[0109] (步驟S22)查詢構(gòu)建單元11從查詢候選列表中去除可以從查詢候選列表中去除的 查詢候選搜索項。然后,過程返回至步驟S19,其中,查詢構(gòu)建單元11對可以從查詢候選列表 中去除的查詢候選搜索項進(jìn)行進(jìn)一步檢測。
[0110] (步驟S23)查詢構(gòu)建單元11根據(jù)查詢候選列表構(gòu)建(生成)搜索查詢。更具體地,查 詢構(gòu)建單元11通過結(jié)合查詢候選搜索項來構(gòu)建搜索查詢,該查詢候選搜索項被包括在具有 或運算符的查詢候選列表中。
[0111] 圖10圖示了步驟S19到S22中去除搜索項之后的查詢候選列表的示例。圖10圖示了 根據(jù)第二實施例的查詢候選列表220的示例。查詢候選列表220指示搜索項"BBB"從查詢候 選列表210中被去除。根據(jù)查詢候選列表220構(gòu)建的搜索查詢是"FFF或云"。
[0112] (步驟S24)查詢構(gòu)建單元11更新搜索項表格,并且然后查詢構(gòu)建過程結(jié)束。
[0113] 圖11中圖示了步驟S24中更新的搜索項表格的示例。圖11圖示了根據(jù)第二實施例 的搜索項表格230的示例。在搜索項表格230中,針對搜索項"FFF"和"云"的項目"搜索"為 "是",而針對搜索項"BBB"的項目"搜索"為"否"。因此,搜索項表格230指示搜索查詢"FFF或 云"已經(jīng)被構(gòu)建,并且因此視為已經(jīng)對搜索項"FFF"和"云"進(jìn)行了搜索。此外,搜索項表格 230指示搜索項"BBB"仍然是未知搜索項。要注意的是,盡管搜索項表格在發(fā)出搜索查詢之 前由查詢構(gòu)建單元11進(jìn)行更新,但是搜索項表格可以在搜索服務(wù)使用單元12發(fā)出搜索查詢 之后進(jìn)行更新。
[0114] 以這樣的方式,查詢構(gòu)建單元11能夠?qū)?yīng)于結(jié)合有或運算符的未知搜索項集來恰 當(dāng)?shù)赜嬎阄募墓烙嬁倲?shù)目,并且發(fā)出搜索查詢,該搜索查詢允許獲得由文件搜索服務(wù)器 52提供的搜索服務(wù)的范圍之內(nèi)的文件。通過發(fā)出這樣的搜索查詢,搜索中介服務(wù)器10能夠 減少向文件搜索服務(wù)器52發(fā)出搜索查詢的總次數(shù)。
[0115] 接下來,將參考圖12來描述搜索服務(wù)使用過程。圖12是根據(jù)第二實施例的搜索服 務(wù)使用過程的流程圖。搜索服務(wù)使用過程是由搜索中介過程的步驟S2中的搜索服務(wù)使用單 元12執(zhí)行的過程。
[0116] (步驟S31)搜索服務(wù)使用單元12向文件搜索服務(wù)器52發(fā)出查詢構(gòu)建過程中構(gòu)建的 搜索查詢。
[0117] (步驟S32)搜索服務(wù)使用單元12獲得針對從文件搜索服務(wù)器52發(fā)出的搜索查詢的 搜索結(jié)果文件??梢杂伤阉鞣?wù)使用單元12-批中獲得的搜索結(jié)果文件的最大數(shù)目是輸出 限制數(shù)目S。例如,當(dāng)搜索結(jié)果文件的數(shù)目是200而輸出限制數(shù)目S是100時,搜索服務(wù)使用單 元12可以在一批中獲得100個搜索結(jié)果文件。
[0118] (步驟S33)搜索服務(wù)使用單元12將獲得的搜索結(jié)果文件存儲為搜索結(jié)果文件集19 的一部分。
[0119] (步驟S34)搜索服務(wù)使用單元12確定是否已經(jīng)獲得了所有的搜索結(jié)果文件。如果 還沒有獲得所有的搜索結(jié)果文件,則過程返回至步驟S31。如果已經(jīng)獲得了所有的搜索結(jié)果 文件,則搜索服務(wù)使用過程結(jié)束。
[0120] 可以例如基于來自文件搜索服務(wù)器52的響應(yīng)中所包括的控制信息而做出關(guān)于是 否已經(jīng)獲得了所有的搜索結(jié)果文件的確定。例如,來自文件搜索服務(wù)器52的響應(yīng)包括針對 搜索查詢的搜索結(jié)果文件的數(shù)目,并且指示文件的開始號碼的信息包括在所有搜索結(jié)果文 件中的響應(yīng)中。如果還沒有獲得所有的搜索結(jié)果文件,則搜索服務(wù)使用單元12將包括與上 一次包括的那些搜索項相同的搜索項的搜索查詢傳輸至文件搜索服務(wù)器52,同時指定還未 獲得的文件的開始號碼。例如,在輸出限制數(shù)目S是100的情況下,如果響應(yīng)指示搜索結(jié)果文 件的數(shù)目是200且開始號碼是0,則搜索服務(wù)使用單元12傳輸包括與上一次包括的那些搜索 項相同的搜索項的搜索查詢,同時指定100為開始號碼。因此,獲得了所有的搜索結(jié)果文件。
[0121] 以這樣的方式,搜索服務(wù)使用單元12取決于搜索結(jié)果文件的數(shù)目來一次或多次使 用搜索服務(wù),并且獲得對應(yīng)于未知搜索項的組合的所有搜索結(jié)果文件。在這種情況下,如果 構(gòu)建搜索查詢以滿足表達(dá)式(1 ),則搜索中介服務(wù)器10能夠使輸出限制數(shù)目S之內(nèi)的文件F 的估計總數(shù)目最大化。因此,搜索中介服務(wù)器10能夠有效地使用搜索服務(wù)。
[0122] 接下來,將參考圖13來描述估計參數(shù)更新過程。圖13是根據(jù)第二實施例的估計參 數(shù)更新過程的流程圖。估計參數(shù)更新過程是由搜索中介過程的步驟S3中的估計參數(shù)更新單 元13執(zhí)行的過程。
[0123] (步驟S41)估計參數(shù)更新單元13(已知比率更新單元130)執(zhí)行已知比率更新過程。 已知比率更新過程是對包括在當(dāng)前發(fā)出的搜索請求中包括的已知搜索項的已知比率進(jìn)行 計算并且對比率列表15進(jìn)行更新的過程。下面將參考圖14來描述已知比率更新過程的細(xì)
[0124] (步驟S42)估計參數(shù)更新單元13(已知共生比率更新單元131)執(zhí)行已知共生比率 更新過程。已知共生比率更新過程是對包括在當(dāng)前發(fā)出的搜索請求中包括的已知搜索項的 組合的已知共生比率進(jìn)行計算并且對共生比率列表16進(jìn)行更新的過程。將在下面參考圖16 來描述已知共生比率更新過程的細(xì)節(jié)。
[0125] (步驟S43)估計參數(shù)更新單元13(相似性參數(shù)更新單元132)執(zhí)行相似性參數(shù)更新 過程。相似性參數(shù)更新過程是更新相似性參數(shù)17的過程,所述相似性參數(shù)用于計算兩個搜 索項之間的相似性。相似性參數(shù)是指示出現(xiàn)在搜索結(jié)果文件集19中的鄰近的兩個搜索項中 的每個鄰近詞的重要度的指標(biāo)。每個鄰近詞的重要度例如從至"1.0"的范圍內(nèi)取值。 越接近"1.0"的值,評價的鄰近詞要越重要。鄰近的搜索項例如可以被定義為包含搜索項的 句子之內(nèi)的范圍或者搜索項之前和搜索項之后的預(yù)設(shè)范圍(搜索項之前的5個詞和搜索項 之后的5個詞等)。
[0126] 將參考圖18在下面描述相似性參數(shù)更新過程的細(xì)節(jié)。
[0127] (步驟S44)估計參數(shù)更新單元13(估計比率更新單元133)執(zhí)行估計比率更新過程。 估計比率更新過程是基于已知搜索項和未知搜索項之間的相似性來計算未知搜索項的估 計比率并且更新比率列表15的過程。將參考圖20在下面描述估計比率更新過程的細(xì)節(jié)。
[0128] (步驟S45)估計參數(shù)更新單元13(估計共生比率更新單元134)執(zhí)行估計共生比率 更新過程。估計共生比率更新過程是對其已知共生比率尚未計算的搜索項的組合的估計共 生比率進(jìn)行計算并且更新共生比率列表16的過程,將參考圖22在下面描述估計共生比率更 新過程的細(xì)節(jié)。
[0129] 在估計參數(shù)更新單元13執(zhí)行估計共生比率更新過程之后,估計參數(shù)更新過程結(jié) 束。
[0130] 以這樣的方式,每次搜索中介服務(wù)器10使用搜索服務(wù)時,搜索中介服務(wù)器10更新 各種參數(shù)。因此,搜索中介服務(wù)器10能夠通過使用更新的各種參數(shù)來構(gòu)建搜索查詢而當(dāng)下 一次使用搜索服務(wù)時有效地使用搜索服務(wù)。
[0131]接下來,將參考圖14來描述已知比率更新過程。圖14是根據(jù)第二實施例的已知比 率更新過程的流程圖。已知比率更新過程是由估計參數(shù)更新過程的步驟S41中的已知比率 更新單元130執(zhí)行的過程。
[0132](步驟S101)已知比率更新單元130對包括在當(dāng)前發(fā)出的搜索查詢中的已知搜索項 進(jìn)行選擇。例如,已知比率更新單元130在搜索項"FFF"中選擇出搜索項"FFF",并且選擇包 括在搜索查詢"FFF或云"中的搜索項"云"。
[0133] (步驟S102)已知比率更新單元130在當(dāng)前獲得的搜索結(jié)果文件中對包含步驟S101 中所選擇的已知搜索項的文件的數(shù)目(文件的實際數(shù)目)進(jìn)行計算。例如,已知比率更新單 元130獲得"10,000"作為包含搜索項"FFF"的文件的實際數(shù)目。
[0134] (步驟S103)已知比率更新單元130對樣本文件的數(shù)目進(jìn)行計算,樣本文件包含了 在包括在樣本文件集18中的樣本文件中、在步驟S101中所選擇的已知搜索項。例如,已知比 率更新單元130獲得"10"作為包含搜索項"FFF 1'的樣本文件的數(shù)目。
[0135] (步驟S104)已知比率更新單元130對文件的實際數(shù)目的比率(已知比率)和樣本文 件的數(shù)目進(jìn)行計算。例如,已知比率更新單元130獲得"1,000( = 10,000/10)"作為用于搜索 項"FFF"的已知比率。
[0136] (步驟S105)已知比率更新單元130對具有計算出的已知比率的比率列表15進(jìn)行更 新。
[0137] (步驟S106)已知比率更新單元130確定是否已經(jīng)選擇了包括在當(dāng)前發(fā)出的搜索查 詢中的所有已知搜索項。如果尚未選擇包括在搜索查詢中的所有已知搜索項,則過程返回 至步驟S101。
[0138] 例如,當(dāng)尚未從包括在搜索查詢中的搜索項"FFF"和"云"中選擇出搜索項"云"時, 過程返回至步驟S101,其中,已知比率更新單元130選擇搜索項"云"。隨后,在步驟S102至 S104中,針對搜索項"云",已知比率更新單元130獲得"8,000"作為文件的實際數(shù)目,"8"作 為樣本文件的數(shù)目,并且"1,〇〇〇( =8000/8)"作為已知比率。
[0139] 另一方面,如果已經(jīng)選擇了包括在搜索查詢中的所有的已知搜索項,則已知比率 更新過程結(jié)束。
[0140] 以這樣的方式,已知比率更新單元130能夠更新具有已知比率的比率列表15,其 中,針對包括在搜索查詢中的搜索項來計算所述已知比率。
[0141] 在下文中,將參考圖15來描述比率列表15的數(shù)據(jù)配置。圖15圖示了根據(jù)第二實施 例的比率表格240的示例。
[0142] 比率表格240被包括在比率列表15中。比率列表240包括項目"搜索項"、項目"已知 比率"和項目"估計比率"。項目"搜索項"指示包括在搜索項集14中的搜索項。項目"已知比 率"指示搜索項的已知比率。項目"估計比率"指示搜索項的估計比率。
[0143] 在比率列表240中,記錄用于搜索項"FFF"的已知比率"1,000",并且基于發(fā)出搜索 查詢"FFF或云"之后執(zhí)行的已知比率更新過程來記錄用于搜索項"云"的已知比率"1,000"。 由于記錄了項目"已知比率",所以針對搜索項"FFF"和"云"中的每一個的項目"估計比率" 指示的估計比率。
[0144] 接下來,將參考圖16來描述已知共生比率更新過程。圖16是根據(jù)第二實施例的已 知共生比率更新過程的流程圖。已知共生比率更新過程是由估計參數(shù)更新過程的步驟S42 中的已知共生比率更新單元131執(zhí)行的過程。
[0145] (步驟S111)已知共生比率更新單元131選擇包括在當(dāng)前發(fā)出的搜索查詢中的兩個 搜索項的組合(搜索項的組合在下文中也被稱作共生搜索項)。例如,已知共生比率更新單 元131從搜索項"FFF或云"中選擇包括搜索項"FFF"和搜索項"云"的組合的共生搜索項 "FFF&云'
[0146] (步驟S112)已知共生比率更新單元131計算在當(dāng)前獲得的搜索結(jié)果文件中、包含 步驟S111中所選擇的共生搜索項的文件的數(shù)目(共生文件的實際數(shù)目)。例如,已知共生比 率更新單元131獲得"3,000"作為包含共生搜索項"FFF&云"的共生文件的實際數(shù)目。
[0147] (步驟S113)已知共生比率更新單元131對樣本文件的數(shù)目(樣本共生文件的數(shù)目) 進(jìn)行計算,其中,樣本文件包含了在樣本文件集18包括的樣本文件中、在步驟S111中選擇的 已知共生搜索項。例如,已知共生比率更新單元131獲得"3"作為包含共生搜索項"FFF&云" 的樣本共生文件的數(shù)目。
[0148] (步驟S114)已知共生比率更新單元131計算共生文件的實際數(shù)目和樣本共生文件 的數(shù)目的比率。例如,已知共生比率更新單元131獲得用于共生搜索項"FFF&云"的已知共生 比率"1,〇〇〇( =3000/3)。
[0149] (步驟S115)已知共生比率更新單元131更新具有計算的已知共生比率的共生比率 列表16。
[0150](步驟S116)已知共生比率更新單元131確定是否已經(jīng)選擇了包括在當(dāng)前發(fā)出的搜 索查詢中的所有共生搜索項。如果尚未選擇包括在搜索查詢中的所有的共生搜索項,則過 程返回至步驟S111。如果已經(jīng)選擇了包括在搜索查詢中的所有共生搜索項,則已知共生比 率更新過程結(jié)束。
[0151] 以這樣的方式,已知共生比率更新單元131能夠更新具有已知共生比率的共生比 率列表16,其中,針對包括在搜索查詢中的共生搜索項來計算該已知共生比率。
[0152] 在下文中,將參考圖17來描述共生比率列表16的數(shù)據(jù)配置。圖17圖示了根據(jù)第二 實施例的共生比率表格250的示例。
[0153] 共生比率表格250被包括在共生比率列表16中。共生比率表格250包括項目"共生 搜索項"、項目"已知共生比率"和項目"估計共生比率"。項目"共生搜索項"指示包括在搜索 項集14中的共生搜索項。項目"已知共生比率"指示共生搜索項的已知共生比率。項目"估計 共生比率"指示共生搜索項的估計共生比率。
[0154] 在共生比率表格250中,基于發(fā)出搜索查詢"FFF或云"之后執(zhí)行的已知共生比率更 新過程,記錄用于共生搜索項"FFF&云"的已知共生比率"1,000"。由于記錄了項目"已知共 生比率",所以用于共生搜索項"FFF&云"的項目"估計共生比率"指示的估計共生比率。
[0155] 要注意的是,盡管搜索中介服務(wù)器10選擇兩個搜索項的組合作為共生搜索項,三 個或更多個搜索項的組合也可以被選擇作為共生搜索項。
[0156] 接下來,將參考圖18來描述相似性參數(shù)更新過程。圖18是根據(jù)第二實施例的相似 性參數(shù)更新過程的流程圖。相似性參數(shù)更新過程是由估計參數(shù)更新過程的步驟S43中的相 似性參數(shù)更新單元132執(zhí)行的過程。
[0157] (步驟S121)相似性參數(shù)更新單元132計算兩個已知搜索項的每個組合的已知比率 的比率。已知比率的比率是使用兩個已知搜索項的已知比率來定義為參數(shù)的值,并且用S 1;J 來表示。當(dāng)Xl和幻是兩個已知搜索項時,^和^是搜索項^和&的已知比率,那么已知比率 Si, j的比率由表達(dá)式(2)來表示:
[0158] Si,j=max(ri,rj)/min(ri,rj). . . (2)
[0159] 其中,max (ri,rj)是兩個已知比率中較大的一個,而min (ri,rj)是兩個已知比率中 較小的一個。
[0160] (步驟S122)相似性參數(shù)更新單元132針對兩個已知搜索項的每個組合來計算已知 比率差。已知比率差是使用兩個已知搜索項的已知比率的比率被定義為參數(shù)的值,并且由 cU, j來表示。已知比率差cU, j由表達(dá)式⑶來表示:
[0161] di, j = Si, j/max(S). . . (3)
[0162] 其中,max(S)表示對應(yīng)于已知搜索項的所有組合的已知比率的所有比率中最大的 比率。
[0163] (步驟S123)相似性參數(shù)更新單元132針對每個已知搜索項對包含來自搜索結(jié)果文 件集19的已知搜索項的文件進(jìn)行搜索,并且生成指示已知搜索項的鄰近的詞(鄰近詞)的臨 近詞矢量。當(dāng)存在已知搜索項 Xl的鄰近詞時,臨近詞矢量為"1",而當(dāng)不存在鄰近詞時,臨近 詞矢量為"0"。鄰近詞矢量由Ai來表示。當(dāng)n類字可以定位在鄰近已知搜索項時(例如,在包 含已知搜索項的句子之內(nèi),或在已知搜索項之前和之后5個詞),仏是11-維矢量。
[0164] (步驟S124)相似性參數(shù)更新單元132隨機(jī)設(shè)置的相似性參數(shù)。相似性參數(shù)是矢量, 其中,每一項的重要度取至"1.0"范圍內(nèi)的值,并且用W來表示。亦即,相似性參數(shù)更新 單元132隨機(jī)地確定"0.0"至"1.0"范圍之內(nèi)的矢量W的每個元素的值。W維度的數(shù)目與Ai維 度(n維)的數(shù)目相同。
[0165] (步驟S125)相似性參數(shù)更新單元132確定相似性參數(shù)W是否滿足搜索條件。搜索條 件是表達(dá)式(4)。亦即,相似性參數(shù)更新單元132確定表達(dá)式(4)是否保留已知搜索項( Xl,Xj) 的任何組合。如果表達(dá)式(4)沒有保留針對已知搜索項的至少一種組合,則確定相似性參數(shù) W不滿足搜索條件。
[0166] Aiff-Ajff| <dij. . .(4)
[0167] 如果相似性參數(shù)W滿足搜索條件,則過程進(jìn)行至步驟S128。如果相似性參數(shù)W不滿 足搜索條件,則過程進(jìn)行至步驟S126。
[0168] (步驟S126)相似性參數(shù)更新單元132保留步驟S124中生成的相似性參數(shù)W作為用 于更新的候選。此外,相似性參數(shù)更新單元132對以下估計值進(jìn)行計算,該估計值指示了相 似性參數(shù)W和搜索條件之間的發(fā)散度(例如,關(guān)于已知搜索項的每個組合的表達(dá)式(4)的左 方和右方之間差的總和),并且保留與相似性參數(shù)W相關(guān)的估計值。
[0169] (步驟S127)相似性參數(shù)更新單元132確定步驟S124中試驗的次數(shù)是否已經(jīng)達(dá)到上 限(例如1〇,〇〇〇次)。如果試驗的次數(shù)已經(jīng)達(dá)到上限,則過程進(jìn)行至步驟S128。如果試驗的次 數(shù)尚未到達(dá)上限,則過程返回至步驟S124。
[0170] (步驟S128)如果步驟S125中存在滿足搜索條件的相似性參數(shù)W,則相似性參數(shù)更 新單元132更新具有相似性參數(shù)W的相似性參數(shù)17。另一方面,如果不存在滿足搜索條件的 相似性參數(shù)W,則相似性參數(shù)更新單元132更新具有作為步驟S126中保留的相似性參數(shù)W中 最高評價(例如,其評價值指示發(fā)散度為最小的似性參數(shù)W)的相似性參數(shù)W的相似性參數(shù) 17。然后,相似性參數(shù)更新過程結(jié)束。
[0171] 要注意的是,相似性參數(shù)更新單元132能夠充當(dāng)優(yōu)化鄰近詞的重要度的全局優(yōu)化 設(shè)備。相似性參數(shù)更新單元132可以被設(shè)置為獨立于搜索中介服務(wù)器10的全局優(yōu)化設(shè)備。
[0172] 在下文中,將參考圖19來描述相似性參數(shù)17的數(shù)據(jù)配置。圖19圖示了根據(jù)第二實 施例的相似性參數(shù)表格260的示例。
[0173]相似性參數(shù)表格260被包括在相似性參數(shù)17中。相似性參數(shù)表格260包括項目"鄰 近詞"和項目"重要性"。項目"鄰近詞"指示包括在搜索項集14中的搜索項的鄰近詞。項目 "重要性"指示鄰近詞的重要度,并且對應(yīng)于相似性參數(shù)W的元素。例如,相似性參數(shù)表格260 指示鄰近詞"產(chǎn)品"的重要度是"0.8",并且鄰近詞"介紹"的重要度是"0.5"。在這種情況下, 鄰近詞"產(chǎn)品"比鄰近詞"介紹"具有更高的重要度。重要度指示鄰近詞的權(quán)重,其用于計算 搜索項之間的相似性。一般地,可能與特定搜索項共同出現(xiàn)的特征詞(諸如名詞和動詞)趨 向于具有較高的重要度。另一方面,通常用在文件中的例行詞(諸如功能詞)趨向于具有較 低的重要度。
[0174]接下來,將參考圖20來描述估計比率更新過程。圖20是根據(jù)第二實施例的估計比 率更新過程的流程圖。估計比率更新過程是在估計參數(shù)更新處理的步驟S44中由估計比率 更新單元133執(zhí)行的過程。
[0175] (步驟S131)估計比率更新單元133從搜索項集14中選擇沒有設(shè)置已知比率的未知 搜索項。
[0176] (步驟S132)估計比率更新單元133執(zhí)行相似性計算過程。相似性計算過程是使用 相似性參數(shù)17對選擇的未知搜索項和已知搜索項之間的相似性進(jìn)行計算的過程。將在下面 參考圖21來描述相似性參數(shù)計算過程的細(xì)節(jié)。
[0177] (步驟S133)估計比率更新單元133基于相似性來計算選擇的未知搜索項的估計比 率。由表達(dá)式(5)來表示未知搜索項k的估計比率g k:
[0179]其中,ri是已知搜索項i的已知比率,s(k,i)是未知搜索項k和已知搜索項i之間的 相似性,并且N是已知搜索項的數(shù)目。
[0180]例如,假設(shè)搜索項"FFF"的已知比率是"1,000",而搜索項"N站"的已知比率是 "900"。那么,當(dāng)搜索項"BBB"和搜索項"FFF"之間的相似性是"0.9"且搜索項"BBB"和搜索項 "N站"之間的相似性是"0.1"時,搜索項"BBB"的估計比率是"990( = 1,000 X 0.9+900 X 0.1),,。
[0181] 以這樣的方式,估計比率更新單元133使得已知搜索項的已知比率嚴(yán)重地影響了 具有高相似性的未知搜索項,并且使得已知搜索項的已知比率輕微地影響了具有低相似性 的未知搜索項。因此,估計比率更新單元133能夠準(zhǔn)確地根據(jù)已知比率生成估計比率。
[0182] (步驟S134)估計比率更新單元133更新具有計算出的估計比率的比率列表15。例 如,當(dāng)針對作為未知搜索項的搜索項"BBB"來計算估計比率"990"時。估計比率更新單元133 將所估計的比率記錄在比率表格240(見圖15)中。在這一點上,由于其已知比率是未知的, 所以針對搜索項"BBB"的項目"已知比率"是。
[0183] (步驟S135)估計比率更新單元133確定是否已經(jīng)選擇了包括在搜索項集14中的所 有未知搜索項。如果還沒有選擇包括在搜索項集14中的所有未知搜索項,則過程返回至步 驟S131。如果已經(jīng)選擇了包括在搜索項集14中的所有未知搜索項,則估計比率更新過程結(jié) 束。
[0184] 以這樣的方式,估計比率更新單元133能夠更新具有估計比率的比率列表15,針對 包括在搜索項集14中的未知搜索項來計算該估計比率。
[0185] 接下來,將參考圖21來描述相似性計算過程。圖21是根據(jù)第二實施例的相似性計 算過程的流程圖。相似性計算過程是在估計比率更新過程的步驟S132中由估計比率更新單 元133執(zhí)行的過程。
[0186] (步驟S141)估計比率更新單元133從樣本文件集18獲得包含選擇的未知搜索項的 文件,并且提取出現(xiàn)在獲得的文件中的選擇的未知搜索項附近的相鄰詞。此外,針對每個已 知搜索項,估計比率更新單元133從樣本文件集18中獲得包含已知搜索項的文件,并且提取 出現(xiàn)在獲得的文件中已知搜索項附近的鄰近詞。
[0187] (步驟S142)估計比率更新單元133生成二元矢量,其指示是否每個詞出現(xiàn)在選擇 的未知搜索項附近。此外,估計比率更新單元133針對每個已知搜索項生成二元矢量,其指 示是否每個詞出現(xiàn)在已知搜索項附近。于此生成的二元矢量具有一個或更多個對應(yīng)于鄰近 詞的元素,并且每個元素當(dāng)存在對應(yīng)的鄰近詞時取值"1",而當(dāng)不存在對應(yīng)的鄰近詞時取值 "0,,。
[0188] 然后,估計比率更新單元133使對應(yīng)于未知搜索項的二進(jìn)制矢量中的每一個的每 個元素和對應(yīng)于各自已知搜索項的二進(jìn)制矢量乘以包括在對應(yīng)于那個元素的相似性參數(shù)W 中的重要度,并且從而生成加權(quán)矢量。例如,在鄰近詞的重要度是"〇. 8"的情況下,如果鄰近 詞存在,則對應(yīng)于該鄰近詞的元素的值是"〇. 8",如果該鄰近詞不存在,則為"0.0"。
[0189] (步驟143)估計比率更新單元133針對每個已知搜索項使用對應(yīng)于已知搜索項的 加權(quán)矢量和對應(yīng)于選擇的未知搜索項的加權(quán)矢量來計算已知搜索項和選擇的未知搜索項 之間的相似性??梢允褂靡阎嬎惴椒?諸如余弦相似性)來計算相似性。例如,由表達(dá)式 (6)來表示相似性s(p,q):
[0191] 其中,p是未知搜索項的加權(quán)矢量,q是已知搜索項的加權(quán)矢量,N是加權(quán)矢量的元 素的數(shù)目,Pi是加權(quán)矢量P的第i個元素,而qi是加權(quán)矢量q的第i個元素。
[0192] 在估計比率更新單元133計算相似性之后,相似性計算過程結(jié)束。
[0193] 要注意的是,相似性參數(shù)更新單元132能夠通過執(zhí)行形態(tài)分析來提取鄰近詞。在這 種情況下,相似性參數(shù)更新單元132能夠充當(dāng)形態(tài)分析儀。要注意的是,相似性參數(shù)更新單 元132可以將鄰近詞的提取授權(quán)至獨立于搜索中介服務(wù)器10而設(shè)置的形態(tài)分析儀。
[0194] 接下來,將參考圖22來描述估計共生比率更新過程。圖22是根據(jù)第二實施例的估 計共生比率更新過程的流程圖。估計共生比率更新過程是在估計參數(shù)更新過程的步驟S45 中由估計共生比率更新單元134執(zhí)行的過程。
[0195] (步驟S151)估計共生比率更新單元134獲得一組共生搜索項(搜索項的組合),其 中已設(shè)置了已知共生比率(具有已知共生比率的集合)。
[0196] (步驟S152)估計共生比率更新單元134獲得一組共生搜索項,其中沒有設(shè)置已知 共生比率(不具有已知共生比率的集合)。
[0197] (步驟S153)估計共生比率更新單元134從不具有已知共生比率的集合中選擇一個 共生搜索項。
[0198] (步驟S154)估計共生比率更新單元134參考關(guān)系字典,并且獲得可能具有選擇的 共生搜索項的關(guān)系的集。
[0199] 在下文中,將參考圖23來描述關(guān)系字典。圖23圖示了根據(jù)第二實施例的關(guān)系字典 270的示例。
[0200] 關(guān)系字典270包括項目"項1"、項目"項2"、項目"關(guān)系"和項目"得分"。項目"項1"是 包括在組合中的搜索項中的一個。項目"項2"是包括在組合中的搜索項中的另一個。項目 "關(guān)系"指示兩個搜索項之間的關(guān)系。項目"得分"指示兩個搜索項之間的可能性。例如,項目 "得分"取"0.0"至"1.0"范圍內(nèi)的值。該值越接近"1.0",兩個搜索項之間的關(guān)系越是可能的 (用于指代由項目"關(guān)系"指示的關(guān)系的項1和項2的可能性更高)。
[0201] 例如,針對關(guān)系"公司-技術(shù)",項1"FFF"和項2"云"的組合具有得分"0.9",而針對 關(guān)系"公司-部門名稱"具有得分"0.3"。因此,當(dāng)項1"FFF"和項2 "云"出現(xiàn)在相同的文件中 時,項2"云"可以被用于指代技術(shù),并且可以被用于指代部門的名稱。然而,根據(jù)關(guān)系字典 270,項2被用于指代技術(shù)的可能性高于被用于指代部門的名稱的可能性。
[0202]此外,針對關(guān)系"公司-技術(shù)",項和項2"數(shù)據(jù)分析"的組合具有得分"0.8", 而針對關(guān)系"公司-產(chǎn)品名稱"具有"〇. 2"的得分。因此,當(dāng)項和項2 "數(shù)據(jù)分析"出現(xiàn)在 相同文件中時,項2"數(shù)據(jù)分析"可以用于指代技術(shù),并且可以用于指代產(chǎn)品的名稱。然而,根 據(jù)關(guān)系字典270,項2用于指代技術(shù)的可能性高于其適用于指代產(chǎn)品的名稱的可能性。
[0203]通過參考關(guān)系字典270,例如當(dāng)步驟S153中選擇共生搜索項"BBB&數(shù)據(jù)分析"時,估 計共生比率更新單元134能夠獲得包括關(guān)系"公司-技術(shù)"和關(guān)系"公司-產(chǎn)品名稱"的關(guān)系集 作為其元素。
[0204](步驟S155)估計比率更新單元134從具有已知共生比率的集合中提取包括共生搜 索項的子集,其中的每一個可以具有與包括在關(guān)系集(具有已知共生比率的子集)中的任何 一種關(guān)系相同的關(guān)系。例如,假設(shè)在步驟S153中選擇共生搜索項"BBB&數(shù)據(jù)分析",并且具有 已知共生比率的集合包括共生搜索項"FFF&云"。在這種情況下,共生搜索項"FFF&云"可以 具有包括在關(guān)系集中的關(guān)系"公司_技術(shù)"。因此,共生搜索項"FFF&云"被包括在具有已知共 生比率的子集中。
[0205](步驟S156)估計共生比率更新單元134參考關(guān)系字典,并且針對包括在關(guān)系集中 的每一種關(guān)系來計算估計共生比率。當(dāng)r是包括在關(guān)系集R中的關(guān)系;Pl是包括在具有已知 共生比率的子集中的共生搜索項i的已知共生比率;并且如果假定了關(guān)系r, Sl是對應(yīng)于共 生搜索項i以及關(guān)系字典中的關(guān)系r的得分時,那么共生搜索項k的估計共生比率gk, r由表達(dá) 式(7)來表示。要注意的是,在沒有針對共生搜索項i登記關(guān)系r的情況下,得分81為"0"。此 外,估計共生比率gk,r為"0"。
[0206]例如,假設(shè)在步驟S153中選擇共生搜索項"BBB&數(shù)據(jù)分析",并且具有已知共生比 率的子集僅包括共生搜索項"FFF&云"。在這種情況下,針對關(guān)系"公司-技術(shù)"計算已知共生 比率"1,000"X得分"0.9"/得分"0.9"=估計共生比率"1,000"。至于關(guān)系"公司-產(chǎn)品名 稱",由于共生搜索項"FFF&云"不具有關(guān)系"公司-產(chǎn)品名稱",所以計算的估計共生比率為 "0,,。
[0208] (步驟S157)估計共生比率更新單元134從計算的估計共生比率gk,r中選擇具有最 大的值的估計共生比率gk,r作為最大值估計共生比率。例如,如果針對關(guān)系"公司-技術(shù)"計 算的估計共生比率為"1,〇〇〇",而針對關(guān)系"公司-產(chǎn)品名稱"計算的估計共生比率為"〇",則 估計共生比率更新單元134選擇前者作為最大值估計共生比率。這指示,在搜索項"BBB"和 搜索項"數(shù)據(jù)分析"出現(xiàn)在相同文件中的情況下,估計共生比率更新單元134假定存在用于 參照關(guān)系"公司-技術(shù)"的搜索項的高可能性,并且使得已知共生比率基于這個假設(shè)來影響 估計共生比率。
[0209] (步驟S158)估計共生比率更新單元134對具有選擇的最大值估計共生比率的共生 比率列表16進(jìn)行更新。例如,當(dāng)針對共生搜索項"BBB&數(shù)據(jù)分析"而計算的估計共生比率為 "1,〇〇〇"時,估計共生比率更新單元134將估計共生比率記錄在共生比率表格250(見圖17) 中。此處,由于其已知共生比率為未知,所以針對共生搜索項"BBB&數(shù)據(jù)分析"的項目"已知 共生比率"為
[0210](步驟S159)估計共生比率更新單元134確定是否已經(jīng)選擇了包括在不具有已知共 生比率集合中的所有共生搜索項。如果還沒有選擇包括在不具有已知共生比率集合中的所 有共生搜索項,則過程返回至步驟S153。如果已經(jīng)選擇了包括在不具有已知共生比率中的 所有共生搜索項,則估計共生比率更新過程結(jié)束。
[0211]以這樣的方式,估計共生比率更新單元134能夠更新具有針對搜索項的組合進(jìn)行 計算的估計共生比率的共生比率列表16,其中,沒有針對搜索項設(shè)置已知共生比率。
[0212] 接下來,將參考圖24至圖27來描述在參考實施例中發(fā)出的搜索查詢的次數(shù)和在第 二實施例中發(fā)出的搜索查詢的次數(shù)。首先,將參考圖24來描述在參考實施例中(在包含搜索 項的文件集在多個搜索項中沒有重疊的情況下)發(fā)出的搜索查詢的次數(shù)。圖24圖示了根據(jù) 參考實施例(在文件集沒有重疊的情況下)發(fā)出搜索查詢的示例。
[0213] 假設(shè)文件搜索服務(wù)器52的輸出限制數(shù)目S是100,并且響應(yīng)于來自搜索終端設(shè)備51 的搜索請求生成的搜索項集14包括搜索項"A"、搜索項"B"和搜索項"C"。包含搜索項"A"的 文件的數(shù)目為"70" ;包含搜索項"B"的文件的數(shù)目為"50" ;包含搜索項"C"的文件的數(shù)目為 "40";并且不存在重疊文件。
[0214]如果搜索中介服務(wù)器10在針對搜索項"A"、"B"和"C"不使用或運算符的情況下生 成搜索查詢,則生成"查詢A"、"查詢B"和"查詢C"三個搜索查詢。搜索中介服務(wù)器10發(fā)出"查 詢A"至文件搜索服務(wù)器52,并且獲得"70"個文件作為搜索結(jié)果(A-1)。此外,搜索中介服務(wù) 器10發(fā)出"查詢B"至文件搜索服務(wù)器52,并且獲得"50"個文件作為搜索結(jié)果(A-2)。此外,搜 索中介服務(wù)器10發(fā)出"查詢C"至文件搜索服務(wù)器52,并且獲得"40"個文件作為搜索結(jié)果(A- 3)。以這樣的方式,搜索中介服務(wù)器10三次發(fā)出搜索查詢至文件搜索服務(wù)器52。以這樣的方 式,關(guān)于輸出限制數(shù)目S,搜索中介服務(wù)器10針對"查詢A"(A-1)消耗容量來輸出"30"個文 件,針對"查詢B"(A-2)消耗容量來輸出"50"個文件,并且針對"查詢C"(A-3)消耗容量來輸 出"60"個文件。消耗的輸出文件的容量指的是在不發(fā)出額外查詢的情況下可以獲得的文件 的數(shù)目。亦即,這種表達(dá)指代用于在沒有獲得文件的情況下獲得被消耗的文件的機(jī)會或資 源。
[0215]此外,如果搜索中介服務(wù)器10使用或運算符將搜索項"A"與搜索項"B"結(jié)合而生成 搜索查詢,則生成"查詢A或B"和"查詢C"這兩個搜索查詢。搜索中介服務(wù)器10發(fā)出"查詢A或 B"至文件搜索服務(wù)器52,并且獲得"120( = 70+50)"個文件作為搜索結(jié)果(B-1)。然而,由于 文件的數(shù)目"120"超過了輸出限制數(shù)目S,所以搜索中介服務(wù)器10在兩批中獲得文件,更具 體地,第一批中"100"個文件以及第二批中"20"個文件。因此,搜索中介服務(wù)器10兩次發(fā)出 "查詢A或B",并且獲得"120"個文件作為搜索結(jié)果。此外,搜索中介服務(wù)器10發(fā)出"查詢C"至 文件搜索服務(wù)器52,并且獲得"40"個文件作為搜索結(jié)果(B-2)。以這樣的方式,搜索中介服 務(wù)器10三次發(fā)出搜索查詢至文件搜索服務(wù)器52。在這種情況下,關(guān)于輸出限制數(shù)目S,搜索 中間服務(wù)器10針對"查詢A或B"(B-1)消耗容量來輸出"80"個文件,并且針對"查詢C"(B-2) 消耗容量來輸出"60"個文件。
[0216]此外,如果搜索中介服務(wù)器10使用或運算符將搜索項"A"與搜索項"C"結(jié)合而生成 搜索查詢時,則生成"查詢A或C"和"查詢B"這兩個搜索查詢。搜索中介服務(wù)器10發(fā)出"查詢A 或C"至文件搜索服務(wù)器52,并且獲得"110( = 70+40)"個文件作為搜索結(jié)果(C-1)。然而,由 于文件的數(shù)目"110"超過了輸出限制數(shù)目S,所以搜索中間服務(wù)器10在兩批中獲得文件,更 具體地,第一批中"100"個文件以及第二批中"10"個文件。因此,搜索中介服務(wù)器10兩次發(fā) 出"查詢A或C",并且獲得"110"個文件作為搜索結(jié)果。此外,搜索中介服務(wù)器10發(fā)出"查詢B" 至文件搜索服務(wù)器52,并且獲得"50"個文件作為搜索結(jié)果(C-2)。以這樣的方式,搜索中介 服務(wù)器10三次發(fā)出搜索查詢至文件搜索服務(wù)器52。在這種情況下,關(guān)于輸出限制數(shù)目S,搜 索中介服務(wù)器10針對"查詢A或C"(C-1)消耗容量來輸出"90"個文件,并且針對"查詢B"(C- 2)消耗容量來輸出"50"個文件。
[0217] 因此,在沒有選擇搜索項的適當(dāng)組合的情況下,使用或運算符生成的查詢不會有 助于減少發(fā)出搜索查詢的次數(shù)。
[0218] 接下來,將參考圖25來描述第二實施例中(在文件集沒有重疊的情況下)發(fā)出的搜 索查詢的次數(shù)。圖25圖示了根據(jù)第二實施例(在文件集沒有重疊的情況下)發(fā)出搜索查詢的 示例。
[0219]如果搜索中介服務(wù)器10使用或運算符將搜索項"B"與搜索項"C"結(jié)合而生成搜索 查詢,則生成"查詢B或C"和"查詢A"這兩個搜索查詢。搜索中介服務(wù)器10發(fā)出"查詢B或C"至 文件搜索服務(wù)器52,并且獲得"90( = 50+40)"個文件作為搜索結(jié)果(D-1)。此外,搜索中間服 務(wù)器10發(fā)出"查詢A"至文件搜索服務(wù)器52,并且獲得"70"個文件作為搜索結(jié)果(D-2)。以這 樣的方式,搜索中介服務(wù)器10兩次發(fā)出搜索查詢至文件搜索服務(wù)器52。在這種情況下,關(guān)于 輸出限制數(shù)目S,搜索中介服務(wù)器10針對"查詢B或C"(D-1)消耗容量來輸出"10"個文件,并 且針對"查詢A"(D-2)消耗容量來輸出"30"個文件。
[0220] 因此,通過選擇搜索項的適當(dāng)組合,搜索中介服務(wù)器10能夠減少發(fā)出搜索查詢的 次數(shù)。通過查詢構(gòu)建單元11來選擇這樣的搜索項的適當(dāng)組合。此外,通過估計參數(shù)更新單元 13來改進(jìn)在選擇搜索項的組合中查詢構(gòu)建單元11的精確度。
[0221] 接下來,將參考圖26來描述參考實施例中(在包含搜索項的文件集在多個搜索項 中重疊的情況下)發(fā)出的搜索查詢的次數(shù)。圖26圖示了根據(jù)參考實施例(在文件集重疊的情 況下)發(fā)出搜索查詢的示例。
[0222]要注意的是,包含搜索項"A"的文件的數(shù)目是"60" ;包含搜索項"B"的文件的數(shù)目 是"60" ;包含搜索項"C"的文件的數(shù)目是"60" ;并且存在重疊文件。在搜索項"A"和搜索項 "B"之間存在"10"個重疊文件;在搜索項"A"和搜索項"C"之間存在"20"個重疊文件;并且在 搜索項"B"和搜索項之間存在"20"個重疊文件;
[0223]如果搜索中介服務(wù)器10使用或運算符將搜索項"A"與搜索項"B"結(jié)合而生成了搜 索查詢,則生成"查詢A或B"和"查詢C"這兩個搜索查詢。搜索中介服務(wù)器10發(fā)出"查詢A或B" 至文件搜索服務(wù)器52,并且獲得"110( = 60+60-10)"個文件作為搜索結(jié)果(E-1)。然而,由于 文件的數(shù)目"110"超過了輸出限制數(shù)目S,則搜索中介服務(wù)器10在兩批中獲得文件,更具體 地,第一批中"100"個文件并且第二批中"10"個文件。因此,搜索中介服務(wù)器10兩次發(fā)出"查 詢A或B",并且獲得"110"個文件作為搜索結(jié)果。此外,搜索中介服務(wù)器10發(fā)出"查詢C"至文 件搜索服務(wù)器52,并且獲得"60"個文件作為搜索結(jié)果(E-2)。以這樣的方式,搜索中介服務(wù) 器10三次發(fā)出搜索查詢至文件搜索服務(wù)器52。在這種情況下,關(guān)于輸出限制數(shù)目S,搜索中 介服務(wù)器10針對"查詢A或B"(E-1)消耗容量來輸出"90"個文件,并且針對"查詢C"(E-2)消 耗容量來輸出"40"個文件。
[0224] 因此,在文件集也重疊的情況下,如果沒有選擇搜索項的適當(dāng)組合,則使用或運算 符生成的查詢不會有助于減少發(fā)出搜索查詢的次數(shù)。
[0225] 接下來,將參考圖27來描述第二實施例中(在文件集重疊的情況下)發(fā)出的搜索查 詢的次數(shù)。圖27圖示了根據(jù)第二實施例(在文件集重疊的情況下)發(fā)出搜索查詢的示例。
[0226] 如果搜索中介服務(wù)器10使用或運算符將搜索項"A"與搜索項"C"結(jié)合而生成了搜 索查詢,則生成"查詢A或C"和"查詢B"這兩個搜索查詢。搜索中介服務(wù)器10發(fā)出"查詢A或C" 至文件搜索服務(wù)器52,并且獲得"100 ( = 60+60-20)"個文件作為搜索結(jié)果(F-1)。此外,搜索 中介服務(wù)器10發(fā)出"查詢B"至文件搜索服務(wù)器52,并且獲得"60"個文件作為搜索結(jié)果(F-2)。以這樣的方式,搜索中介服務(wù)器10兩次發(fā)出搜索查詢至文件搜索服務(wù)器52。在這種情況 下,關(guān)于輸出限制數(shù)目S,搜索中介服務(wù)器10針對"查詢A或C"(F-1)不消耗容量來輸出文件, 并且針對"查詢B"(F-2)消耗容量來輸出"40"個文件。
[0227] 因此,在文件集也重疊的情況下,通過選擇搜索項的適當(dāng)組合,搜索中介服務(wù)器10 能夠減少發(fā)出搜索查詢的次數(shù)。通過查詢構(gòu)建單元11來選擇這樣的搜索項的適當(dāng)組合。此 外,通過估計參數(shù)更新單元13來改進(jìn)在選擇搜索項的組合中查詢構(gòu)建單元11的精確度。 [0228]接下來,將參考圖28至圖30來描述第二實施例中的用戶界面顯示。首先,將參考圖 28來描述查詢執(zhí)行之前的用戶界面顯示。圖28圖示了根據(jù)第二實施例的查詢執(zhí)行之前的用 戶界面顯示300的示例。
[0229]用戶界面(UI)顯示300是用于接收執(zhí)行搜索查詢的操作的顯示。搜索終端設(shè)備51 獲得來自搜索中介服務(wù)器10的所需的信息,并且在搜索終端設(shè)備51的顯示器上顯示用戶界 面顯示300。
[0230]用戶界面顯示300指示選擇了搜索項"FFF"和搜索項"演變材料",并且構(gòu)建了搜索 查詢"FFF或演變材料"。此外,用戶界面顯示300指示,關(guān)于搜索查詢"FFF或演變材料",預(yù)計 要獲得160,000個文件作為搜索結(jié)果,并且搜索查詢預(yù)計要被執(zhí)行1,600次以獲得文件。
[0231] 用戶界面顯示300包括:顯示域"構(gòu)建的查詢和查詢執(zhí)行"、顯示域"對查詢和執(zhí)行 結(jié)果數(shù)字的估計"、顯示域"查詢元素的詳細(xì)數(shù)字"以及顯示域"針對查詢構(gòu)建用于選擇搜索 項的盒子"。
[0232] 顯示域"針對查詢構(gòu)建用于選擇搜索項的盒子"包括可選擇的搜索項的列表,并且 針對每個搜索項也指示包括在樣本數(shù)據(jù)(樣本文件集18)、估計比率、文件的估計數(shù)目中的 搜索項的文件的數(shù)目,以及用于接收選擇搜索項的操作的復(fù)選框。如果選中該復(fù)選框,則指 示選擇了對應(yīng)的搜索項。
[0233] 顯示域"對查詢和執(zhí)行結(jié)果數(shù)字的估計"包括:顯示項目"文件的估計數(shù)目"、顯示 項目"文件的數(shù)目(命中率)"、顯示項目"查詢執(zhí)行的估計數(shù)目"以及顯示項目"查詢執(zhí)行的 數(shù)目(命中率)"。顯示項目"文件的估計數(shù)目"指示預(yù)計要獲得的作為構(gòu)建的查詢的搜索結(jié) 果的文件的數(shù)目。顯示項目"文件的數(shù)目(命中率)"指示實際獲得的作為構(gòu)建的查詢(搜索 查詢)的搜索結(jié)果的文件的數(shù)目,并且也指示括號中文件的估計數(shù)目的命中率(獲得的文件 的數(shù)目的命中率)。顯示項目"查詢執(zhí)行的估計數(shù)目"指示預(yù)計要執(zhí)行構(gòu)建的查詢以獲得搜 索結(jié)果的次數(shù)。顯示項目"查詢執(zhí)行的數(shù)目(命中率)"指示實際執(zhí)行構(gòu)建的查詢以獲得搜索 結(jié)果的次數(shù),并且也指示括號中的查詢執(zhí)行的估計數(shù)目的命中率(查詢執(zhí)行的數(shù)目的命中 率)。要注意的是,由于用戶界面顯示300顯示在構(gòu)建的查詢還未執(zhí)行時的狀態(tài),所以在顯示 項目"文件的數(shù)目(命中率)"和顯示項目"查詢執(zhí)行的數(shù)目(命中率)"中的每一個中顯示 " " 〇
[0234] 顯示域"查詢元素的詳細(xì)數(shù)字"指示選擇的搜索項,并且針對每個選擇的搜索項也 指示包含在文件的估計數(shù)目、估計比率和樣本數(shù)據(jù)中的搜索項的文件的數(shù)目。此外,針對選 擇的搜索項的組合,顯示域"查詢元素的詳細(xì)數(shù)字"指示包含文件的估計數(shù)目和估計比率的 組合的文件的數(shù)目。
[0235] 顯示域"構(gòu)建的查詢和查詢執(zhí)行"顯示了項目"構(gòu)建的查詢"和操作按鈕"執(zhí)行查 詢"。項目"構(gòu)建的查詢"顯示了包括選擇的搜索項的構(gòu)建的搜索查詢。操作按鈕"執(zhí)行查詢" 允許用戶執(zhí)行搜索查詢。
[0236]接下來,將參考圖29來描述查詢執(zhí)行之后的用戶界面顯示。圖29圖示了根據(jù)第二 實施例的查詢執(zhí)行之后的用戶界面顯示310的示例。
[0237]用戶界面顯示310是由用戶執(zhí)行搜索查詢之后的顯示器。搜索終端設(shè)備51從搜索 中介服務(wù)器10獲得包括搜索結(jié)果的需要的信息,并且在搜索終端設(shè)備51的顯示器上顯示用 戶界面顯示器310。
[0238]用戶界面顯示310指示,關(guān)于搜索查詢"FFF或演變材料",當(dāng)期望獲得160,000個文 件作為搜索結(jié)果時,實際上獲得了 150,000個文件作為搜索結(jié)果。用戶界面顯示310指示獲 得的文件的數(shù)目的命中率是"〇. 93( = 150,000/160,000)"。用戶界面顯示310指示,關(guān)于搜 索查詢"FFF或演變材料",當(dāng)期望執(zhí)行搜索查詢1600次時,實際上執(zhí)行了搜索查詢1500次。 用戶界面顯示310指示查詢執(zhí)行的數(shù)目的命中率是"0.93( = 1500/1600)"。
[0239]此外,基于根據(jù)搜索結(jié)果更新的參數(shù)(在圖29中,在更新的數(shù)字下面劃線),用戶界 面顯示310針對每個搜索項顯示文件的更新估計數(shù)目和更新估計比率。
[0240]接下來,將參考圖30來描述查詢執(zhí)行之后的日志顯示。圖30圖示了根據(jù)第二實施 例來顯示記錄的用戶界面顯示器320的示例。
[0241] 用戶界面顯示器320在查詢執(zhí)行之后顯示日志顯示。搜索終端設(shè)備51獲得來自搜 索中介服務(wù)器10的所需的信息,并且在搜索終端設(shè)備51的顯示器上顯示用戶界面顯示320。
[0242] 用戶界面顯示320顯示三個日志作為日志的一部分或者全部。每個日志包括事件 發(fā)生的時間和事件的內(nèi)容。例如,發(fā)生在"2014-09-2609:00:00"的事件的日志指示內(nèi)容為 "查詢執(zhí)行"并且查詢(搜索查詢)是"FFF或演變材料"。此外,發(fā)生在"2014-09-2609:00:00" 的事件的日志包括作為詳細(xì)的信息的查詢元素的詳細(xì)數(shù)字。
[0243] 發(fā)生在"2014-09-2609:20: 21"的事件的日志指示內(nèi)容為"估計結(jié)果的更新"并且 搜索項是"NNN"。此外,發(fā)生在"2014-09-2609:20:21"的事件的日志包括更新之前和之后的 搜索項的詳細(xì)數(shù)字。
[0244] 這樣的用戶界面顯示協(xié)助用戶生成搜索請求,并且有助于改進(jìn)搜索效率。
[0245] 要注意的是,在上面的描述中,由搜索終端設(shè)備51來顯示用戶界面。然而,根據(jù)修 改的實施例,可以在搜索中介服務(wù)器10的顯示器上顯示用戶界面。在這種情況下,如果搜索 中介服務(wù)器10包括作為搜索終端設(shè)備的功能,則搜索中介服務(wù)器10可以針對正在執(zhí)行搜索 的用戶來顯示界面。此外,如果搜索中介服務(wù)器10不包括作為搜索終端設(shè)備的功能,則搜索 中介服務(wù)器10可以針對管理員來顯示界面。
[0246] 可以由計算機(jī)來實現(xiàn)上述過程功能。在這種情況下,提供了描述文件搜索設(shè)備1或 搜索中介服務(wù)器10的功能的操作的程序。當(dāng)計算機(jī)執(zhí)行程序時,上述的過程功能被實現(xiàn)在 計算機(jī)上。描述功能的操作的程序可以存儲在計算機(jī)可讀存儲介質(zhì)中。計算機(jī)可讀存儲介 質(zhì)的示例包括磁存儲器裝置、光盤、磁光存儲介質(zhì)和半導(dǎo)體存儲器裝置等。磁存儲器裝置的 示例包括硬盤驅(qū)動(HDD)、軟盤(FD)和磁帶等。光盤的示例包括數(shù)字化多功能光盤(DVD)、 DVD-RAM、CD-ROM和CD-RW等。磁光存儲介質(zhì)的示例包括磁光盤(M0)等。
[0247] 為了分配程序,例如可以以便攜式存儲介質(zhì)(諸如DVD和CD-ROM等)的形式來存儲 并出售程序。程序也可以存儲在服務(wù)器計算機(jī)的存儲器裝置中,并且經(jīng)由網(wǎng)絡(luò)從服務(wù)器計 算機(jī)傳輸至其它計算機(jī)。
[0248] 為了執(zhí)行計算機(jī)上的程序,計算機(jī)將記錄在便攜式存儲介質(zhì)中的程序或者從服務(wù) 器計算機(jī)傳輸?shù)某绦虼鎯υ谄浯鎯ζ餮b置中。然后,計算機(jī)讀取來自其存儲器裝置的程序, 并且根據(jù)該程序執(zhí)行處理。計算機(jī)可以直接從便攜式記錄介質(zhì)中讀取程序,并且根據(jù)該程 序執(zhí)行處理。此外,計算機(jī)可以連續(xù)接收來自通過網(wǎng)絡(luò)連接的服務(wù)器計算機(jī)的程序,并且根 據(jù)接收的程序執(zhí)行處理。
[0249] 也可以全部或部分地通過使用電子線路諸如DSP、ASIC和PLD等來實現(xiàn)上述處理功 能。
[0250] 根據(jù)一個方面,文件搜索設(shè)備、文件搜索方法和文件搜索程序能夠減少系統(tǒng)限制 下發(fā)出搜索查詢的次數(shù)。
【主權(quán)項】
1. 一種文件搜索設(shè)備,包括: 存儲器,其存儲由請求指定的多個搜索項,所述請求通過使用管理文件集的系統(tǒng)來請 求針對包含所述多個搜索項中的至少一個的文件的搜索;以及 執(zhí)行過程的處理器,所述過程包括: 當(dāng)從所述多個搜索項中選擇兩個或更多個搜索項并且生成搜索查詢時,確定要被選擇 的搜索項的組合,使得所述搜索查詢的大小等于或小于第一閾值,并且使得響應(yīng)于所述搜 索查詢要由所述系統(tǒng)檢索的文件數(shù)目的估計值等于或小于第二閾值,其中,所述搜索查詢 包括所選擇的兩個或更多個搜索項,并且要被輸入至所述系統(tǒng)。2. 根據(jù)權(quán)利要求1所述的文件搜索設(shè)備,其中,所述過程進(jìn)一步包括:基于所述估計值 和所述第二閾值之間的差,對從所述多個搜索項中獲得的搜索項的候選組合中的每一個進(jìn) 行評價。3. 根據(jù)權(quán)利要求1所述的文件搜索設(shè)備,其中,所述過程進(jìn)一步包括: 針對另一個文件集和所述文件集之間的文件數(shù)目的關(guān)系,計算對應(yīng)于第一搜索項的第 一倍增因數(shù)和對應(yīng)于第二搜索項的第二倍增因數(shù);以及 當(dāng)所述第一搜索項和所述第二搜索項被包括在搜索項的候選組合中的任何一個中時, 使用在所述其它文件集中包含所述第一搜索項的第一文件的數(shù)目、在所述其它文件集中包 含所述第二搜索項的第二文件的數(shù)目、所述第一倍增因數(shù)和所述第二倍增因數(shù)來計算所述 估計值。4. 根據(jù)權(quán)利要求3所述的文件搜索設(shè)備,其中,所述過程進(jìn)一步包括:當(dāng)已知所述第一 倍增因數(shù)并且未知所述第二倍增因數(shù)時,基于所述其它文件集中的第一搜索項的出現(xiàn)狀 態(tài)、所述其它文件集中的第二搜索項的出現(xiàn)狀態(tài)和所述第一倍增因數(shù),對所述第二倍增因 數(shù)進(jìn)行估計。5. 根據(jù)權(quán)利要求3所述的文件搜索設(shè)備,其中, 所述過程進(jìn)一步包括:針對所述其它文件集和所述文件集之間的文件數(shù)目的關(guān)系,計 算對應(yīng)于所述第一搜索項和所述第二搜索項的組合的第三倍增因數(shù);以及 對所述估計值的計算包括:除了所述第一文件的數(shù)目、所述第二文件的數(shù)目、所述第一 倍增因數(shù)和所述第二倍增因數(shù)之外,還使用在所述其它文件集中包含所述第一搜索項和所 述第二搜索項二者的第三文件的數(shù)目以及所述第三倍增因數(shù)來計算所述估計值。6. 根據(jù)權(quán)利要求3所述的文件搜索設(shè)備,其中,所述過程進(jìn)一步包括: 基于響應(yīng)所述搜索查詢從所述系統(tǒng)獲得的搜索結(jié)果,更新所述第一倍增因數(shù)和所述第 二倍增因數(shù);以及 基于更新的第一倍增因數(shù)和更新的第二倍增因數(shù),通過從所述多個搜索項中選擇其它 兩個或更多個搜索項來生成另一個搜索查詢。7. -種文件搜索方法,包括: 通過處理器獲得指定多個搜索項的請求,所述請求通過使用管理文件集的系統(tǒng)來請求 針對包含所述多個搜索項中的至少一個的文件的搜索;以及 通過所述處理器從由所述請求指定的多個搜索項中選擇兩個或更多個搜索項,并且生 成搜索查詢,其中,所述搜索查詢包括所選擇的兩個或更多個搜索項,并且要被輸入至所述 系統(tǒng); 其中,所述選擇包括:確定要被選擇的搜索項的組合,使得所述搜索查詢的大小等于或 小于第一閾值,并且使得響應(yīng)于所述搜索查詢要由所述系統(tǒng)檢索的文件數(shù)目的估計值等于 或小于第二閾值。
【文檔編號】G06F17/30GK105912553SQ201610060089
【公開日】2016年8月31日
【申請日】2016年1月28日
【發(fā)明人】阿部修也
【申請人】富士通株式會社