日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置與流程

文檔序號(hào):12305548閱讀:345來(lái)源:國(guó)知局
一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置與流程

本發(fā)明涉及視頻搜索技術(shù)領(lǐng)域,更具體地說(shuō),涉及一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置。



背景技術(shù):

發(fā)現(xiàn)用戶的錯(cuò)誤輸入,并糾正為符合用戶真實(shí)意圖的正確輸入,是搜索引擎對(duì)查詢?cè)~(query)進(jìn)行預(yù)處理的一個(gè)關(guān)鍵步驟。搜索引擎需要針對(duì)特定的query,召回與之相關(guān)的文檔(doc)。在實(shí)際應(yīng)用中,query中包含的錯(cuò)誤,如錯(cuò)字、增字、亂序等,可能使搜索引擎召回大量與用戶真實(shí)意圖不符的doc。而query被糾正,一方面用戶的真實(shí)意圖被還原,是搜索引擎智能性的體現(xiàn)方式,另一方面則是對(duì)檢索和排序算法的重要補(bǔ)充,降低了檢索的難度。統(tǒng)計(jì)表明,視頻搜索中10%以上的query是錯(cuò)誤的。

視頻搜索,作為一種垂直領(lǐng)域的搜索,通常有兩類方法來(lái)實(shí)現(xiàn)查詢?cè)~糾錯(cuò):離線方法和在線方法。離線方法依賴于糾錯(cuò)對(duì)詞典,即“正確query-錯(cuò)誤query”的映射關(guān)系。這些關(guān)系或是手工定義的,或來(lái)自于對(duì)用戶日志的挖掘,雖然可以涵蓋部分錯(cuò)誤輸入,但這類方法一方面需要大量的人工工作,另一方面這種離線方法的作用范圍具有遲滯性:用戶曾經(jīng)輸入過(guò)才可能被發(fā)現(xiàn)并放入糾錯(cuò)對(duì)詞典中。但是由于用戶輸入的多樣性,很多的錯(cuò)誤模式,是完全無(wú)法預(yù)知的。而現(xiàn)有的在線方法對(duì)查詢?cè)~的的糾錯(cuò)判別準(zhǔn)則過(guò)于簡(jiǎn)單,發(fā)生誤糾的概率較大。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明提出一種視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置,欲實(shí)現(xiàn)準(zhǔn)確的對(duì)查詢?cè)~進(jìn)行在線糾錯(cuò)的目的。

為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:

一種視頻搜索中的查詢?cè)~糾錯(cuò)方法,包括:

接收用戶輸入的查詢?cè)~;

對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;

利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;

從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

優(yōu)選的,所述從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果具體包括:

利用預(yù)先建立的語(yǔ)言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>

利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;

從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

優(yōu)選的,所述糾錯(cuò)候選詞詞典的生成過(guò)程,包括:

接收用戶輸入的詞語(yǔ);

將所述詞語(yǔ)作為糾錯(cuò)候選詞;

對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。

優(yōu)選的,提取的所述特征包括:對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長(zhǎng)度為三的窗口上的最小值。

優(yōu)選的,所述對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合,具體為:

對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。

一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,包括:

接收單元,用于接收用戶輸入的查詢?cè)~;

處理單元,用于對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;

匹配單元,用于利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;

分析單元,用于從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

優(yōu)選的,所述分析單元包括:

特征提取子單元,用于利用預(yù)先建立的語(yǔ)言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>

判斷子單元,用于利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;

選擇子單元,用于從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

優(yōu)選的,所述裝置還包括:

詞典生成單元,用于接收用戶輸入的詞語(yǔ),將所述詞語(yǔ)作為糾錯(cuò)候選詞,對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。

優(yōu)選的,提取的所述特征包括:

對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長(zhǎng)度為三的窗口上的最小值。

優(yōu)選的,所述處理單元,具體用于:

對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。

與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案具有以下優(yōu)點(diǎn):

上述技術(shù)方案提供的視頻搜索中的查詢?cè)~糾錯(cuò)方法和裝置,對(duì)查詢?cè)~進(jìn)行刪字處理,得到刪除字后的字串集合;利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配糾錯(cuò)候選詞;通過(guò)這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的一種視頻搜索中的查詢?cè)~糾錯(cuò)方法的流程圖;

圖2為本發(fā)明實(shí)施例提供的種從糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為查詢?cè)~的糾錯(cuò)結(jié)果的方法的流程圖;

圖3為本發(fā)明實(shí)施例提供的一種糾錯(cuò)候選詞詞典的生成方法的流程圖;

圖4為本發(fā)明實(shí)施例提供的一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置的結(jié)構(gòu)示意圖;

圖5為本發(fā)明實(shí)施例提供的一種分析單元的結(jié)構(gòu)示意圖;

圖6為本發(fā)明實(shí)施例提供的另一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

實(shí)施例一

本實(shí)施例提供一種視頻搜索中的查詢?cè)~糾錯(cuò)方法,請(qǐng)參見(jiàn)圖1,該方法包括:

步驟s11:接收用戶輸入的查詢?cè)~;

步驟s12:對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;

預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合,也可以對(duì)查詢?cè)~的多個(gè)字分別刪除得到字串集合,還可以對(duì)查詢?cè)~的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。

如用戶輸入的查詢?cè)~(query)為“射貂英雄傳”。對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合為:刪除查詢?cè)~的第一個(gè)字得到“貂英雄傳”;刪除查詢?cè)~的第二個(gè)字得到“射英雄傳”;刪除查詢?cè)~的第三個(gè)字得到“射貂雄傳”;刪除查詢?cè)~的第四個(gè)字得到“射貂英傳”;刪除查詢?cè)~的第五個(gè)字得到“射貂英雄”;得到字串集合為“貂英雄傳”、“射英雄傳”、“射貂雄傳”、“射貂英傳”和“射貂英雄”。

對(duì)查詢?cè)~的兩個(gè)字分別刪除得到字串集合可以為:刪除查詢?cè)~的第一個(gè)字和第二個(gè)字得到“英雄傳”;刪除查詢?cè)~的第二個(gè)字和第三個(gè)字得到“射雄傳”;刪除查詢?cè)~的第三個(gè)字和第四個(gè)字得到“射貂傳”;刪除查詢?cè)~的第四個(gè)和第五個(gè)字得到“射貂英”;得到字串集合為“英雄傳”、“射雄傳”、“射貂傳”和“射貂英”。

對(duì)查詢?cè)~的每個(gè)字分別刪除以及兩個(gè)字分別刪除得到的字串集合可以為:“貂英雄傳”、“射英雄傳”、“射貂雄傳”、“射貂英傳”、“射貂英雄”、“英雄傳”、“射雄傳”、“射貂傳”和“射貂英”。

步驟s13:利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;

糾錯(cuò)候選詞詞典包括正確的劇名和人名,以及與劇名對(duì)應(yīng)的字串集合,與人名對(duì)應(yīng)的字串集合。與劇名對(duì)應(yīng)的字串集合為對(duì)劇名進(jìn)行刪字處理后得到,具體方法與對(duì)查詢?cè)~的刪字處理方法一致。與人名對(duì)應(yīng)的字串集合為對(duì)人名進(jìn)行刪字處理后得到,具體方法也與對(duì)查詢?cè)~的刪字處理方法一致。不再贅述。正確的劇名和人名作為糾錯(cuò)候選詞,利用對(duì)用戶輸入的查詢?cè)~進(jìn)行刪字處理得到的字串集合以及用戶輸入的查詢?cè)~,在糾錯(cuò)候選詞詞典匯總匹配得到糾錯(cuò)候選詞。

例如,糾錯(cuò)候選詞詞典中糾錯(cuò)候選詞“射雕英雄傳”對(duì)應(yīng)的字串集合為“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”和“射雕英雄”,用戶輸入查詢?cè)~“射貂英雄傳”后,利用查詢?cè)~對(duì)應(yīng)的字串集合中的“射英雄傳”可以匹配到的糾錯(cuò)候選詞是“射雕英雄傳”;利用查詢?cè)~以及字串集合中的其他詞均匹配不到結(jié)果。如此就通過(guò)簡(jiǎn)單的策略覆蓋了對(duì)劇名和人名的典型錯(cuò)誤模式。策略的簡(jiǎn)單保證了在線算法運(yùn)行時(shí)的效率。

步驟s14:從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

利用查詢?cè)~以及其對(duì)應(yīng)的字串集合匹配到糾錯(cuò)候選詞可能是一個(gè),也可能是多個(gè)。利用預(yù)先設(shè)定的規(guī)則對(duì)得到的每個(gè)糾錯(cuò)候選詞進(jìn)行分析,判斷各個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性。并從合理性大于查詢?cè)~的糾錯(cuò)候選詞中選出搜索次數(shù)最高的糾錯(cuò)候選詞,即最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果,進(jìn)行視頻搜索。需要說(shuō)明的是,若得到的每個(gè)糾錯(cuò)候選詞的合理性均不大于用戶輸入的查詢?cè)~的合理性,則說(shuō)明用戶輸入的查詢?cè)~不需要糾錯(cuò),將以用戶輸入的查詢?cè)~進(jìn)行視頻搜索。

本實(shí)施例提供的視頻搜索中的一種查詢?cè)~糾錯(cuò)方法,先對(duì)查詢?cè)~進(jìn)行刪字處理,得到字后的字串集合;利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;通過(guò)這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。增字情況如用戶輸入“塊快樂(lè)大本營(yíng)”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“快樂(lè)大本營(yíng)”本身是正確的,可被糾錯(cuò);減字情況如“快大本營(yíng)”其本身是“快樂(lè)大本營(yíng)”的減字錯(cuò)誤,可被糾錯(cuò);錯(cuò)字情況如上述“射貂英雄傳”例子;亂序情況如用戶輸入“樂(lè)塊大本營(yíng)”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“樂(lè)大本營(yíng)”是“快樂(lè)大本營(yíng)”的減字錯(cuò)誤,可以糾錯(cuò)。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性

本實(shí)施例提供一種從糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為查詢?cè)~的糾錯(cuò)結(jié)果的方法,參見(jiàn)圖2,該方法可以包括:

步驟s21:利用預(yù)先建立的語(yǔ)言模型,對(duì)匹配得到的糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>

語(yǔ)言模型可以通過(guò)計(jì)算在上文條件下當(dāng)前詞的概率判斷文本的合理性。設(shè)查詢?cè)~中的第i個(gè)詞為wi,整句話的似然有:

具體的使用trigram模型估計(jì)語(yǔ)言模型概率,則查詢?cè)~中第i個(gè)詞的概率為:

優(yōu)選的,本實(shí)施例選擇語(yǔ)言模型相關(guān)的三個(gè)指標(biāo)作為下一步分類的特征:對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)似然在每個(gè)字上的平均值、以及對(duì)數(shù)似然在長(zhǎng)度為3的窗口上的最小值。其中,對(duì)數(shù)似然在每個(gè)詞上的平均值為整句的似然除以整句詞數(shù);對(duì)數(shù)似然在每個(gè)字上的平均值為整句的似然除以整句字?jǐn)?shù);對(duì)數(shù)似然在長(zhǎng)度為三的窗口上的最小值為將每三個(gè)連續(xù)的詞作為一個(gè)對(duì)象,分別求其語(yǔ)言模型似然,選出最小值。

需要說(shuō)明的是,對(duì)數(shù)似然在每個(gè)詞上的平均值,所說(shuō)的每個(gè)詞具體是指特征提取對(duì)象包含的每個(gè)詞,詞的性質(zhì)具體的包括動(dòng)詞、名詞和形容詞。特征提取對(duì)象為查詢?cè)~或糾錯(cuò)候選詞。同理,對(duì)數(shù)似然在每個(gè)字上的平均值,所說(shuō)的每個(gè)字具體是指特征提取對(duì)象包含的每個(gè)字,特征提取對(duì)象同樣為查詢?cè)~或糾錯(cuò)候選詞。

語(yǔ)言模型的構(gòu)建是在所有長(zhǎng)視頻標(biāo)題和隨機(jī)抽取的600萬(wàn)短視頻標(biāo)題上構(gòu)建,通過(guò)統(tǒng)計(jì)所有三元詞組、二元詞組和詞在語(yǔ)料中出現(xiàn)的次數(shù)完成。

步驟s22:利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;

優(yōu)選的,分類模型可以是一些弱分類器的融合,一方面具有更好的可解釋性,另一方面也可以增加人工干預(yù)。判斷某個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性時(shí),使用adaboost分類器對(duì)步驟s14提取出的該糾錯(cuò)候選詞的特征和查詢?cè)~的特征進(jìn)行分析,分析該糾錯(cuò)候選詞比用戶輸入的查詢?cè)~好的程度,并進(jìn)行計(jì)分,若得到的計(jì)分大于預(yù)設(shè)的計(jì)分閾值,則確定該糾錯(cuò)候選詞的合理性大于用戶輸入的查詢?cè)~的合理性。

步驟s23:從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

如果合理性大于所述查詢?cè)~的糾錯(cuò)候選詞只有一個(gè),則將該糾錯(cuò)候選詞極為最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果;如果合理性大于所述查詢?cè)~的糾錯(cuò)候選詞有多個(gè),則選擇搜索次數(shù)最高的作為糾錯(cuò)結(jié)果。如果匹配得到的所有糾錯(cuò)候選詞的合理性均不大于查詢?cè)~的合理性,則還使用用戶輸入的查詢?cè)~進(jìn)行后續(xù)視頻搜索。

針對(duì)匹配得到每個(gè)糾錯(cuò)候選詞,利用預(yù)先建立的分類模型結(jié)合對(duì)其以及查詢?cè)~提取到的特征,判斷其是否正確,進(jìn)而選出最優(yōu)糾錯(cuò)候選詞作為糾錯(cuò)結(jié)果。實(shí)現(xiàn)了對(duì)糾錯(cuò)結(jié)果的合理性判斷。

本實(shí)施例還提供一種糾錯(cuò)候選詞詞典的生成方法,參見(jiàn)圖3,該方法可以包括:

步驟s31:接收用戶輸入的詞語(yǔ);

用戶輸入的詞語(yǔ)可以是人名、也可以是劇名。劇名或人名都必須是完全正確的。

步驟s32:將所述詞語(yǔ)作為糾錯(cuò)候選詞;

將用戶輸入的人名或劇名作為糾錯(cuò)候選詞。

步驟s33:對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系;

預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)劇名或人名的每個(gè)字分別刪除得到字串集合,也可以對(duì)劇名或人名的多個(gè)字分別刪除得到字串集合,還可以對(duì)劇名或人名的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。對(duì)詞語(yǔ)的刪字處理與對(duì)查詢?cè)~的刪字處理一致。

對(duì)劇名“射雕英雄傳”的每個(gè)字分別刪除得到字串集合為:刪除查詢?cè)~的第一個(gè)字得到“雕英雄傳”;刪除劇名的第二個(gè)字得到“射英雄傳”;刪除劇名的第三個(gè)字得到“射雕雄傳”;刪除劇名的第四個(gè)字得到“射雕英傳”;刪除劇名的第五個(gè)字得到“射雕英雄”;對(duì)劇名“射雕英雄傳”的每個(gè)字分別刪除得到字串集合為:“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”和“射雕英雄”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄}。可以根據(jù)詞語(yǔ)射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳或射雕英雄,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。

對(duì)“射雕英雄傳”的兩個(gè)字分別刪除得到字串集合可以為:刪除劇名的第一個(gè)字和第二個(gè)字得到“英雄傳”;刪除劇名的第二個(gè)字和第三個(gè)字得到“射雄傳”;刪除劇名的第三個(gè)字和第四個(gè)字得到“射雕傳”;刪除劇名的第四個(gè)和第五個(gè)字得到“射雕英”;對(duì)射雕英雄傳”的兩個(gè)字分別刪除得到字串集合為“英雄傳”、“射雄傳”、“射雕傳”和“射雕英”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、英雄傳、射雄傳、射雕傳、射雕英}??梢愿鶕?jù)詞語(yǔ)射雕英雄傳、英雄傳、射雄傳、射雕傳或射雕英,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。

對(duì)“射雕英雄傳”的每個(gè)字分別刪除以及兩個(gè)字分別刪除得到的字串集合可以為:“雕英雄傳”、“射英雄傳”、“射雕雄傳”、“射雕英傳”、“射雕英雄”、“英雄傳”、“射雄傳”、“射雕傳”和“射雕英”。建立的對(duì)應(yīng)關(guān)系為{射雕英雄傳:射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄、英雄傳、射雄傳、射雕傳、射雕英}??梢愿鶕?jù)詞語(yǔ)射雕英雄傳、雕英雄傳、射英雄傳、射雕雄傳、射雕英傳、射雕英雄、英雄傳、射雄傳、射雕傳或射雕英,匹配得到糾錯(cuò)候選詞“射雕英雄傳”。

本實(shí)施例上述過(guò)程介紹了針對(duì)某個(gè)詞語(yǔ)建立對(duì)應(yīng)關(guān)系的過(guò)程。容易理解的是,糾錯(cuò)候選詞詞典的生成過(guò)程包含對(duì)大量詞語(yǔ)建立對(duì)應(yīng)關(guān)系的過(guò)程,針對(duì)每個(gè)詞語(yǔ)建立對(duì)應(yīng)關(guān)系的過(guò)程一致。對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。

下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例。

實(shí)施例二

本實(shí)施例提供一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,請(qǐng)參見(jiàn)圖4,該裝置包括:

接收單元11,用于接收用戶輸入的查詢?cè)~;

處理單元12,用于對(duì)所述查詢?cè)~進(jìn)行刪字處理,得到字串集合;

預(yù)先設(shè)定刪字處理的規(guī)則,刪字處理可以是對(duì)查詢?cè)~的每個(gè)字分別刪除得到字串集合,也可以對(duì)查詢?cè)~的多個(gè)字分別刪除得到字串集合,還可以對(duì)查詢?cè)~的每個(gè)字分別刪除以及多個(gè)字分別刪除得到字串集合。

匹配單元13,用于利用所述字串集合中的每個(gè)詞以及所述查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配得到糾錯(cuò)候選詞;

糾錯(cuò)候選詞詞典包括正確的劇名和人名,以及與劇名對(duì)應(yīng)的字串集合,與人名對(duì)應(yīng)的字串集合。與劇名對(duì)應(yīng)的字串集合為對(duì)劇名進(jìn)行刪字處理后得到,具體方法與對(duì)查詢?cè)~的刪字處理方法一致。與人名對(duì)應(yīng)的字串集合為對(duì)人名進(jìn)行刪字處理后得到,具體方法也與對(duì)查詢?cè)~的刪字處理方法一致。不再贅述。正確的劇名和人名作為糾錯(cuò)候選詞,利用對(duì)用戶輸入的查詢?cè)~進(jìn)行刪字處理得到的字串集合以及用戶輸入的查詢?cè)~,在糾錯(cuò)候選詞詞典匯總匹配得到糾錯(cuò)候選詞。

分析單元14,用于從所述糾錯(cuò)候選詞中選出最優(yōu)糾錯(cuò)候選詞作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

利用查詢?cè)~以及其對(duì)應(yīng)的字串集合匹配到糾錯(cuò)候選詞可能是一個(gè),也可能是多個(gè)。利用預(yù)先設(shè)定的規(guī)則對(duì)得到的每個(gè)糾錯(cuò)候選詞進(jìn)行分析,判斷各個(gè)糾錯(cuò)候選詞的合理性是否大于用戶輸入的查詢?cè)~的合理性。并從合理性大于查詢?cè)~的糾錯(cuò)候選詞中選出搜索次數(shù)最高的糾錯(cuò)候選詞,即最優(yōu)糾錯(cuò)候選詞,作為查詢?cè)~的糾錯(cuò)結(jié)果,進(jìn)行視頻搜索。

本實(shí)施例提供的視頻搜索中的查詢?cè)~糾錯(cuò)裝置,處理單元12對(duì)查詢?cè)~進(jìn)行刪字處理,得到刪字后的字串集合;匹配單元13利用字串集合中的每個(gè)詞以及查詢?cè)~,在預(yù)先得到的糾錯(cuò)候選詞詞典中匹配糾錯(cuò)候選詞;通過(guò)這樣簡(jiǎn)單的策略覆蓋率了典型錯(cuò)誤模式,如增字、減字、錯(cuò)字和亂序等。增字情況如用戶輸入“塊快樂(lè)大本營(yíng)”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“快樂(lè)大本營(yíng)”本身是正確的,可被糾錯(cuò);減字情況如“快大本營(yíng)”其本身是“快樂(lè)大本營(yíng)”的減字錯(cuò)誤,可被糾錯(cuò);錯(cuò)字情況如上述“射貂英雄傳”例子;亂序情況如用戶輸入“樂(lè)塊大本營(yíng)”,對(duì)該查詢?cè)~進(jìn)行刪字處理得到的字串集合中的“樂(lè)大本營(yíng)”是“快樂(lè)大本營(yíng)”的減字錯(cuò)誤,可以糾錯(cuò)。提高了查詢?cè)~的在線糾錯(cuò)的準(zhǔn)確性。

參見(jiàn)圖5,所述分析單元14具體包括:

特征提取子單元141,用于利用預(yù)先建立的語(yǔ)言模型,對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~進(jìn)行特征提?。?/p>

判斷子單元142,用于利用預(yù)先建立的分類模型,針對(duì)匹配得到的每個(gè)所述糾錯(cuò)候選詞,根據(jù)對(duì)所述糾錯(cuò)候選詞以及所述查詢?cè)~提取得到的特征,判斷所述糾錯(cuò)候選詞的合理性是否大于所述查詢?cè)~的合理性;

選擇子單元143,用于從合理性大于所述查詢?cè)~的糾錯(cuò)候選詞中選擇搜索次數(shù)最高的糾錯(cuò)候選詞確定為最優(yōu)糾錯(cuò)候選詞,作為所述查詢?cè)~的糾錯(cuò)結(jié)果。

優(yōu)選的,提取的所述特征包括:

對(duì)數(shù)似然在每個(gè)詞上的平均值、對(duì)數(shù)自然在每個(gè)字上的平均值和/或?qū)?shù)似然在長(zhǎng)度為三的窗口上的最小值。

優(yōu)選的,所述處理單元12,具體用于:對(duì)所述查詢?cè)~的每個(gè)字分別刪除得到字串集合。

實(shí)施例三

本實(shí)施例提供另一種視頻搜索中的查詢?cè)~糾錯(cuò)裝置,請(qǐng)參見(jiàn)圖6,該裝置相對(duì)圖4公開(kāi)的裝置還包括:

詞典生成單元15,用于接收用戶輸入的詞語(yǔ),將所述詞語(yǔ)作為糾錯(cuò)候選詞,對(duì)所述詞語(yǔ)進(jìn)行刪字處理,得到刪字后的字串集合,并建立所述詞語(yǔ)與所述詞語(yǔ)、對(duì)所述詞語(yǔ)刪字處理后的字串集合之間的對(duì)應(yīng)關(guān)系。

對(duì)于裝置實(shí)施例而言,由于其基本相應(yīng)于方法實(shí)施例,所以相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。

在本文中,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

本說(shuō)明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見(jiàn)即可。

對(duì)本發(fā)明所公開(kāi)的實(shí)施例的上述說(shuō)明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來(lái)說(shuō)將是顯而易見(jiàn)的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開(kāi)的原理和新穎特點(diǎn)相一致的最寬的范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1