日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

音樂相似性處理方法

文檔序號:6483831閱讀:603來源:國知局
專利名稱:音樂相似性處理方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種音樂相似性處理方法,特別是涉及判定兩首音樂是否相似而出現(xiàn) 版權(quán)侵權(quán)的處理方法。
背景技術(shù)
多媒體播放器,如MP3、 MP4、移動終端、電腦等已相當(dāng)普及,這些設(shè)備通常都具 有較大的信息存儲容量,存儲了很多條多媒體信息。要從這些多媒體信息中選擇所需的 多媒體信息進行播放的方法主要是先將多媒體信息按一定規(guī)則進行分類,然后以選擇菜 單的方式由操作者通過操作界面進行選擇。當(dāng)多媒體信息內(nèi)容很多時,將會使操作界面 的菜單層次很多,以至于選擇到所需的多媒體信息也是比較困難的。而且通常操作界面 所顯示的菜單選項通常只顯示多媒體信息的標(biāo)題,當(dāng)多媒體信息內(nèi)容很多時,人們往往 看到標(biāo)題有時也不能知道是否是所需內(nèi)容,往往選中后試聽或試看后發(fā)現(xiàn)不是所需,再 重新選擇的情況。
在互聯(lián)網(wǎng)絡(luò)發(fā)展的今天,網(wǎng)絡(luò)中的多媒體內(nèi)容更是十分龐大,從中搜索所需內(nèi)容 并不容易,特別是當(dāng)人們記不清多媒體內(nèi)容的標(biāo)題時搜索更是難以獲得。
近年來,語音識別技術(shù)和基于聲音控制操作電子設(shè)備的研究也比較多,在一些移 動終端設(shè)備上也一些商用,如通過聲音選擇進行電話撥打操作等。美國專利文件 No. 4, 277, 644和No. 6, 101, 467覆蓋了語音識別軟件的各個方面。而且用于表征音頻內(nèi) 容的方法也有描述。特別是美國專利No. 6, 054,646和No. 6, 173, 250覆蓋了用于通過節(jié) 拍、能量、音高等特征來表征音樂的方法。
盡管有針對語音識別、音頻信號分析和音樂特征的表征方法的進步和近年來的發(fā) 展,以及在一些電子設(shè)備上實現(xiàn)語音控制,但其應(yīng)用在很多情況下并不能滿足人們的需 求。例如,經(jīng)常出現(xiàn)的一種情況是,人們使用多媒體播放器選擇自己喜歡的多媒體內(nèi)容 時出現(xiàn)一些困難,當(dāng)時也許能夠哼出該多媒體信息中樂曲的某個片斷或某一句或者僅僅 能夠哼出樂曲旋律的一小節(jié)的近似內(nèi)容,但就是想不起來多媒體內(nèi)容的標(biāo)題,因而無法 有效地找到所需的媒體內(nèi)容。

公開日為2005年7月13日,公開號為CN1639975A的中國發(fā)明專利申請公開內(nèi)容中提到了通過提取信號源的語音特征后用語音特征去選擇所需信號源的內(nèi)容。特別是 該公開文件中公開的看門狗功能(WatchDog):用戶可以向音頻記錄器-播放器中音頻分 析器唱或哼出一個樣式(pattern),然后音頻記錄器-播放器可以針對那個特定的音調(diào)來 監(jiān)視不同的頻道,而且用戶可以通過聲音識別軟件將所說的詞輸入給音頻記錄器-播放 器,然后音頻記錄器-播放器可針對包含這些詞的一些或全部的對話和獨白而監(jiān)視不同 頻道。采用高級匹配算法,即當(dāng)短語在預(yù)定的秒數(shù)中出現(xiàn)兩次或三次時宣布匹配的算法。 當(dāng)出現(xiàn)匹配時,可以產(chǎn)生一個控制事件,控制頻道的切換。
但上述描述的技術(shù)應(yīng)用到具有較大容量的多媒體播放器時有其缺陷。因為使用多 媒體播放器并非都是專業(yè)人員,所唱出或哼出的片斷或一句內(nèi)容或者樂曲旋律的內(nèi)容 時,往往并不是標(biāo)準(zhǔn)的內(nèi)容,如樂曲旋律的節(jié)拍并不一樣、或者樂曲旋律的音調(diào)并不一 樣,但其所哼出或唱出的內(nèi)容與所希望選擇的內(nèi)容又有一定的相似性。比如一首樂曲是 C調(diào)的,錄制的多媒體信息也是基于C調(diào)的,但人們哼出或唱出的內(nèi)容可以用F調(diào)或C 升調(diào)或C降調(diào),但樂曲的韻律卻基本相似,人們可以判斷出是同一首樂曲;或者一首樂 曲是2/4節(jié)拍,但哼出或唱出的內(nèi)容卻可能是4/4節(jié)拍,但樂曲的韻律卻基本相似,人 們可以判斷出是同一首樂曲。在這種情況下,現(xiàn)有技術(shù)是沒有很好解決的。
另一方面,對于媒體播放器,還存在的情況是,人們希望某條媒體信息從某個點 開始播放,現(xiàn)有技術(shù)通常是采用快進按鈕或快退按鈕,但這種操作方式,只能憑操作者 進行預(yù)估前進或后退位置,通常不準(zhǔn)確,需要多次按快進按鈕或快退按鈕才能完成?,F(xiàn) 有的數(shù)字媒體記錄方式雖然提供了目錄式菜單選擇方式以選定某條媒體的播放,但仍然 不能解決按人們的期望快速控制媒體播放起點的問題。
另外,音樂的版權(quán)問題,也越來越受到關(guān)注,特別是音樂的抄襲問題時有報道, 而且一些抄襲者為了躲避相應(yīng)的法律規(guī)定的漏洞,將樂曲的音調(diào)或節(jié)拍稍作調(diào)整,使其 與原曲從形式上不同,但實體內(nèi)容仍然相似,這種相似性如何被認為是抄襲,現(xiàn)有技術(shù) 也沒有提出相應(yīng)的方法。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是如何更有效地從媒體存儲體或從互聯(lián)網(wǎng)絡(luò)中選擇所 需的多媒體信息并有效地隨意控制媒體播放的起點。本發(fā)明采用語音特征提取、分段提 取、相似度計算、相似性判定的方法來實現(xiàn)聲音控制電子設(shè)備或網(wǎng)絡(luò)操作實現(xiàn)自動獲取所需多媒體信息。同時本發(fā)明的技術(shù)還可以用于或者實現(xiàn)樂曲抄襲或相似性的自動判定。
術(shù)語說明本文中所指的語音特征是與輸入語音的韻律相關(guān)的特征信息,而韻律 是以每個可識別的音節(jié)為基礎(chǔ),也就是說, 一段多媒體包含很多音節(jié),而提取語音特征 時是以每個音節(jié)為基礎(chǔ)獲得的特征,每個音節(jié)的特征按順序組合在一起即構(gòu)成了這段多 媒體信息的整個韻律或旋律,因此所提取特征組合可以截取其中任意一段,作為本發(fā)明 中進行特征比對的基礎(chǔ)。當(dāng)一段語音輸入包含多個旋律時,可以僅提取主旋律特征或者 提取所有旋律的特征。在本文中語音特征和特征信息是相同含義。
術(shù)語說明本發(fā)明所指的媒體信息與多媒體信息具有相同的含義,都是指包含有 聲音信息的語音信息、音樂信息、視頻信息、數(shù)據(jù)信息或這些信息的任意組合。
術(shù)語說明本發(fā)明所指相似度是指兩個信息之間采用相關(guān)性算法得出的表示信息 相關(guān)性的數(shù)據(jù),所述相關(guān)性算法包含線性相關(guān)性計算方法或非線性相關(guān)性計算方法。線 性相關(guān)性計算方法和非線性相關(guān)性計算方法在現(xiàn)有的數(shù)學(xué)領(lǐng)域和實驗物理學(xué)中已經(jīng)給 出了很多種數(shù)學(xué)模型和計算方法,作為與本發(fā)明相關(guān)聯(lián)的現(xiàn)有技術(shù)進行引用。 為解決上述問題,提出的技術(shù)解決方案是
1、 一種多媒體播放裝置第一種方案,包括存儲了至少一條多媒體信息的信息存儲體和 多媒體信號輸出部件,其特征是還包括
聲音輸入部件,既可以是通過聲音傳感器輸入聲音,也可以是是一段預(yù)先制作的聲
音文件輸入信息;
特征提取部件,從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息; 媒體信息特征存儲部件,存儲了對應(yīng)于所述每條多媒體信息的第二特征信息; 特征相似性計算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;
多媒體信息選擇部件,從所述信息存儲體中選擇相似度最大值的信息段所在的那條 多媒體信息傳送到所述多媒體信號輸出部件。
2、 一種多媒體播放裝置第二種方案,包括存儲了至少一條多媒體信息的信息存儲體和 多媒體信號輸出部件,其特征是還包括聲音輸入部件,既可以是通過聲音傳感器輸入聲音,也可以是是一段預(yù)先制作的聲 音文件輸入信息;
特征提取部件,從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息;
媒體信息特征計算部件,計算對應(yīng)于所述每條多媒體信息的第二特征信息;
特征相似性計算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;
多媒體信息選擇部件,從所述信息存儲體中選擇相似度最大值的信息段所在的那條 多媒體信息傳送到所述多媒體信號輸出部件。
3、對于第一特征信息和第二特征信息的提取方法,以大家熟悉的歌曲為例,可提取這 首歌曲的主旋律特征信息,如用簡譜或五線譜表示,簡譜中包含了節(jié)拍速度和音調(diào) 的信息??梢园阎餍商卣餍畔⒆鳛楸景l(fā)明的第二特征信息;而不同的人唱出或哼 出這首歌曲時,其節(jié)拍速度和/或音調(diào)可能與這首歌曲本身確定的節(jié)拍速度、音調(diào)不 同,也可能與所錄制成多媒體信息的信息段中第二特征信息的節(jié)拍速度、音調(diào)不同, 但如果都是針對同一首歌曲演唱,他們的主旋律是存在很大的相似性的。因此對于 第二特征信息進行節(jié)拍調(diào)整和/或音調(diào)調(diào)整后,再與第一特征信息進行相似性計算。 所述旋律也可以用五線譜或其他旋律表示。在音樂的多媒體信息處理中,其中一種 音樂媒體格式是樂譜文件,這種文件以表示音符、樂器以及清晰度信息的數(shù)據(jù)形式 存儲聲音,最流行的數(shù)據(jù)格式是MIDI數(shù)據(jù)格式。MIDI文件包含如何再現(xiàn)聲音的規(guī) 范,可被認為是電可讀格式的一張樂譜,它包含有關(guān)在重放各MIDI文件中存儲的 數(shù)據(jù)所表示的樂譜時要考慮的聲道、所用的裝置以及升學(xué)參數(shù)的信息。集合術(shù)語"聲 學(xué)參數(shù)"表示定義例如音高、音符或其余值分別為響應(yīng)等級、音速、音色或特殊效 果如顫音或混響的描述。因此所述MIDI文件包含了本發(fā)明所需要的第二特征信息, 可以針對每一條或每一首多媒體信息所對應(yīng)的MIDI文件作為本發(fā)明的第二特征信 息,相應(yīng)的,第一特征信息的提取也采用相同方法,提取出輸入語音的MIDI文件 作為第一特征信息?;蛘邔τ诿恳粭l或每一首多媒體信息所對應(yīng)的MIDI文件再進 行數(shù)據(jù)提取去除樂器、響應(yīng)等級、音色顫音、混響等特征之一或幾個后作為本發(fā)明 的第二特征信息,相應(yīng)的,第一特征信息的提取也采用相同方法,提取出輸入語音
7的MIDI文件去除音速、樂器、響應(yīng)等級、音色顫音、混響等特征之一或幾個后作 為第一特征信息。
在美國專利No. 6, 054, 646中給出了通過從聲音信號中提取特征信號的方法,包括倒 頻譜系數(shù)法(MFCC: Mel Frequency C印stral Coefficients )、線性預(yù)溯編碼法(LPC: Linear Predictive Coding)。同時也給出了將MFCC特征轉(zhuǎn)化為MIDI文件的參數(shù)映射 描述。本發(fā)明在這里全文引用美國專利No.6,054,646的內(nèi)容。另外在現(xiàn)有的互聯(lián)網(wǎng)絡(luò) 中可以很容易找到將采集的聲音波形文件(WAVE)轉(zhuǎn)換為MIDI文件的軟件,還有將MIDI 文件轉(zhuǎn)換為簡譜的軟件以及將MIDI文件轉(zhuǎn)換為五線譜的軟件。因此本發(fā)明在這些現(xiàn)有 知識的基礎(chǔ)之上實現(xiàn)本發(fā)明的內(nèi)容以判定輸入的聲音信息與存儲的多媒體信息之間的 關(guān)聯(lián)性。 一種實現(xiàn)方案可以描述如下
對于輸入的聲音信號提取MFCC系數(shù),然后用MFCC系數(shù)生成MIDI文件,再將MIDI 文件轉(zhuǎn)換為簡譜文件,以簡譜文件作為第一特征信息;對于存儲的多媒體信息采用相同 的方法提取MFCC系數(shù),然后用MFCC系數(shù)生成MIDI文件,再將MIDI文件轉(zhuǎn)換為簡譜文 件,以簡譜文件作為第二特征信息;然后計算第一特征信息與第二特征信息的相似度, 根據(jù)相似度計算結(jié)果就可以實現(xiàn)本發(fā)明所需要達到的功能。在不同應(yīng)用要求中,對于第 一特征信息與第二特征信息還可以進行進一步的變換,如第二特征信息還包含所述多媒 體信息對應(yīng)的簡譜文件進一步生成的基于各種大調(diào)的簡譜文件的組合,即假如原多媒體 信息的簡譜文件是C大調(diào)的,可以進一步生成D大調(diào)、E大調(diào)、G大調(diào)等的簡譜文件作 為第二特征信息的部分;再如第二特征信息還包含所述多媒體信息對應(yīng)的簡譜文件進一 步生成的基于各種節(jié)拍的簡譜文件的組合,即假如原多媒體信息的簡譜文件是2/4拍 的,可以進一步生成4/4拍、6/8拍等的簡譜文件作為第二特征信息的部分;再如將簡 譜文件每個音調(diào)都用一個數(shù)字表示,將相鄰的相同音調(diào)合并為一個音調(diào),然后再進行相 似度計算,可以排除輸入的聲音因音調(diào)不準(zhǔn)或節(jié)拍不同造成相似度的差異。
—種可選實現(xiàn)方案中,第一特征信息與第二特征信息可以就是MFCC系數(shù)或LPC系數(shù), 直接對于MFCC系數(shù)或LPC系數(shù)進行相似度計算;還可以就是MIDI文件,直接對于MIDI 文件進行相似度計算。
4、所述第一特征信息包含聲音音調(diào)信息和/或音調(diào)變化信息;所述第二特征信息包含多 媒體信息中包含的聲音音調(diào)信息和/或音調(diào)變化信息。5、 或者所述第一特征信息包含聲音音高信息和/或音高變化信息;所述第二特征信息包 含多媒體信息中包含的聲音音高信息和/或音高變化信息。
6、 一種多媒體信息處理方法第一種方案,從至少一條多媒體信息和每條多媒體信息對 應(yīng)的第二特征信息的信息存儲體中選擇所需的多媒體信息,其特征是包括如下步驟.-第一步通過聲音輸入部件輸入聲音信號或信息;
第二步從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息;
第三步計算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第四步從所述相似度數(shù)據(jù)中選取相似度最大值;
第五步從所述信息存儲體中選擇相似度最大值的信息段所屬的第二特征信息; 第六步從信息存儲體中根據(jù)所屬的第二特征信息檢索到所對應(yīng)的那條多媒體信息。
7、 該方法還包括將所對應(yīng)的那條多媒體信息輸出的步驟。
8、 該方法,還包括向信息存儲體中輸入多媒體信息的步驟,通過有線或無線方式從其 他介質(zhì)中將多媒體信息輸入到信息存儲體中或者通過網(wǎng)絡(luò)連接把多媒體信息下載到 信息存儲體中。
9、 進一步的是該方法,還包括對所述輸入的多媒體信息計算對應(yīng)的第二特征信息的步 驟并存儲在所述信息存儲體中。
10、 或者該方法還包括直接向信息存儲體中輸入多媒體信息和對應(yīng)的第二特征信息 的步驟。
11、 所述第二特征信息中的任意一段信息的長度與所述第一特征信息的長度相同, 或者所述第二特征信息中的任意一段信息通過節(jié)拍調(diào)整后和/或音調(diào)調(diào)整后與所述 第一特征信息的長度相同。
12、 所述第二特征信息與所述第一特征信息是音樂的韻律或旋律信息。
13、 或者所述第二特征信息與所述第一特征信息是去除了音拍長度的韻律或旋律信息。
14、 所述第三步的計算方法是線性相關(guān)性計算方法。 一種實現(xiàn)是基于簡譜的第一特征信息和第二特征信息,由于通常簡譜可用三個八度音符和節(jié)拍完全表示。由于音 符都是1到7的數(shù)字加上高音符或低音符以及停頓音(通常用0表示)表示。當(dāng)轉(zhuǎn) 化為本發(fā)明所述特征信息可以進行如下處理。對于高音(第三個八度)用8到15 共7個數(shù)字表示,對于低音(第一個八度)用-7到-1共7個數(shù)字表示,對于中音(第 二個八度)用l-7共7個數(shù)字表示,停頓音用0表示,因此本發(fā)明所述的特征信息 在這個實現(xiàn)方案中被轉(zhuǎn)變成了數(shù)字信息,每個節(jié)拍對應(yīng)一個數(shù)字。用線性相關(guān)度計 算方法,可以很容易計算出第一特征信息和第二特征信息的相似性,即使第一特征 信息與第二特征信息的音高或音調(diào)不同,但如果存在相似,則每個節(jié)拍音高或音調(diào) 都會相應(yīng)地變化。如第二特征信息是音樂中的C調(diào),但第二特征信息可以是B調(diào), 由于每個節(jié)拍的數(shù)字都根據(jù)所確定的調(diào)而發(fā)生相應(yīng)地變化,雖然每個節(jié)拍的數(shù)字不 同,計算的相似度卻很高。線性相似度的數(shù)學(xué)計算方法屬于公知算法,這里就不再 贅述。有時也會出現(xiàn)輸入語音的第一特征信息所表示的節(jié)拍與多媒體信息的第二特 征信息的節(jié)拍不同,如第二特征信息是2/4節(jié)拍,而第一特征信息是4/4節(jié)拍,但其 表示的主旋律卻可能是相似的,因此計算相似度之前需要對于第一特征信息和/或第 二特征信息的節(jié)拍進行調(diào)整。調(diào)整方法之一是將一個節(jié)拍的數(shù)據(jù)以相同的數(shù)據(jù)擴展 一個節(jié)拍,如某個節(jié)拍的數(shù)據(jù)為5可以調(diào)整為兩個節(jié)拍,每個節(jié)拍都是5;調(diào)整方 法之二是將數(shù)據(jù)相同的兩個相連節(jié)拍縮減為一個節(jié)拍,如某兩個相連節(jié)拍的數(shù)據(jù)都 為5可以調(diào)整為一個節(jié)拍,節(jié)拍數(shù)據(jù)是5。
15、 一種多媒體信息處理方法的第二種方案,從至少存儲了一條多媒體信息的信息 存儲體中選擇所需的多媒體信息,其特征是包括如下步驟 第一步通過聲音輸入部件輸入聲音信號或信息;
第二步從所述聲音輸入部件輸入的聲音信號中提取第一特征信息; 第三步計算每條多媒體信息對應(yīng)的第二特征信息;
第四步計算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;
第六步根據(jù)相似度最大值的信息段所屬的第二特征信息檢索到所對應(yīng)的那條多媒 體信息。第二種方案與第一種方案的差別在于每條多媒體信息的第二特征信息是預(yù)先存儲 在存儲體中,還是應(yīng)用需要時才計算出來。
16、 一種多媒體信息播放器操作方法的第一種方案,從至少一條多媒體信息和每條 多媒體信息對應(yīng)的第二特征信息的信息存儲體中選擇所需的多媒體信息進行播放, 其特征是包括如下步驟
第一步通過聲音輸入部件輸入聲音信號或信息;
第二步從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息; 第三步計算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第四步從所述相似度數(shù)據(jù)中選取相似度最大值;
第五步從所述信息存儲體中選擇相似度最大值的信息段所屬的第二特征信息;
第六步從信息存儲體中根據(jù)所屬的第二特征信息檢索到所對應(yīng)的那條多媒體信息 進行播放輸出。
每條多媒體信息對應(yīng)的第二特征信息可以采用MIDI文件,或者抽出MIDI文件的 部分要素。
17、 一種多媒體信息播放器操作方法第二種方案,從至少存儲了一條多媒體信息的
信息存儲體中選擇所需的多媒體信息,其特征是包括如下步驟 第一步通過聲音輸入部件輸入聲音信號或信息;
第二步從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息; 第三步計算每條多媒體信息對應(yīng)的第二特征信息;
第四步計算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;
第六步根據(jù)相似度最大值的信息段所屬的第二特征信息檢索到所對應(yīng)的那條多媒 體信息進行播放輸出。
本發(fā)明所述技術(shù)還可以用于判斷兩首音樂的相似性,在判斷音樂是否抄襲中具有較 大的用處。18、 一種進行音樂相似性判斷方法,對于第一音樂與第二音樂進行相似性判斷,其 特征是包括如下步驟-
第一步輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信 息后從所述第一音樂的多媒體信息中提取第一特征信息;
第二步將所述第一特征信息分解成以任意一起點開始的一定長度的多個信息段;
第三步輸入第二音樂的多媒體信息的第二特征信息或者輸入第二音樂的多媒體信 息后從所述第二音樂的多媒體信息中提取第二特征信息;
第四步計算所述多個信息段的任意一段與所述第二特征信息中的任意一段信息的 相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;
第六步判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述 第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
上述一定長度的多個信息段中,對于一定長度的規(guī)定可以與相關(guān)的法律文件的定義 進行關(guān)聯(lián),如規(guī)定連續(xù)7個節(jié)拍的相似被認定為抄襲的話,可以將所述一定長度設(shè)定為 7個節(jié)拍的長度。
上述設(shè)定的閥值的含義是根據(jù)對于相關(guān)法律的執(zhí)行嚴(yán)格程度來確定的。對于嚴(yán)格的 相似才算抄襲,則設(shè)定的閥值就很高,接近l;當(dāng)執(zhí)行嚴(yán)格程度降低時設(shè)定的閥值就可 適當(dāng)降低,如為0.8或0.9。
19、 一種對于互聯(lián)網(wǎng)中的音樂進行音樂相似性判斷方法,其特征是包括如下步驟
第一步輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信 息后從所述第一音樂的多媒體信息中提取第一特征信息;
第二步將所述第一特征信息分解成以任意一起點開始的一定長度的多個信息段;
第三歩從互聯(lián)網(wǎng)絡(luò)中下載第二音樂的多媒體信息的第二特征信息或者從互聯(lián)網(wǎng)絡(luò) 中下載第二音樂的多媒體信息后從所述第二音樂的多媒體信息中提取第二特征信息;
第四步計算所述多個信息段的任意一段與所述第二特征信息中的任意一段信息的 相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;第六步判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述 第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
上述一定長度的多個信息段中,對于一定長度的規(guī)定可以與相關(guān)的法律文件的定義 進行關(guān)聯(lián),如規(guī)定連續(xù)7個節(jié)拍的相^l被認定為抄襲的話,可以將所述一定長度設(shè)定為 7個節(jié)拍的長度。
上述設(shè)定的閥值的含義是根據(jù)對于相關(guān)法律的執(zhí)行嚴(yán)格程度來確定的。對于嚴(yán)格的 相似才算抄襲,則設(shè)定的閥值就很高,接近l;當(dāng)執(zhí)行嚴(yán)格程度降低時設(shè)定的閥值就可 適當(dāng)降低,如為0.8或0.9。
采用本發(fā)明的技術(shù)還可以用于互聯(lián)網(wǎng)絡(luò)中進行媒體信息搜索,提供一種更加有效的 一種搜索系統(tǒng)和搜索方法。
20、 一種網(wǎng)絡(luò)搜索系統(tǒng)的第一種方案,包括遠端服務(wù)器部件和近端部件,所述遠端 服務(wù)器部件和近端部件通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)連接,其特征是 所述近端部件包含 聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息; 信息發(fā)送部件,將第一特征信息通過網(wǎng)絡(luò)傳遞到所述遠端服務(wù)器部件; 信息接收第一部件,接收所述遠端服務(wù)器部件發(fā)送過來的多媒體信息; 所述遠端服務(wù)器部件包含
信息接收第二部件,接收從所述近端部件發(fā)送過來的第一特征信息;
媒體信息存儲部件,存儲了至少一條多媒體信息、計算并存儲或預(yù)先存儲了對應(yīng)于 所述每條多媒體信息的第二特征信息、每條多媒體信息與其第二特征信息對應(yīng)關(guān)系;;
特征相似性計算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值或相似度超過設(shè)定閥 值的多個相似度數(shù)據(jù);
多媒體信息選擇部件,從所述媒體信息存儲體中選擇所述相似度最大值或相似度超 過設(shè)定閥值的多個相似度數(shù)據(jù)的信息段所在的第二特征信息對應(yīng)的一條或多條多媒體信息傳送到所述近端部件。
21、 采用第一種方案的網(wǎng)絡(luò)搜索系統(tǒng)實現(xiàn)多媒體信息搜索方法,其特征是包含如下
操作步驟
步驟l:在所述近端部件輸入聲音信號或信息;
步驟2:所述近端部件提取所述聲音信號或信息的第一特征信息;
步驟3:將所述第一特征信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送到遠端服務(wù)器部件
步驟4:所述遠端服務(wù)器部件計算所述第一特征信息與遠端服務(wù)器部件中存儲的每
條媒體信息的第二特征信息的相似度;
步驟5:所述遠端服務(wù)器部件根據(jù)所述相似度的最大值或相似度超過設(shè)定閥值的多
個相似度數(shù)據(jù)相應(yīng)的第二特征信息從所述遠端服務(wù)器部件中檢索到所對應(yīng)的多媒體信
息作為選中的多媒體信息;
步驟6:所述遠端服務(wù)器部件將所選中的多媒體信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送
到近端部件。
22、 一種網(wǎng)絡(luò)搜索系統(tǒng)的第二種方案,包括遠端服務(wù)器部件和近端部件,所述遠端 服務(wù)器部件和近端部件通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)連接,其特征是 所述近端部件包含
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號或信息中提取第一特征信息; 下載部件,從所述遠端服務(wù)器部件下載每條多媒體信息的第二特征信息; 近端存儲部件,存儲來自下載部件的每條多媒體信息的第二特征信息 特征相似性計算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值或相似度超過設(shè)定閥 值的多個相似度數(shù)據(jù);
選擇部件,從所述存儲部件中取出相似度最大值或相似度超過設(shè)定閥值的多個相似 度數(shù)據(jù)所對應(yīng)的第二特征信息;
信息發(fā)送部件,將選擇部件所選擇的第二特征信息通過網(wǎng)絡(luò)傳遞到所述遠端服務(wù)器部件;
信息接收第一部件,接收所述遠端服務(wù)器部件發(fā)送過來的多媒體信息; 所述遠端服務(wù)器部件包含
信息接收第二部件,接收從所述近端部件發(fā)送過來的第二特征信息;
媒體信息存儲部件,存儲了至少一條多媒體信息、計算并存儲或預(yù)先存儲了對應(yīng)于 所述每條多媒體信息的第二特征信息、每條多媒體信息與其第二特征信息對應(yīng)關(guān)系;;
多媒體信息選擇部件,從所述媒體信息存儲體中選擇與所述信息接收部件中接收到 的第二特征信息所對應(yīng)的一條或多條多媒體信息傳送到所述近端部件。
23、 采用第二種方案的網(wǎng)絡(luò)搜索系統(tǒng)實現(xiàn)多媒體信息搜索方法,其特征是包含如下 操作步驟
步驟1:所述近端部件通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)從所述遠端服務(wù)器部件下載每條多 媒體信息的第二特征信息
步驟2:在所述近端部件輸入聲音信號或信息;
步驟3:所述近端部件提取所述聲音信號或信息的第一特征信息;
步驟4:所述近端部件計算所述第一特征信息與所述每條媒體信息的第二特征信息 的相似度;
歩驟5:將所述相似度的最大值或相似度超過設(shè)定閥值的多個相似度數(shù)據(jù)所對應(yīng)的 第二特征信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送到遠端服務(wù)器部件;
步驟6:所述遠端服務(wù)器部件根據(jù)所收到的第二特征信息從所述遠端服務(wù)器部件中 檢索到所對應(yīng)的多媒體信息作為選中的多媒體信息;
步驟7:所述遠端服務(wù)器部件將所選中的多媒體信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送 到近端部件。
24、 一種網(wǎng)絡(luò)搜索系統(tǒng)的第三種方案,包括遠端服務(wù)器部件和近端部件,所述遠端 服務(wù)器部件和近端部件通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)連接,其特征是-
所述近端部件包含 聲音輸入部件;
信息發(fā)送部件,將來自所述聲音輸入部件的聲音信號或信息通過網(wǎng)絡(luò)傳遞到所述遠端服務(wù)器部件;
信息接收第一部件,接收所述遠端服務(wù)器部件發(fā)送過來的多媒體信息; 所述遠端服務(wù)器部件包含
信息接收第二部件,接收從所述近端部件發(fā)送過來的聲音信號或信息; 特征提取部件,從所述信息接收第二部件接收到的聲音信號或信息中提取第一特征 信息;
媒體信息存儲部件,存儲了至少一條多媒體信息、對應(yīng)于所述每條多媒體信息的第 二特征信息、每條多媒體信息與其第二特征信息對應(yīng)關(guān)系;
特征相似性計算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值或相似度超過設(shè)定閥 值的多個相似度數(shù)據(jù);
多媒體信息選擇部件,從所述媒體信息存儲體中選擇所述相似度最大值或相似度超 過設(shè)定閥值的多個相^l度數(shù)據(jù)的信息段所在的第二特征信息對應(yīng)的一條或多條多媒體 信息傳送到所述近端部件。
25、 采用第三種方案的網(wǎng)絡(luò)搜索系統(tǒng)實現(xiàn)多媒體信息搜索方法,其特征是包含如下 操作歩驟
歩驟l:在所述近端部件輸入聲音信號或信息;
歩驟2:將所述聲音信號或信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送到遠端服務(wù)器部件; 歩驟3:所述遠端服務(wù)器部件提取所收到聲音信號或信息的第一特征信息; 步驟4:所述遠端服務(wù)器部件計算所述第一特征信息與遠端服務(wù)器部件中存儲的每 條媒體信息的第二特征信息的相似度;
步驟5:所述遠端服務(wù)器部件根據(jù)所述相似度的最大值或相似度超過設(shè)定閥值的多 個相似度數(shù)據(jù)相應(yīng)的第二特征信息從所述遠端服務(wù)器部件中檢索到所對應(yīng)的多媒體信
息作為選中的多媒體信息;
步驟6:所述遠端服務(wù)器部件將所選中的多媒體信息通過互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)發(fā)送
到近端部件。26、 所述多媒體信息是下列信息之一或其組合文字、圖片、聲音、樂曲、電影、 電視。
本發(fā)明的技術(shù)還可以用于根據(jù)聲音輸入自動翻頁的裝置,如演奏家的樂譜翻頁等。
27、 一種自動翻頁裝置,包括存儲了至少一條多媒體信息的媒體信息存儲體和顯示 部件,其特征是還包括
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號中提取第一特征信息;
媒體信息特征存儲部件,計算并存儲或預(yù)先存儲了對應(yīng)于所述每條多媒體信息的第 二特征信息;
特征相似性計算部件,用于判斷所述第一特征信息與所述顯示部件所顯示的多媒體 信息的部分所對應(yīng)第二特征信息相似度最大的信息段所對應(yīng)的多媒體信息的當(dāng)前位置;
翻頁判斷部件,當(dāng)所述多媒體信息的當(dāng)前位置是所述顯示部件所顯示的多媒體信息 的部分的結(jié)尾則所述顯示部件顯示所述多媒體信息的下一頁內(nèi)容;
28、 一種唱歌輔助學(xué)習(xí)系統(tǒng)的一種方案,包括存儲了至少一條多媒體信息的存儲體, 其特征是還包括
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號中提取第一特征信息;
媒體信息選擇部件,選擇準(zhǔn)備學(xué)習(xí)的某條多媒體信息;
媒體信息特征提取部件,提取所選定多媒體信息的第二特征信息;
特征相似性計算部件,用于計算并判斷所述第一特征信息與所選定多媒體信息對應(yīng) 第二特征信息相似度;
信息提示部件,根據(jù)信息相似度給出輸入的聲音與多媒體信息的差異。
29、 一種唱歌輔助學(xué)習(xí)系統(tǒng)的第二種方案,包括存儲了至少一條多媒體信息和與每 條多媒體信息對應(yīng)的第二特征信息的存儲體,其特征是還包括
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號中提取第一特征信息; 媒體信息選擇部件,選擇準(zhǔn)備學(xué)習(xí)的某條多媒體信息;特征相似性計算部件,用于計算并判斷所述第一特征信息與所選定的多媒體信息對 應(yīng)第二特征信息相似度;
信息提示部件,根據(jù)信息相似度給出輸入的聲音與多媒體信息的差異。
本發(fā)明的有益效果采用本發(fā)明的技術(shù)可以實現(xiàn)更有效地從媒體存儲體或從互聯(lián) 網(wǎng)絡(luò)中選擇所需的多媒體信息,通過輸入媒體相關(guān)的部分語音特征信息,如哼唱某首歌 曲的片斷即可檢索到這首歌曲的完整信息;同時本發(fā)明的技術(shù)還可以更有效地區(qū)分一首 樂曲是否有抄襲其他樂曲。本發(fā)明采用語音特征提取、分段提取、相似度計算、相似性 判定的方法來實現(xiàn)聲音控制電子設(shè)備或網(wǎng)絡(luò)操作實現(xiàn)自動獲取所需多媒體信息,或者實 現(xiàn)樂曲抄襲或相似性的自動判定,并還可以實現(xiàn)樂曲自動翻頁功能、唱歌輔助學(xué)習(xí)功能。 本發(fā)明實現(xiàn)媒體播放器可以實現(xiàn)通過語音輸入從媒體播放器中選擇與輸入語音具有很 大相似度的媒體信息,完全改變了現(xiàn)有媒體播放器的操作方式,具有更準(zhǔn)確的媒體信息 定位特征,而且大多數(shù)情況不用手的操作,直接通過說或唱就可進行媒體信息的選擇并 可以控制媒體的播放起點,大大降低了用戶的操作難度,即使對于盲人或不懂播放器操 作的用戶都可以實現(xiàn)媒體播放器的操作。本發(fā)明實現(xiàn)媒體搜索系統(tǒng)可以實現(xiàn)通過語音輸 入從互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇與輸入語音具有很大相似度的媒 體信息,完全改變了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜索方式,具有更準(zhǔn)確的媒體信息 定位特征,而且大多數(shù)情況不用手的操作,直接通過說或唱就可進行媒體信息的搜索, 大大簡化了用戶的操作難度,即使對于盲人或不懂電腦操作的用戶都可以實現(xiàn)媒體信息 的搜索。


圖1是本發(fā)明第一種實現(xiàn)多媒體信息檢索的系統(tǒng)工作原理示意圖。 圖2是本發(fā)明第二種實現(xiàn)多媒體信息檢索的系統(tǒng)工作原理示意圖。 圖3是本發(fā)明中第一特征信息與第二特征信息進行相似度計算的第一種算法工作
原理示意圖。
圖4是本發(fā)明中第一特征信息與第二特征信息進行相似度計算的第二種算法工作 原理示意圖。
圖5是本發(fā)明中第一特征信息與第二特征信息進行相似度計算的第三種算法工作
18原理示意圖。
圖6是本發(fā)明通過聲音輸入選取多媒體信息的工作流程示意圖。 圖7是本發(fā)明通過聲音從互聯(lián)網(wǎng)絡(luò)中選取多媒體信息的第一種系統(tǒng)實現(xiàn)示意圖。 圖8是本發(fā)明通過聲音從互聯(lián)網(wǎng)絡(luò)中選取多媒體信息的第二種系統(tǒng)實現(xiàn)示意圖。 圖9是本發(fā)明實現(xiàn)樂譜自動翻頁系統(tǒng)原理示意圖。 圖IO是本發(fā)明實現(xiàn)唱歌輔助學(xué)習(xí)系統(tǒng)原理示意圖。 圖11是本發(fā)明實現(xiàn)媒體播放器原理示意圖。 圖12是本發(fā)明判斷兩首音樂相似性的流程示意圖。
具體實施例方式
本發(fā)明的核心點在于,對輸入的聲音信息進行處理,提取第一特征信息,然后采 用特定算法與多媒體信息中的第二特征信息進行相似度計算。選出相似度最大的那條多 媒體信息作為所輸入的聲音所希望選定的多媒體信息。當(dāng)多媒體信息與聲音輸入及其處 理部件集中在一個嵌入式系統(tǒng)中,可以設(shè)計出基于本發(fā)明的媒體播放器、掌上電腦、移 動終端、筆記本電腦等便攜式設(shè)備。當(dāng)多媒體信息存儲在服務(wù)器中,而聲音輸入在客戶 端中,聲音信息處理部件既可以集成到服務(wù)器中又可以集成到客戶端中,服務(wù)器與客戶 端通過局域網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò)進行連接,可以設(shè)計出基于本發(fā)明的媒體搜索系統(tǒng)、音樂侵 權(quán)判定系統(tǒng)、歌唱學(xué)習(xí)系統(tǒng)、樂譜自動翻頁裝置。
下面結(jié)合附圖進一步描述本發(fā)明的具體實施方案。
圖1是基于本發(fā)明實現(xiàn)聲音輸入選擇的媒體播放系統(tǒng)第一種實現(xiàn)方案。該方案中,
特征相似度計算部件105的包含兩個輸入 一個是來自第一特征信息提取部件103,它 通過處理來自語音輸入部件101的語音信息,從中提取特征信息;另一個是來自第二特 征信息中的任意一段信息截取部件104,它通過從媒體信息特征存儲部件102取出媒體 信息的特征,然后截取任意一段特征信息。特征相似度計算部件105將計算出的多個相 似度數(shù)據(jù)輸出給特征相似度判斷部件106,由該部件進行篩選比較,從中選取相似度最 大的那段特征信息所屬的第二特征信息作為多媒體信息選擇部件108從信息存儲體107 中選擇所需多媒體信息。媒體信息特征存儲部件102所存儲的第二特征信息與信息存儲 體107存儲的媒體信息是一一對應(yīng)的,即媒體信息特征存儲部件102的一條第二特征信 息與信息存儲體107中的一條媒體信息是一一對應(yīng)的。這種對應(yīng)關(guān)系也存儲在媒體信息特征存儲部件102中或信息存儲體107中。具體實現(xiàn)中,媒體信息特征存儲部件102 和信息存儲體107可以合并成由一個存儲部件,其中第二特征信息與媒體信息的對應(yīng)可 以采用數(shù)據(jù)表格存儲形式,也可以采用數(shù)據(jù)庫的存儲形式。典型的語音輸入部件101 具體實現(xiàn)比如是由麥克風(fēng)、麥克風(fēng)信號處理電路及語音信號數(shù)字化采集電路構(gòu)成。第一 特征信息提取部件103從所輸入的語音中提取的特征比如是語音中的韻律信息、音高信 息等,并進一步可以轉(zhuǎn)化為樂譜信息,作為特征。作為媒體播放系統(tǒng)的實現(xiàn),具體設(shè)計 中,其中第一特征信息提取部件103、第二特征信息中的任意一段信息截取部件104、 特征相似度計算部件105、特征相似度判斷部件106和多媒體信息選擇部件108都由媒 體播放器的處理器通過軟件實現(xiàn)。其實現(xiàn)的效果是,當(dāng)人們希望媒體播放器播放某條媒 體信息時,可以對著語音輸入部件101的由麥克風(fēng)哼唱該媒體信息所包含的音樂信息的 片斷,利用本發(fā)明的方法媒體播放器就可以自動選擇出與所哼唱片斷最近似的媒體信息
進行播放,因而省卻了因忘記媒體信息名稱或因媒體信息太多而進行多級菜單操作的煩 惱。即使媒體播放器的使用者所哼唱的樂曲片斷并不太準(zhǔn)確,只有基本的韻律相似即可, 因而具有很大的實用性、適應(yīng)性、可操作性。本發(fā)明實現(xiàn)媒體播放器可以實現(xiàn)通過語音 輸入從媒體播放器中選擇與輸入語音具有很大相似度的媒體信息,完全改變了現(xiàn)有媒體 播放器的操作方式,具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情況不用手的操作, 直接通過說或唱就可進行媒體信息的選擇,大大簡化了用戶的操作難度,即使對于盲人 或不懂播放器操作的用戶都可以實現(xiàn)媒體播放器的操作。
圖2是基于本發(fā)明實現(xiàn)聲音輸入選擇的媒體播放系統(tǒng)第二種實現(xiàn)方案。該方案與 圖1所示方案的不同之處在于,第二特征信息并不是預(yù)先存儲在存儲體中,而是由媒體 信息特征計算部件202通過讀取信息存儲體107中的媒體信息來計算出第二特征信息。 這種實現(xiàn)方案相比于第一種方案的好處在于,可以利用人們對于語音特征的進一步研究 成果通過隨時更新媒體信息特征計算部件202的算法來提高所提取特征的效率或調(diào)整 所提取的特征內(nèi)容。
圖3是基于本發(fā)明的第一特征信息與第二特征信息進行相似度計算的第一種方法 原理示意圖。在該圖中,假定第一特征信息的長度為4字節(jié),特征內(nèi)容302每個字節(jié)位 置分別標(biāo)記為a、 b、 c、 d,第一特征信息301的長度為16字節(jié),每個字節(jié)的位置標(biāo)記 為1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16。截取第二特征信息的 方法是以任一字節(jié)為起點截取相同長度的字節(jié)數(shù),省去字節(jié)長度不夠的截取值。這樣得到13個截取段,每個截取段的字節(jié)位置分別為1、 2、 3、 4; 2、 3、 4、 5; 3、 4、 5、 6; 4、 5、 6、 7; 5、 6、 7、 8; 6、 7、 8、 9; 7、 8、 9、 10; 8、 9、 10、 11; 9、 10、 11、 12; 10、 11、 12、 13; 11、 12、 13、 14; 12、 13、 14、 15; 13、 14、 15、 16 每個截取段分 別與第一特征信息進行相似度計算得到計算結(jié)果303,計算結(jié)果303包含13個數(shù)值, 表示為R1、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 RU、 R12、 R13。對于n條 多媒體信息,假定每條多媒體信息的第二特征信息長度相同,都為16字節(jié),則按上述 相似度計算共有13 * n個值,從13 * n個值中再選取最大值,根據(jù)該最大值所對應(yīng)的 第二特征信息段,就可以得知該第二特征信息,然后根據(jù)媒體信息與第二特征信息的對 應(yīng)關(guān)系檢索到相應(yīng)的那條媒體信息。
由于每個人哼唱相同的曲調(diào),或說出相同內(nèi)容的話,哼唱或說話的速度不一定相 同,因此所哼唱或說出內(nèi)容的韻律特征可能比媒^^信息的韻律特征的相同片斷的長度不 同,如某個音節(jié)再媒4^信息中是單個l/4拍,而哼唱或說出該音節(jié)的韻律特征可能是兩 個l/4拍;或者某個音節(jié)再媒體信息中是兩個l/4拍,而哼唱或說出該音節(jié)的韻律特征 可能是單個1/4拍。因此為了提高相4以度計算的兼容性和可靠性,在進行相似度計算中, 包含對于第一特征信息和/或第二特征信息的相鄰的相同特征字節(jié)合并為一個特征字節(jié) 的情況。圖4是基于本發(fā)明的第一特征信息與第二特征信息進行相4以度計算的第二種方 法原理示意圖。該圖中,除了按圖3的方式,在對第一特征信息402和第二特征信息 401都不做合并處理,計算相似度結(jié)果403,計算結(jié)果403包含13個數(shù)值,表示為R1、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13。圖中第二特征信息401 有兩處相鄰特征相同,即特征2和特征6,我們將相鄰相同特征合并為一個特征,此時, 第二特征信息變成第二特征信息的合并信息404,然后第一特征信息402與合并信息404 按相同的相似度計算方法得到結(jié)果405,計算結(jié)果405包含10個數(shù)值,表示為R14、 R15、 R16、 R17、 R18、 R19、 R20、 R21、 R22、 R23。對于n條多媒體信息,做上述相 同的處理和計算,再選取最大值,根據(jù)該最大值所對應(yīng)的第二特征信息段,就可以得知 該第二特征信息,然后根據(jù)媒體信息與第二特征信息的對應(yīng)關(guān)系檢索到相應(yīng)的那條媒體信息。
圖5是基于本發(fā)明的第一特征信息與第二特征信息進行相似度計算的第三種方法 原理示意圖。與圖4相比,該圖中的第一特征信息存在需要合并處理的相鄰的相同特征。 先按原第一特征信息502與第二特征信息501做相似度計算得到結(jié)果503,計算結(jié)果503包含13個數(shù)值,表示為R1、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13,然后把第一特征信息的合并信息504與第二特征信息501做相似度計算得到結(jié)果 505,計算結(jié)果503包含13個數(shù)值,表示為R14、 R15、 R16、 R17、 R18、 R19、 R20、 R2K R22、 R23、 R24、 R25、 R26、 R27。對于n條多媒體信息,做上述相同的處理和 計算,再選取最大值,根據(jù)該最大值所對應(yīng)的第二特征信息段,就可以得知該第二特征 信息,然后根據(jù)媒體信息與第二特征信息的對應(yīng)關(guān)系檢索到相應(yīng)的那條媒體信息。
對于第一特征信息與第二特征信息都存在可以合并的特征信息時,則包含四種情 況計算,即第一特征信息與第二特征信息直接計算相似度;第一特征信息與第二特征信 息的合并信息計算相似度;第一特征信息的合并信息與第二特征信息計算相似度;第一 特征信息的合并信息與第二特征信息的合并信息計算相似度。
圖6是基于本發(fā)明采用聲音輸入選擇多媒體信息的處理流程示意圖。該圖更進一 步給出實現(xiàn)實例,以提取MFCC系數(shù)后轉(zhuǎn)換為MIDI文件后,再轉(zhuǎn)換為簡譜信息作為特 征信息。具體流程是在步驟601進行聲音信號輸入,如哼唱一段,對于輸入的聲音信 號在步驟602時提取MFCC系數(shù),在步驟603把得到的MFCC系數(shù)轉(zhuǎn)換為MIDI文件, 然后在步驟604轉(zhuǎn)換為簡譜信息,在步驟605生成第一特征信息;假定媒體存儲器中已 經(jīng)存儲了每條多媒體信息對應(yīng)的MIDI文件,如果沒有,可以先轉(zhuǎn)換出MIDI文件,進 入步驟606讀取第一條多媒體信息的MIDI文件,在步驟607轉(zhuǎn)換為簡譜信息,在步驟 608生成第二特征信息,然后在步驟609計算第一特征信息與第二特征信息的相似度; 在步驟610判斷是否最后一條多媒體信息?如果不是則進入步驟614讀取下一條多媒體 信息的MIDI文件,繼續(xù)步驟607、步驟608、步驟609、步驟610的處理,如果是則進 入步驟611判定相似度最大值所對應(yīng)MIDI文件,在步驟讀612取與相似度最大值所對 應(yīng)MIDI文件相關(guān)聯(lián)的多媒體文件,最后在步驟613輸出選定多媒體文件。
圖7是基于本發(fā)明實現(xiàn)媒體搜索系統(tǒng)的第一種原理示意圖。媒體搜索系統(tǒng)包含服 務(wù)器端700和客戶端710,客戶端710通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704連接服務(wù)器端700。 其中服務(wù)器端700包含媒體信息數(shù)據(jù)庫701、媒體訪問處理部件702、網(wǎng)絡(luò)接口 703; 客戶端710包含信息展示部件706、語音輸入部件707、語音信號處理部件708、網(wǎng)絡(luò) 接口 705。用戶通過語音輸入部件707輸入語音,如哼唱樂曲的片斷,或拷貝預(yù)先制作 的語音文件,由語音信號處理部件708進行處理,包括語音信號的數(shù)字化、語音第一特 征信息的提取,然后將提取的第一特征信息通過網(wǎng)絡(luò)接口 705發(fā)送到互連網(wǎng)絡(luò)或局域網(wǎng)
22絡(luò)704中,由服務(wù)器端700的網(wǎng)絡(luò)接口 703接收到第一特征信息送到媒體訪問處理部件 702。媒體訪問處理部件702從媒體信息數(shù)據(jù)庫701取出每條媒體信息的第二特征信息, 然后與收到的第一特征信息采用相似度計算方法計算出每條第二特征信息的每個片斷 與第一特征信息的相似度,選取相似度最大值所對應(yīng)的第二特征信息,然后根據(jù)每條媒 體信息與第二特征信息的對應(yīng)關(guān)系從媒體信息數(shù)據(jù)庫701取出與相似度最大值所對應(yīng) 的第二特征信息相關(guān)聯(lián)的媒體信息,并將所選取的媒體信息通過網(wǎng)絡(luò)接口 703發(fā)送到互 連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由客戶端710的網(wǎng)絡(luò)接口 705該媒體信息并送到語音信號處 理部件708,由語音信號處理部件708將該媒^^信息送到信息展示部件706進行展示。 如媒體信息是單純音樂信息,展示部件706可以是聲音信號輸出放大器和嘲叭或耳機。 如媒體信息是包含音樂信息的視頻,展示部件706可以是包含顯示屏和聲音信號輸出放 大器和喇叭或耳機的組合部件。如收到媒體信息包含多條可供選擇的媒體信息,則可以 將信息按條目方式顯示在展示部件706的顯示屏上供用戶選擇。本發(fā)明實現(xiàn)媒體搜索系
統(tǒng)可以實現(xiàn)通過語音輸入從互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇與輸入語 音具有很大相似度的媒體信息,完全改變了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜索方式,
具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情況不用手的操作,直接通過說或唱就可 進行媒體信息的搜索,大大簡化了用戶的操作難度,即使對于盲人或不懂電腦操作的用 戶都可以實現(xiàn)媒體信息的搜索。
圖8是基于本發(fā)明實現(xiàn)媒體搜索系統(tǒng)的第二種原理示意圖。媒體搜索系統(tǒng)包含服 務(wù)器端800和客戶端810,客戶端810通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704連接服務(wù)器端800。 其中服務(wù)器端800包含媒體信息數(shù)據(jù)庫701、媒體訪問處理部件802、網(wǎng)絡(luò)接口 703; 客戶端810包含信息展示部件706、語音輸入部件707、語音信號處理部件808、網(wǎng)絡(luò) 接口 705和本地媒體第二特征信息存儲部件809。在進行語音搜索之前,客戶端810需 要先通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704從服務(wù)器端800下載每條媒體信息所對應(yīng)的第二特征 信息,然后存儲到第二特征信息存儲部件809中。用戶通過語音輸入部件707輸入語音, 如哼唱樂曲的片斷,或拷貝預(yù)先制作的語音文件,由語音信號處理部件808進行處理, 包括語音信號的數(shù)字化、語音第一特征信息的提取,然后語音信號處理部件808從第二 特征信息存儲部件809讀取每條媒體信息的第二特征信息,然后與提取的第一特征信息 采用相似度計算方法計算出每條第二特征信息的每個片斷與第一特征信息的相似度,選 取相似度最大值所對應(yīng)的第二特征信息,將選取的第二特征信息通過網(wǎng)絡(luò)接口 705發(fā)送到互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由服務(wù)器端800的網(wǎng)絡(luò)接口 703接收到第二特征信息送 到媒體訪問處理部件802。媒體訪問處理部件抑2根據(jù)每條媒體信息與第二特征信息的 對應(yīng)關(guān)系從媒體信息數(shù)據(jù)庫701取出與所收到第二特征信息相關(guān)聯(lián)的媒體信息,并將所 選取的媒體信息通過網(wǎng)絡(luò)接口 703發(fā)送到互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由客戶端810 的網(wǎng)絡(luò)接口 705該媒體信息并送到語音信號處理部件抑8,由語音信號處理部件808將 該媒體信息送到信息展示部件706進行展示。如媒體信息是單純音樂信息,展示部件 706可以是聲音信號輸出放大器和糊叭或耳機。如媒體信息是包含音樂信息的視頻,展 示部件706可以是包含顯示屏和聲音信號輸出放大器和喇叭或耳機的組合部件。如收到 媒體信息包含多條可供選擇的媒體信息,則可以將信息按條目方式顯示在展示部件706 的顯示屏上供用戶選擇。本發(fā)明實現(xiàn)媒體搜索系統(tǒng)可以實現(xiàn)通過語音輸入從互聯(lián)網(wǎng)絡(luò)或 局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇與輸入語音具有很大相似度的媒體信息,完全改變 了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜索方式,具有更準(zhǔn)確的媒體信息定位特征,而且大 多數(shù)情況不用手的操作,直接通過說或唱就可進行媒體信息的搜索,大大簡化了用戶的 操作難度,即使對于盲人或不懂電腦操作的用戶都可以實現(xiàn)媒體信息的搜索。
圖9是本發(fā)明實現(xiàn)樂譜自動翻頁系統(tǒng)原理示意圖。樂譜自動翻頁系統(tǒng)包含樂譜顯 示部件901、處理部件902和語音輸入部件903。其中處理部件902包含存儲樂譜信息 的存儲體、處理器和儲存程序軟件的存儲體。語音輸入部件903包含收集語音的麥克風(fēng) 和語音數(shù)字化采集和存儲電路。樂譜顯示部件901是電子顯示部件,如液晶顯示器、有 機發(fā)光管顯示部件、電子紙顯示部件等。在演奏樂曲時,樂譜顯示部件901在處理部件 902的控制下顯示相應(yīng)樂曲的樂譜的第一頁內(nèi)容,在演奏過程中,語音輸入部件903不 斷采集輸入所演奏的聲音,由處理部件902提取出聲音的韻律作為第一特征信息并與預(yù) 先存儲的所演奏樂曲的第二特征信息的片斷作相似度計算,根據(jù)相似度最大值可以判斷 已經(jīng)演奏到樂譜的位置,從而處理部件902 —旦分析到顯示在顯示部件901的樂譜內(nèi)容 已經(jīng)演奏完畢則自動將樂譜的下一頁內(nèi)容顯示在顯示部件901上,避免演奏者手動進行 樂譜翻頁造成演奏的短暫中斷。通常演奏家演奏的樂曲與樂譜的快慢是十分接近的,因 此進行相似度計算時可以不需要進行合并處理相鄰的相同特征。
圖10是本發(fā)明實現(xiàn)唱歌輔助學(xué)習(xí)系統(tǒng)原理示意圖。唱歌輔助學(xué)習(xí)系統(tǒng)包含顯示部 件IOOI、處理部件1002和語音輸入部件1003。其中處理部件1002包含存儲樂曲信息 的存儲體、處理器和儲存程序軟件的存儲體。語音輸入部件1003包含收集語音的麥克風(fēng)和語音數(shù)字化采集和存儲電路。樂譜顯示部件1001是電子顯示部件,如液晶顯示器、 有機發(fā)光管顯示部件、電子紙顯示部件等。在唱歌或演奏樂曲時,顯示部件1001在處 理部件1002的控制下顯示相應(yīng)樂曲的樂譜,在唱歌或演奏過程中,語音輸入部件903 不斷采集輸入所演奏的聲音,由處理部件902提取出聲音的韻律作為第一特征信息,一 首樂曲結(jié)束后,將所提取的第一特征信息與預(yù)先存儲的所演奏樂曲的第二特征信息按音 節(jié)作相似度計算,根據(jù)相似度計算結(jié)果給出在唱歌或演奏樂曲時每個音節(jié)與標(biāo)準(zhǔn)樂曲的 音節(jié)的差異,從而處理部件902將這種差異顯示在顯示部件901上,唱歌或演奏樂者根 據(jù)所顯示音節(jié)的差異來發(fā)現(xiàn)錯誤,并調(diào)整自己的演奏達到學(xué)習(xí)輔助的貝的。
圖11是本發(fā)明實現(xiàn)媒體播放器原理示意圖。媒體播放器1100包含處理器主機 1101、控制操作按鈕1102、耳機1103和麥克風(fēng)1104。處理器主機1101通過連接導(dǎo)線 1105與控制操作按鈕1102、耳機1103和麥克風(fēng)1104連接,這種連接的信號是雙向的, 即控制操作按鈕U02的按鍵信號和麥克風(fēng)1104輸入的聲音信號可以傳送到處理器主機 1101,處理器主機1101的輸出信號可以輸出到耳機1103。在其他實現(xiàn)中,處理器主機 1101通過無線信號與控制操作按鈕1102、耳機1103和麥克風(fēng)1104進行無線連接,如 采用藍牙技術(shù)(BlueTooth)或WiFi技術(shù)實現(xiàn)無線連接,無論有線連接或無線連接方式, 都是現(xiàn)有成熟技術(shù)。處理器主機1101包含存儲媒體信息及其第二特征信息的存儲體 1105和信息處理部件1106??刂撇僮靼粹o1102上包含第一按鍵1107和第二按鍵1108。 由于人們使用媒體播放器時,當(dāng)播放某首媒體時會跟著媒體的音樂哼唱,而本發(fā)明的播 放器在選擇媒體和控制媒體的播放起點時也是采用操作者哼唱媒體片斷進行的,為了使 媒體播放器區(qū)分使用者是跟隨正在播放的媒體進行哼唱還是哼唱片斷來控制媒體播放 器重新選擇媒體或播放起點,采用控制操作按鈕1102上的第一按鍵1107和第二按鍵 1108實現(xiàn)。當(dāng)操作者按下第一按鍵1107時表示是通過哼唱片斷來選擇媒體,當(dāng)操作者 按下第二按鍵1108時表示是通過哼唱片斷來選擇媒體的播放起點,當(dāng)?shù)谝话存I1107 和第二按鍵1108都沒有按下時,是跟隨正在播放的媒體進行哼唱??刂撇僮靼粹o1102 的按鍵信號送入到處理器主機1101,由處理主機進行判斷處理。如操作者按下第一按 鍵1107,信息處理部件1106通過處理來自麥克風(fēng)1104的語音信息,從中提取特征信 息;從存儲體1105取出媒體信息的特征,然后截取任意一段特征信息計算出的多個相 似度數(shù)據(jù)進行篩選比較,從中選取相似度最大的那段特征信息所屬的第二特征信息作為 選擇所需多媒體信息的依據(jù),然后根據(jù)第二特征信息與媒體信息對應(yīng)關(guān)系選取媒體信息進行播放。如操作者按下第二按鍵1108,信息處理部件1106通過處理來自麥克風(fēng)1104 的語音信息,從中提取特征信息;從存儲體1105取出媒體信息的特征,然后截取任意 一段特征信息計算出的多個相似度數(shù)據(jù)進行篩選比較,從中選取相似度最大的那段特征 信息所屬的第二特征信息作為選擇所需多媒體信息的依據(jù),然后根據(jù)第二特征信息與媒 體信息對應(yīng)關(guān)系選取媒體信息并從與第二特征信息片斷相似度最大的位置點開始播放。 這樣就實現(xiàn)了媒體播放器的媒體選擇與媒體播放起點的自動定位。
圖12是本發(fā)明判斷兩首音樂相似性的流程示意圖,該圖更進一步給出實現(xiàn)實例, 以提取MFCC系數(shù)后轉(zhuǎn)換為MIDI文件后,再轉(zhuǎn)換為簡譜信息作為特征信息。具體流程 是在步驟1201輸入第一音樂,對于第一音樂在步驟1202提取MFCC系數(shù),在步驟 1203把得到的MFCC系數(shù)轉(zhuǎn)換為MIDI文件,然后在步驟1204轉(zhuǎn)換為簡譜信息,在步 驟1205生成第一特征信息;對于第二音樂采取相同的處理:在步驟1206輸入第二音樂, 對于第二音樂在步驟1207提取MFCC系數(shù),在步驟1208把得到的MFCC系數(shù)轉(zhuǎn)換為 MIDI文件,然后在步驟1209轉(zhuǎn)換為簡譜信息,在步驟1210生成第一特征信息。然后 在步驟1211計算第一特征信息與第二特征信息的相似度;在步驟1212從所述相似度數(shù) 據(jù)中選取相似度最大值并在步驟12B判斷相似度最大值是否超過閥值?如果超過閥值 則進入步驟1214得出結(jié)論第一音樂與所述第二音樂相似性高;如果沒有超過閥值則 進入步驟1215得出結(jié)論第一音樂與所述第二音樂相似性低。
權(quán)利要求
1、一種音樂相似性處理方法,對于第一音樂與第二音樂進行相似性判斷,其特征是包括如下步驟第一步輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信息后從所述第一音樂的多媒體信息中提取第一特征信息;第二步將所述第一特征信息分解成以任意一起點開始的一定長度的多個信息段;第三步輸入第二音樂的多媒體信息的第二特征信息或者輸入第二音樂的多媒體信息后從所述第二音樂的多媒體信息中提取第二特征信息;第四步計算所述多個信息段的任意一段與所述第二特征信息中的任意一段信息的相似度數(shù)據(jù);第五步從所述相似度數(shù)據(jù)中選取相似度最大值;第六步判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
2、 根據(jù)權(quán)利要求1所述的方法,其特征是所述第二特征信息與所述第一特征信息是如 下信息之一或組合MIDI數(shù)據(jù)、簡譜、五線譜、倒頻譜系數(shù)法(MFCC)、線性預(yù)測編碼法(LPC)數(shù)據(jù);所述第二特征信息是如下信息之一或組合MIDI數(shù)據(jù)、簡譜、五線譜、倒頻譜系數(shù)法(MFCC)、線性預(yù)測編碼法(LPC)數(shù)據(jù)。
3、 根據(jù)權(quán)利要求1所述的方法,其特征是在所述第四步之前還包含將所述第二特征信 息與所述第一特征信息轉(zhuǎn)化為簡譜數(shù)據(jù)的步驟。
4、 根據(jù)權(quán)利要求3所述的方法,其特征是在所述第四步之前還包含將簡譜數(shù)據(jù)進進行 如下處理對于高音用8到15共7個數(shù)字表示,對于低音用-7到-1共7個數(shù)字表 示,對于中音用l-7共7個數(shù)字表示,停頓音用0表示。
5、 根據(jù)權(quán)利要求1所述的方法,其特征是所述第四步還包含將所述第二特征信息與所 述第一特征信息中合并相鄰的相同字節(jié)或音節(jié)的步驟。
6、 根據(jù)權(quán)利要求1所述的方法,其特征是所述第四步還包含對所述第二特征信息與所 述第一特征信息調(diào)整節(jié)拍和/或音調(diào)的步驟。
7、 一種音樂相似性處理方法,其特征是包括如下步驟第一步輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信息后從所述第一音樂的多媒體信息中提取第一特征信息;第二步將所述第一特征信息分解成以任意一起點開始的一定長度的多個信息段;第三步從互聯(lián)網(wǎng)絡(luò)中下載第二音樂的多媒體信息的第二特征信息或者從互聯(lián)網(wǎng)絡(luò) 中下載第二音樂的多媒體信息后從所述第二音樂的多媒體信息中提取第二特征信息;第四步計算所述多個信息段的任意一段與所述第二特征信息中的任意一段信息的 相似度數(shù)據(jù);第五步從所述相似度數(shù)據(jù)中選取相似度最大值;第六步判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述 第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
8、 根據(jù)權(quán)利要求7所述的方法,其特征是所述第二特征信息與所述第一特征信息是如 下信息之一或組合MIDI數(shù)據(jù)、簡譜、五線譜、倒頻譜系數(shù)法(MFCC)、線性預(yù)測編 碼法(LPC)數(shù)據(jù);所述第二特征信息是如下信息之一或組合MIDI數(shù)據(jù)、簡譜、五 線譜、倒頻譜系數(shù)法(MFCC)、線性預(yù)淵編碼法(LPC)數(shù)據(jù)。
9、 根據(jù)權(quán)利要求7所述的方法,其特征是在所述第四步之前還包含將所述第二特征信 息與所述第一特征信息轉(zhuǎn)化為簡譜數(shù)據(jù)的步驟。
10、 根據(jù)權(quán)利要求9所述的方法,其特征是在所述第四步之前還包含將簡譜數(shù)據(jù)進 進行如下處理對于高音用8到15共7個數(shù)字表示,對于低音用-7到-1共7個數(shù) 字表示,對于中音用1-7共7個數(shù)字表示,停頓音用0表示。
11、 根據(jù)權(quán)利要求7所述的方法,其特征是所述第四步還包含將所述第二特征信息 與所述第一特征信息中合并相鄰的相同字節(jié)或音節(jié)的步驟。
12、 根據(jù)權(quán)利要求7所述的方法,其特征是所述第四步還包含對所述第二特征信息 與所述第一特征信息調(diào)整節(jié)拍和/或音調(diào)的步驟。
全文摘要
本發(fā)明提出音樂相似性處理方法,包括如下步驟輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信息后從所述第一音樂的多媒體信息中提取第一特征信息;將所述第一特征信息分解成以任意一起點開始的一定長度的多個信息段;輸入第二音樂的多媒體信息的第二特征信息或者輸入第二音樂的多媒體信息后從所述第二音樂的多媒體信息中提取第二特征信息;計算所述多個信息段的任意一段與所述第二特征信息中的任意一段信息的相似度數(shù)據(jù);從所述相似度數(shù)據(jù)中選取相似度最大值;判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
文檔編號G06F17/30GK101552000SQ20091007848
公開日2009年10月7日 申請日期2009年2月25日 優(yōu)先權(quán)日2009年2月25日
發(fā)明者清 須 申請人:北京派瑞根科技開發(fā)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1