專利名稱:語音合成裝置、語音合成方法以及gps語音導(dǎo)航系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音合成技術(shù),特別涉及一種應(yīng)用于GPS語音導(dǎo)航系統(tǒng)的語音合成裝置以及方法。
背景技術(shù):
GPS導(dǎo)航是使用IT裝備向汽車駕駛員提供地理信息、路徑導(dǎo)航的功能,由于現(xiàn)實中,駕駛者需要關(guān)注車輛周圍的復(fù)雜交通情況,不能時時去注意電子地圖,于是語音導(dǎo)航成為了GPS導(dǎo)航系統(tǒng)的重要功能之一。
在車載導(dǎo)航領(lǐng)域,語音導(dǎo)航系統(tǒng)有錄音導(dǎo)航系統(tǒng)和語音合成的導(dǎo)航系統(tǒng)兩種。目前的錄音導(dǎo)航系統(tǒng)只能做到簡單的語音內(nèi)容提示,如″前方100米請往左拐″,若要提示″前方100米請往左拐,進(jìn)入長安街″則無能為力,這是因為千變?nèi)f化的類似路名信息,采用錄音技術(shù)是不現(xiàn)實的。隨著語音技術(shù)的發(fā)展,以語音合成、語音識別、語音編解碼為代表的智能語音技術(shù)應(yīng)用在車載領(lǐng)域,通過車內(nèi)語音信息服務(wù)和車內(nèi)語音聲控操作,改變了汽車現(xiàn)有的人機(jī)信息交流方式,使汽車更具備人性化魅力和個性化特色,提高駕車更安全性。該技術(shù)已引起國內(nèi)外汽車業(yè)界的廣泛關(guān)注,尤其在美國、歐洲、日本等汽車工業(yè)發(fā)達(dá)國家,都在不斷加大研究和產(chǎn)業(yè)化的力度。
此外,現(xiàn)有技術(shù)中一般GPS語音導(dǎo)航設(shè)備都是基于winCE平臺的,而且采用的語音合成技術(shù)均是基于字庫,合成的語音信息沒有語調(diào),與真人發(fā)音差距較大。
發(fā)明內(nèi)容本發(fā)明的主要目的是提供一種可提供復(fù)雜的語音內(nèi)容提示的GPS語音導(dǎo)航系統(tǒng)。
為實現(xiàn)上述目的,本發(fā)明提供一種語音合成裝置,用于GPS語音導(dǎo)航系統(tǒng)中,該GPS語音導(dǎo)航系統(tǒng)還包括與語音合成裝置連接的GPS導(dǎo)航裝置,該語音合成裝置包括基礎(chǔ)資料庫以及語音播放執(zhí)行模塊,其中,該基礎(chǔ)資料庫進(jìn)一步包括語音存儲單元,用以儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息,以及索引存儲單元,存儲至少包含該語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息,且該文本格式道路信息與語音格式道路信息為一一對應(yīng)關(guān)系;該語音播放執(zhí)行模塊進(jìn)一步包括分析單元,在播放一導(dǎo)航語句之前,先將導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索基本資料庫中的文本格式道路信息,再通過對文本格式道路信息的解析,獲得與之對應(yīng)的語音格式道路信息;以及播放單元,先將所有以詞段為單位的語音格式道路信息重組形成所述導(dǎo)航語句,再進(jìn)行播報。
本發(fā)明還提供一種語音合成方法,用于GPS語音導(dǎo)航系統(tǒng)中,該GPS語音導(dǎo)航系統(tǒng)包括基礎(chǔ)資料庫、語音合成裝置及GPS導(dǎo)航裝置,該語音合成方法包括下列步驟首先,儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息;由該語音格式道路信息對應(yīng)地生成至少包含所述語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息;在播放一導(dǎo)航語句之前,先將導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索基本資料庫中的文本格式道路信息;解析檢索到的文本格式道路信息,獲得與之對應(yīng)的語音格式道路信息;最后,將所述導(dǎo)航語句涉及到的以詞段為單位的語音格式道路信息重組,再進(jìn)行語音播報。
本發(fā)明還提供一種GPS語音導(dǎo)航系統(tǒng),該GPS語音導(dǎo)航系統(tǒng)采用前述的語音合成裝置合成導(dǎo)航語句,再予以播放。
由于本發(fā)明的語音合成裝置、語音合成方法以及GPS語音導(dǎo)航系統(tǒng)是以詞段為基本語音單位,該詞段可為道路名、道路口名、轉(zhuǎn)向信息、行駛速度或行駛距離等信息,因此可實現(xiàn)更復(fù)雜準(zhǔn)確的導(dǎo)航服務(wù),此外,由于本發(fā)明采用文本格式道路信息與語音格式信息結(jié)合的方式,減少了現(xiàn)有技術(shù)的導(dǎo)航服務(wù)系統(tǒng)在使用中由于系統(tǒng)內(nèi)部操作造成提高語音提示的速度延遲,進(jìn)而提高了服務(wù)質(zhì)量。
圖1顯示本發(fā)明較佳實施例的語音合成裝置的方框圖;圖2顯示本發(fā)明較佳實施例的語音合成裝置中文本格式道路信息與語音格式道路信息的對應(yīng)關(guān)系;以及圖3顯示顯示本發(fā)明的語音合成方法的工作流程圖。
實施方式為了更清楚地說明本發(fā)明的技術(shù)方案以及技術(shù)效果,以下結(jié)合
本發(fā)明的語音合成裝置、語音合成方法以及具有該語音合成裝置的GPS語音導(dǎo)航系統(tǒng)的較佳實施例。
請參閱圖1,其中顯示本發(fā)明的較佳實施例的語音合成裝置的方框圖。如圖所示,本發(fā)明的語音合成裝置10,用于GPS語音導(dǎo)航系統(tǒng)1中,該GPS語音導(dǎo)航系統(tǒng)1還包括與該語音合成裝置10連接的GPS導(dǎo)航裝置20,該語音合成裝置10包括基礎(chǔ)資料庫100以及語音播放執(zhí)行模塊110,本實施例中,該GPS語音導(dǎo)航系統(tǒng)1采用基于詞庫的文/本語音合成技術(shù)。
該基礎(chǔ)資料庫100進(jìn)一步包括,語音存儲單元1001,用以儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息,在本實施例中,該語音格式道路信息為真人發(fā)音的wav格式文件,包含了道路導(dǎo)航過程中所用到的一些路名信息、轉(zhuǎn)向、距離或者行駛速度等,所有的這些語音格式道路信息都存儲在該語音存儲單元1001的數(shù)據(jù)區(qū)data block;以及索引存儲單元1002,存儲至少包含所述語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息,在本實施例中,所述文本格式道路信息以記錄為存儲單位,每條記錄包括語音內(nèi)容的文本描述、偏移量、數(shù)據(jù)長度(以字節(jié)為單位),其中,偏移量是該段語音內(nèi)容在語音存儲單元中的位置偏移量,數(shù)據(jù)長度為語音數(shù)據(jù)長度,語音內(nèi)容的文本描述作為關(guān)鍵字用于索引,而偏移量和數(shù)據(jù)長度用于定位,且請結(jié)合圖2所示,其中顯示該文本格式道路信息與語音格式道路信息的對應(yīng)關(guān)系。更詳細(xì)地說,考慮到存儲空間的大小,本實施例中是采用22050Hz和單聲道的采樣格式對道路信息進(jìn)行采樣錄制,保存在該語音存儲單元1001的數(shù)據(jù)區(qū)data block中,每段語音數(shù)據(jù)間以4字節(jié)全零間隔開,整個語音存儲單元1001即包含文件頭和數(shù)據(jù)區(qū),其文件頭的內(nèi)容參見如下表1。
表1其中,語音數(shù)據(jù)的存儲格式為先左聲道,后右聲道(0左聲道,1右聲道);先低字節(jié),后高字節(jié)。最終錄制完成的語音存儲單元容量為200M左右。
該語音播放執(zhí)行模塊110進(jìn)一步包括,分析單元1101,在播放一導(dǎo)航語句之前,先將目標(biāo)導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索基本資料庫100中的文本格式道路信息,再通過對文本格式道路信息的解析,獲得與之對應(yīng)的語音格式道路信息,本實施例中,在需要播放目標(biāo)導(dǎo)航語句時,調(diào)用該分析單元1101解析該語音格式道路文件的文件頭信息,此外,當(dāng)需要擴(kuò)展或者更新導(dǎo)航區(qū)域時,還可以錄制新的語音格式道路信息,在錄制時,調(diào)用該分析單元1101生成新的語音格式道路文件的文件頭信息,參照表1所示的文件頭內(nèi)容可獲得所有與該語音格式道路信息相關(guān)的參數(shù);以及播放單元1102,先將所有以詞段為單位的語音格式道路信息重組形成所述導(dǎo)航語句,再進(jìn)行播報,在本實施例中,由該播放單元1102進(jìn)行實際的放音操作,它的主要工作有打開音頻設(shè)備和基礎(chǔ)資料庫100的語音存儲單元1001,解析文件頭,根據(jù)文件頭設(shè)置音頻設(shè)備的參數(shù)(包括通道數(shù)、采樣頻率、采樣精度等),并定位到語音存儲單元1001的數(shù)據(jù)區(qū),循環(huán)地讀取數(shù)據(jù)到內(nèi)存中,既而將其寫入音頻設(shè)備,讀寫完成后關(guān)閉音頻設(shè)備和基礎(chǔ)資料庫100的語音存儲單元1001;當(dāng)需要進(jìn)行錄音操作,主要工作是打開音頻設(shè)備和基礎(chǔ)資料庫100的語音存儲單元1001,讀取音頻設(shè)備的參數(shù)設(shè)置并根據(jù)這些信息生成語音存儲單元1001的文件頭,從音頻設(shè)備讀取音頻數(shù)據(jù)到內(nèi)存中,接著將其寫到語音存儲單元1001的數(shù)據(jù)區(qū)中,直到錄音結(jié)束為止,關(guān)閉音頻設(shè)備和基礎(chǔ)資料庫100的語音存儲單元1001。
請參閱圖3,其中顯示本發(fā)明的語音合成方法的工作流程圖。以下結(jié)合具體實施例進(jìn)行說明,當(dāng)在GPS語音導(dǎo)航系統(tǒng)1中在GPS導(dǎo)航過程中行駛到赤峰路與四平路的交叉路口時,需要播放的一個導(dǎo)航語句″前方左轉(zhuǎn)到達(dá)四平路″,步驟S10,將該導(dǎo)航語句劃分為單個詞段″前方″、″左轉(zhuǎn)″、″到達(dá)″以及″四平路″,即實際上傳到語音合成裝置10中的參數(shù)是拼接成該導(dǎo)航語句的各個詞段。
步驟S11,在索引存儲單元中以詞段對應(yīng)的語音格式道路信息的信息文本描述為關(guān)鍵字查找該詞段的記錄。
步驟S12,判斷最近取出的詞段是不是該導(dǎo)航語句的最后一個詞段,若不是則進(jìn)至步驟S13,否則進(jìn)至步驟S17。
步驟S13,判斷最近取出的詞段是不是該導(dǎo)航語句的起始詞段,若是則進(jìn)至步驟S14,否則直接進(jìn)至步驟S15。
步驟S14,在內(nèi)存中創(chuàng)建一個臨時語音文件,該臨時語音文件即表示當(dāng)前需要播報的導(dǎo)航語句,同時生成該文件的文件頭信息,該臨時語音文件及文件頭也可存儲在語音存儲單元,并且生成與該臨時語音文件對應(yīng)的臨時文本文件,該臨時文本文件也可存儲在索引存儲單元中。
步驟S15,根據(jù)詞段記錄的″文本描述″為關(guān)鍵詞在索引存儲單元中讀取詞段記錄。
步驟S16,根據(jù)詞段記錄的″偏移量″在語音存儲單元中讀取“數(shù)據(jù)大小”長度的語音數(shù)據(jù)到內(nèi)存中。
步驟S17,在讀取完該導(dǎo)航語句的最后一個詞段后,關(guān)閉臨時語音文件。
步驟S18,播放生成的完整導(dǎo)航語句。
在本實施例中,將上述語音合成裝置設(shè)置于視覺和語音的集成GPS導(dǎo)航系統(tǒng)1中,該GPS導(dǎo)航系統(tǒng)1中還包括由GPS導(dǎo)航裝置20,其主要通過GPS接收機(jī)接收衛(wèi)星信號,根據(jù)演算出來的經(jīng)緯度,確定當(dāng)前車輛所在位置,并以該位置為導(dǎo)航地圖的中心放大顯示到整個地圖顯示界面,實時刷導(dǎo)航地圖,顯示車輛周圍區(qū)域的環(huán)境情況。當(dāng)獲得有效的GPS數(shù)據(jù)時,啟動語音導(dǎo)航裝置給以導(dǎo)航語句的語音提示,同時在導(dǎo)航地圖上顯示文字說明,包括當(dāng)前行駛的道路名、道路信息和當(dāng)前速度。當(dāng)車輛接近道路交叉口時,系統(tǒng)語音提示轉(zhuǎn)向及下一個路口名,同時對于超速行駛,即車輛的行駛速度超出交通規(guī)則的限定,將語音提示駕駛者安全駕駛。
對于該語音合成裝置10與該GPS導(dǎo)航裝置20是通過主程序創(chuàng)建一個子進(jìn)程專用于執(zhí)行語音合成,每當(dāng)需要進(jìn)行語音導(dǎo)航提示時,主程序?qū)⑺シ诺膶?dǎo)航語句以詞段為單位傳遞給子進(jìn)程,再由子進(jìn)程完成語音播放的全過程。所述子進(jìn)程即為圖3所示流程。
本發(fā)明的GPS語音導(dǎo)航系統(tǒng)在GPS數(shù)據(jù)處理以及圖像顯示方面的硬件結(jié)構(gòu)及流程實現(xiàn)與現(xiàn)有技術(shù)基本相同,在此不詳細(xì)描述。
權(quán)利要求
1.一種語音合成裝置,用于GPS語音導(dǎo)航系統(tǒng)中,所述GPS語音導(dǎo)航系統(tǒng)還包括與所述語音合成裝置連接的GPS導(dǎo)航裝置,所述語音合成裝置包括基礎(chǔ)資料庫以及語音播放執(zhí)行模塊,其特征在于所述基礎(chǔ)資料庫進(jìn)一步包括(1)語音存儲單元,用以儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息,以及(2)索引存儲單元,存儲至少包含所述語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息,且所述文本格式道路信息與語音格式道路信息為一一對應(yīng)關(guān)系;所述語音播放執(zhí)行模塊進(jìn)一步包括(1)分析單元,在播放一導(dǎo)航語句之前,先將所述導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索所述基本資料庫中的文本格式道路信息,再通過對文本格式道路信息的解析,獲得與之對應(yīng)的語音格式道路信息;以及(2)播放單元,先將所有以詞段為單位的語音格式道路信息重組形成所述導(dǎo)航語句,再進(jìn)行播報。
2.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述語音格式道路信息是wav文件。
3.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述詞段為道路名、道路口名、轉(zhuǎn)向信息、行駛速度或行駛距離。
4.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述文本格式道路信息是txt文件。
5.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述偏移量為所述語音格式道路信息在所述語音存儲單元中的存儲位置偏移量。
6.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述數(shù)據(jù)長度為所述語音格式道路信息的以字節(jié)為單位的語音數(shù)據(jù)長度。
7.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述預(yù)定關(guān)鍵詞為所述語音格式道路信息的文本描述。
8.根據(jù)權(quán)利要求1所述的語音合成裝置,其特征在于,所述播放單元還可依據(jù)導(dǎo)航區(qū)域的擴(kuò)展或者變化,重新錄制新的語音格式道路信息。
9.根據(jù)權(quán)利要求8所述的語音合成裝置,其特征在于,當(dāng)所述播放單元錄制生成新的語音格式道路信息時,應(yīng)同時生成與之對應(yīng)的文本格式道路信息。
10.一種GPS語音導(dǎo)航系統(tǒng),其特征在于,所述GPS語音導(dǎo)航系統(tǒng)采用權(quán)利要求1所述的語音合成裝置合成導(dǎo)航語句,再予以播放。
11.一種語音合成方法,用于GPS語音導(dǎo)航系統(tǒng)中,所述GPS語音導(dǎo)航系統(tǒng)包括基礎(chǔ)資料庫、語音合成裝置及與所述語音合成裝置相互連接的GPS導(dǎo)航裝置,其特征在于,所述語音合成方法包括儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息;由所述語音格式道路信息對應(yīng)地生成至少包含所述語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息;在播放一導(dǎo)航語句之前,先將所述導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索所述基本資料庫中的文本格式道路信息;解析檢索到的文本格式道路信息,獲得與之對應(yīng)的語音格式道路信息;將所述導(dǎo)航語句涉及到的以詞段為單位的語音格式道路信息重組,再進(jìn)行語音播報。
全文摘要
一種語音合成裝置以及方法,用于具有GPS導(dǎo)航裝置的GPS語音導(dǎo)航系統(tǒng)中,其主要包括語音存儲單元、索引存儲單元,分析單元以及播放單元其儲存道路導(dǎo)航過程中所使用到的以詞段為單位的語音格式道路信息,并對應(yīng)地生成至少包含所述語音格式道路信息的文本描述、偏移量及數(shù)據(jù)長度的文本格式道路信息,在播放一導(dǎo)航語句之前,先將導(dǎo)航語句拆分為多個語音格式道路信息,并以一預(yù)定關(guān)鍵詞檢索基本資料庫中的文本格式道路信息,接著解析檢索到的文本格式道路信息,獲得與之對應(yīng)的語音格式道路信息,最后將所述導(dǎo)航語句涉及到的以詞段為單位的語音格式道路信息重組,再進(jìn)行語音播報,本發(fā)明還提供一種包括上述語音合成裝置的GPS語音導(dǎo)航系統(tǒng)。
文檔編號G01S19/13GK1956056SQ200610117188
公開日2007年5月2日 申請日期2006年10月16日 優(yōu)先權(quán)日2006年10月16日
發(fā)明者蔣昌俊, 曾國蓀, 陳閎中, 苗奪謙, 閻春鋼, 付瑛, 方鈺, 何良華 申請人:同濟(jì)大學(xué)