日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

自然語言語音服務(wù)環(huán)境中的混合處理的系統(tǒng)及方法

文檔序號:6351793閱讀:253來源:國知局
專利名稱:自然語言語音服務(wù)環(huán)境中的混合處理的系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及包括多個多模式設(shè)備的自然語言語音服務(wù)環(huán)境中的混合處理,其中,自然語言語音服務(wù)環(huán)境中的混合處理可以包括多個多模式設(shè)備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。
背景技術(shù)
近年來,隨著技術(shù)的進(jìn)步,在許多人的日常生活中,消費性電子設(shè)備已變得幾乎無處不在。為了滿足手機(jī)、導(dǎo)航設(shè)備、嵌入式設(shè)備及其它這樣的設(shè)備的功能性和移動性的發(fā)展而引起的日益增長的需求,許多設(shè)備除了核心應(yīng)用之外,還提供豐富的特性和功能。然而,更強(qiáng)大的功能性也帶來了折中,包括通常抑制用戶充分利用其電子設(shè)備的所有性能的學(xué)習(xí)曲線(learning curve)。例如,許多現(xiàn)有的電子設(shè)備包括可能不是特別方便用戶使用的復(fù)雜的人機(jī)界面,這會妨礙許多技術(shù)的大規(guī)模市場采用。此外,繁瑣的界面還經(jīng)常會導(dǎo)致難以發(fā)現(xiàn)或使用所需的特性(例如,因為菜單復(fù)雜或?qū)Ш狡饋砗苋唛L繁瑣)。因此,許多用戶往往不使用或甚至不知道其設(shè)備的許多潛在性能。因此,電子設(shè)備的增加的功能性經(jīng)常傾向于被浪費,正如市場調(diào)查表明,許多用戶只使用給定設(shè)備上的可用特性或應(yīng)用的僅一小部分。此外,在無線聯(lián)網(wǎng)和寬帶接入越來越普遍的社會中,消費者自然傾向于要求其電子設(shè)備具有無縫移動性能。因此,隨著消費者對更簡單的與電子設(shè)備交互的機(jī)制的需求加強(qiáng),妨礙快速和集約化交互的繁瑣界面成為重點關(guān)注的問題。然而,對使用以直觀方式的技術(shù)的機(jī)制的日益增長的需求仍未得到充分滿足。一種趨于簡化電子設(shè)備中的人機(jī)交互的方法已包括使用語音識別軟件,該語音識別軟件具有使用戶利用不熟悉的、未知的或難以使用的特性的潛力。例如,最近由Navteq公司進(jìn)行的提供各種應(yīng)用(例如汽車導(dǎo)航和基于網(wǎng)絡(luò)的應(yīng)用)中所使用的數(shù)據(jù)的一項調(diào)查表明,語音識別通常在電子設(shè)備的消費者所最期望的特性中占首位。即便如此,現(xiàn)有的語音用戶界面在實際工作時,仍要求用戶大量學(xué)習(xí)。例如,許多現(xiàn)有的語音用戶界面只支持根據(jù)特定的命令與控制序列或語法所制定的請求。此外,許多現(xiàn)有的語音用戶界面因為不準(zhǔn)確的語音識別而導(dǎo)致用戶受挫或不滿。類似地,通過迫使用戶提供預(yù)先建立的命令或關(guān)鍵字來以系統(tǒng)能理解的方式傳遞請求,現(xiàn)有的語音用戶界面未有效地使用戶參與富有成效的、合作的對話中來解析請求并促進(jìn)會話朝著令人滿意的目標(biāo)進(jìn)行(例如,當(dāng)用戶可能對特定需要、可用信息、設(shè)備性能等不確定時)。因此,現(xiàn)有的語音用戶界面往往遭受各種各樣的缺點,包括對使用戶以合作和會話的方式參與對話有很大的局限性。
另外,許多現(xiàn)有的語音用戶界面達(dá)不到利用分布在不同領(lǐng)域、設(shè)備和應(yīng)用程序中的信息以解析基于自然語言語音的輸入。因此,現(xiàn)有的語音用戶界面遭受到局限于一組有限的應(yīng)用程序(所述語音用戶界面針對所述應(yīng)用程序設(shè)計)或局限于存在有所述語音用戶界面的設(shè)備。盡管技術(shù)進(jìn)步已使用戶經(jīng)常使用幾個設(shè)備來滿足其各種需要,但現(xiàn)有的語音用戶界面未使用戶充分?jǐn)[脫設(shè)備限制。例如,用戶可能對與不同應(yīng)用程序和設(shè)備相關(guān)的服務(wù)感興趣,但現(xiàn)有的語音用戶界面往往限制用戶訪問其認(rèn)為合適的應(yīng)用程序和設(shè)備。此外,在任一給定時間,用戶通常只能實際攜帶有限數(shù)量的設(shè)備,而在各種情況下,可能會需要用戶設(shè)備所關(guān)聯(lián)的、與當(dāng)前正使用的內(nèi)容或服務(wù)不同的內(nèi)容或服務(wù)。因此,雖然用戶往往具有不同需要,其中在各種背景或環(huán)境中可能需要與不同設(shè)備相關(guān)的內(nèi)容或服務(wù),但現(xiàn)有的語音技術(shù)往往不足以提供這樣的綜合環(huán)境用戶可請求幾乎與任何設(shè)備或網(wǎng)絡(luò)相關(guān)的內(nèi)容或服務(wù)。因此,現(xiàn)有的語音服務(wù)環(huán)境中對信息可用性和設(shè)備交互機(jī)制的限制往往妨礙用戶以直觀的、自然的且有效的方式體驗技術(shù)。例如,當(dāng)用戶希望使用給定電子設(shè)備執(zhí)行給定功能、但不一定知道如何去執(zhí)行該功能時,用戶通常不能參與與設(shè)備的合作的、多模式的交互以僅發(fā)出自然語言的詞來請求該功能。此外,使用不具有語音識別性能的電子設(shè)備執(zhí)行相對簡單的功能通常是很繁瑣的。例如,購買新的手機(jī)鈴音往往是相對簡單的過程,但用戶通常必須導(dǎo)航幾個菜單和按許多不同的按鈕來完成該過程。因此,很顯然,如果用戶能夠使用自然語言來利用隱藏的或難以使用的功能,則與電子設(shè)備的交互可以有效得多?,F(xiàn)有的系統(tǒng)具有這些問題和其它問題。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,一種自然語言語音服務(wù)環(huán)境中的混合處理的系統(tǒng)及方法可以解決現(xiàn)有系統(tǒng)的前述問題中的一個或多個問題。特別地,自然語言語音服務(wù)環(huán)境中的混合處理通??梢园ǘ鄠€多模式設(shè)備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲,如本申請中更詳細(xì)地描述。根據(jù)本發(fā)明的一個方面,自然語言語音服務(wù)環(huán)境中的混合處理通??梢园ǘ鄠€多模式設(shè)備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。例如,虛擬路由器可以接收包括自然語言發(fā)聲所對應(yīng)的編碼的音頻的各種消息,自然 語言發(fā)聲包含在提供給所述設(shè)備中的一個或多個設(shè)備的多模式交互中。然后虛擬路由器可以分析編碼的音頻以選擇自然語言發(fā)聲的最干凈的樣本,并與環(huán)境中的一個或多個其它設(shè)備通信以確定多模式交互的目的。然后虛擬路由器可以根據(jù)多模式交互的目的協(xié)調(diào)解析多模式交互。根據(jù)本發(fā)明的一個方面,一種自然語言語音服務(wù)環(huán)境中的混合處理的方法可以包括電子設(shè)備檢測至少一個多模式交互,其中,所述多模式交互至少包括自然語言發(fā)聲。然后可以將包含與所述多模式交互相關(guān)的信息的一個或多個消息傳遞給與所述電子設(shè)備通信的虛擬路由器,其中,所述電子設(shè)備通過消息傳送接口將所述一個或多個消息傳遞給所述虛擬路由器。該方法還可以包括所述電子設(shè)備通過消息傳送接口接收包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息。因此,所述電子設(shè)備可以根據(jù)包含在從所述虛擬路由器所接收的一個或多個消息中的信息解析所述多模式交互。根據(jù)本發(fā)明的一個方面,一種自然語言語音服務(wù)環(huán)境中的混合處理的方法可以包括與虛擬路由器通信的一個或多個電子設(shè)備。具體地,所述電子設(shè)備可以配置為檢測至少一個至少包括自然語言發(fā)聲的多模式交互,并通過消息傳送接口將包含與所述多模式交互相關(guān)的信息的一個或多個消息傳遞給虛擬路由器。然后所述電子設(shè)備可以通過所述消息傳送接口從所述虛擬路由器接收包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息,且所述電子設(shè)備根據(jù)包含在從所述虛擬路由器所接收的一個或多個消息中的信息解析所述多模式交互。根據(jù)以下附圖和詳細(xì)的描述,本發(fā)明的其它目的和優(yōu)勢將變得明顯。


圖I示出根據(jù)本發(fā)明的一個方面的可用于自然語言語音服務(wù)環(huán)境中的混合處理的示例性語音支持設(shè)備的框圖;圖2示出根據(jù)本發(fā)明的一個方面的自然語言語音服務(wù)環(huán)境中的混合處理的示例 性系統(tǒng)的框圖;圖3示出根據(jù)本發(fā)明的一個方面的初始化合作執(zhí)行自然語言語音服務(wù)環(huán)境中的混合處理的各種設(shè)備的示例性方法的流程圖;圖4到圖5示出根據(jù)本發(fā)明的一個方面的自然語言語音服務(wù)環(huán)境中的混合處理的示例性方法的流程圖。
具體實施例方式根據(jù)本發(fā)明的一個方面,圖I示出可用于自然語言語音服務(wù)環(huán)境中的混合處理的示例性語音支持(voice-enabled)設(shè)備100的框圖。從本申請所要提供的進(jìn)一步描述中將了解到,圖I所示的語音支持設(shè)備100通??砂ㄝ斎朐O(shè)備112或輸入設(shè)備112的組合,輸入設(shè)備112可以使用戶以多模式方式與語音支持設(shè)備100交互。具體地,輸入設(shè)備112通??砂ㄖ辽僖粋€語音輸入設(shè)備112 (例如,麥克風(fēng))和至少一個非語音輸入設(shè)備112 (例如,鼠標(biāo)、觸摸屏顯示器、滾輪選擇器(wheel selector)等)的任一適當(dāng)組合。因此,輸入設(shè)備112可以包括具有接收基于語音的輸入和基于非語音的輸入的機(jī)構(gòu)的電子設(shè)備的任一適當(dāng)組合(例如,連接到車載通信設(shè)備、個人導(dǎo)航設(shè)備、手機(jī)、VoIP (互聯(lián)網(wǎng)語音傳輸協(xié)議)節(jié)點、個人電腦、媒體設(shè)備、嵌入式設(shè)備、服務(wù)器或其它電子設(shè)備中的一個或多個設(shè)備的麥克風(fēng))。在一個實現(xiàn)中,語音支持設(shè)備100可以使用戶參與各種多模式會話性交互,該語音支持設(shè)備100可以以形式自由且合作的方式處理所述多模式會話交互,以執(zhí)行各種任務(wù)、解析各種查詢或者解析多模式交互中所包括的各種自然語言請求。例如,在一個實現(xiàn)中,語音支持設(shè)備100可以包括各種自然語言處理部件,所述自然語言處理部件至少包括連接到一個或多個輸入設(shè)備112的語音點擊模塊,如在2009年2月20日提交的、名稱為“System and Method for Processing Multi-Modal Device Interactions in a NaturalLanguage Voice Services Environment”、序號為12/389,678的共同代決的美國專利申請中的更詳細(xì)描述,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。因此,在本申請中將進(jìn)行更詳細(xì)地描述,一個或多個輸入設(shè)備112和語音點擊模塊可以共同配置為處理用戶和語音支持設(shè)備100之間的各種多模式交互。例如,在一個實現(xiàn)中,多模式交互可以包括至少一個自然語言發(fā)聲,其中,可將自然語言發(fā)聲轉(zhuǎn)換為電子信號。然后可將該電子信號提供給自動語音識別器(ASR) 120,ASR120也可以被稱為語音識別引擎120和/或多通道語音識別引擎120。響應(yīng)于接收該發(fā)聲所對應(yīng)的電子信號,ASR 120可以產(chǎn)生該發(fā)聲的一個或多個初步解釋,并將該初步解釋提供給會話語言處理器130。此外,在一個實現(xiàn)中,多模式交互可以包括與一個或多個輸入設(shè)備112的一個或多個非語音交互(例如,按鈕推動、多點觸控手勢、焦點或關(guān)注的焦點選擇等)。因此,語音點擊模塊可以從非語音交互中提取上下文,并將上下文提供給會話語言處理器130 (即通過圖I中所示的虛線)以在產(chǎn)生發(fā)聲的解釋中使用。因此,如以下更詳細(xì)描述的,會話語言處理器130可以分析發(fā)聲和任何伴隨的非語音交互,以確定與語音支持設(shè)備100的多模式交互的目的。在一個實現(xiàn)中,如上所述,語音支持設(shè)備100可以包括各種可支持形式自由的發(fā)聲和/或其它形式的非語音設(shè)備交互的自然語言處理部件,這可將用戶從與制定命令、查詢或其它請求的方式有關(guān)的限制中解放出來。因此,用戶可使用任一說話方式來將發(fā)聲提供給語音輸入設(shè)備112,且還可將其它非語音交互提供給非語音輸入設(shè)備112,以通過語音支持設(shè)備100請求可用的任何內(nèi)容或服務(wù)。例如,在一個實現(xiàn)中,響應(yīng)于語音輸入設(shè)備112接收到發(fā)聲,可使用在2008年7月8日被授權(quán)為第7,398,209號美國專利的、名稱為“Systems and Methods for Responding to Natural Language Speech Utteranc e,,的序號為10/452,147的美國專利申請和在2003年6月15日提交的、名稱為“Mobile Systems andMethods forResponding to Natural Language Speech Utterance,,的序號為 10/618,633的共同代決的美國專利申請中所描述的技術(shù)來處理該發(fā)聲,上述美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。此外,用戶可以與非語音輸入設(shè)備112中的一個或多個進(jìn)行交互,以提供按鈕推動、多點觸控手勢、焦點或關(guān)注的焦點選擇或其它非語音設(shè)備交互,這可以提供與自然語言發(fā)聲和/或所請求的內(nèi)容或服務(wù)相關(guān)的進(jìn)一步上下文信息或其它信息。在一個實現(xiàn)中,語音支持設(shè)備100可以連接到一個或多個附加系統(tǒng),該一個或多個附加系統(tǒng)可以配置為與語音支持設(shè)備100合作以解釋或處理包括自然語言發(fā)聲和/或非語音設(shè)備交互的組合的多模式交互。例如,如下文結(jié)合圖2的更詳細(xì)的描述,所述一個或多個附加系統(tǒng)可以包括一個或多個具有與語音支持設(shè)備100相似的自然語言處理性能的多模式語音支持設(shè)備、一個或多個具有數(shù)據(jù)檢索和/或任務(wù)執(zhí)行性能的非語音設(shè)備以及協(xié)調(diào)語音支持設(shè)備100和所述附加系統(tǒng)之間的交互的虛擬路由器。因此,語音支持設(shè)備100可以包括到包括多個多模式設(shè)備的綜合自然語言語音服務(wù)環(huán)境的接口,其中,用戶可以通過任一多模式設(shè)備來請求可用內(nèi)容或服務(wù)。例如,在一個實現(xiàn)中,會話語言處理器130可以包括星座模型132b,星座模型132b提供與語音服務(wù)環(huán)境中可用的內(nèi)容、服務(wù)、應(yīng)用程序、目的確定性能和其它特性相關(guān)的知識,如在 2008 年 5 月 27 日提交的、名稱為 “System and Method for an Integrated,Multi-Modal, Multi-Device Natural Language Voice Services Environment,,、序號為12/127,343的共同代決的美國專利申請中所述的,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。因此,語音支持設(shè)備100可以利用各種系統(tǒng)和多模式設(shè)備所共享的與自然語言處理性能、上下文、在前交互、領(lǐng)域知識、短期知識、長期知識和認(rèn)知模型相關(guān)的知識,為解析語音支持設(shè)備100所接收的多模式交互提供合作環(huán)境。在一個實現(xiàn)中,輸入設(shè)備112及其連接的語音點擊模塊可以配置為持續(xù)監(jiān)控語音支持設(shè)備100所接收的一個或多個多模式交互。特別地,輸入設(shè)備112和語音點擊模塊可以持續(xù)監(jiān)控一個或多個自然語言發(fā)聲和/或一個或多個可區(qū)別的非語音設(shè)備交互,所述一個或多個自然語言發(fā)聲和/或一個或多個可區(qū)別的非語音設(shè)備交互可以共同提供用以檢索內(nèi)容、執(zhí)行任務(wù)、調(diào)用服務(wù)或命令、或處理任何其它合適請求的相關(guān)上下文。因此,響應(yīng)于檢測到一個或多個多模式交互,輸入設(shè)備112和/或語音點擊模塊可以發(fā)信號來向該語音支持設(shè)備100通知已接收到發(fā)聲和/或非語音交互。例如,在一個實現(xiàn)中,非語音交互可以提供用以增強(qiáng)識別、解釋和理解所伴隨的發(fā)聲的上下文,此外,該發(fā)聲可以提供用以提高所伴隨的非語音交互的解釋的進(jìn)一步的上下文。因此,發(fā)聲和非語音交互可以共同提供相關(guān)上下文,各種自然語言處理部件可以使用該相關(guān)上下文來確定包括發(fā)聲和非語音交互的多模式交互的目的。在一個實現(xiàn)中,如上所述,可以在ASR 120上發(fā)起處理包括在多模式交互中的發(fā)聲,其中,ASR 120可以產(chǎn)生該發(fā)聲的一個或多個初步解釋。在一個實現(xiàn)中,為了產(chǎn)生該發(fā) 聲的初步解釋,ASR 120可以配置為利用一種或多種動態(tài)識別語法和/或聲學(xué)模型識別來自該發(fā)聲的一個或多個音節(jié)、詞、語段或其它聲學(xué)特性。例如,在一個實現(xiàn)中,ASR 120可以根據(jù)語音聽寫技術(shù)來使用動態(tài)識別語法和/或聲學(xué)模型識別來自發(fā)聲的一連串音位,如在2009年12月15日被授權(quán)為第7,634,409號美國專利的、名稱為“Dynamic SpeechSharpening”、序號為11/513,269的美國專利申請所述的,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。此外,動態(tài)識別語法和/或聲學(xué)模型可以包括不重讀的中元音(例如,“弱讀元音”),所述不重讀的中元音可以減小用于識別發(fā)聲的一連串音位的搜索空間。此外,在一個實現(xiàn)中,ASR 120可以配置為多通道語音識別引擎120,如在2009年12月29日被授權(quán)為第7,640,160號美國專利的、名稱為“Systems and Methods forResponding to Natural Language Speech Utterance,,、序號為 11/197,504 的美國專利申請所述的,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。多通道語音識別引擎120可以配置為首先調(diào)用初級語音識別引擎以產(chǎn)生發(fā)聲的第一轉(zhuǎn)譯,且還可選地隨后調(diào)用一個或多個次級語音識別引擎以產(chǎn)生發(fā)聲的一個或多個第二轉(zhuǎn)譯。在一個實現(xiàn)中,可利用一大列表的聽寫語法產(chǎn)生第一轉(zhuǎn)譯,而可利用虛擬聽寫語法或其它動態(tài)識別語法產(chǎn)生第二轉(zhuǎn)譯,該虛擬聽寫語法具有詞匯表外的字、源自會話歷史的減少的詞匯表的誘導(dǎo)詞。例如,在一個實現(xiàn)中,如果第一轉(zhuǎn)譯的可信度不能達(dá)到或超過一閾值,則可以調(diào)用次級語音識別引擎以增強(qiáng)初級語音識別引擎的解釋。然而,顯然,多通道語音識別引擎120可利用技術(shù)的任一適當(dāng)組合來解釋該發(fā)聲,該任一適當(dāng)組合形成用于該發(fā)聲的源自多個轉(zhuǎn)譯通道的初步解釋(例如,可以不管第一轉(zhuǎn)譯的可信度如何,都調(diào)用次級語音識別引擎,或者初級語音識別引擎和/或次級語音識別引擎可以使用相同的或針對特定的解釋上下文優(yōu)化的識別語
抹坐坐、
YZa,-rf* -rf* J o因此,在一個實現(xiàn)中,可以針對不同的語言、上下文、領(lǐng)域、內(nèi)存限制和/或其它合適的標(biāo)準(zhǔn),優(yōu)化ASR 120中所使用的動態(tài)識別語法。例如,在一個實現(xiàn)中,語音支持設(shè)備100可以包括一個或多個為特定上下文或領(lǐng)域提供內(nèi)容或服務(wù)的應(yīng)用程序134,例如導(dǎo)航應(yīng)用程序134。因此,響應(yīng)于ASR 120將導(dǎo)航確定為發(fā)聲的最可能的上下文,可以針對各種物理的、時間的、方向的或其它地理的特性,優(yōu)化動態(tài)識別語法(例如,如在2007年12月 11 日提交的、名稱為 “System and Method for Providing a Natural Language VoiceUser Interface in an Integrated Voice Navigation Services Environment,,、序號為11/954,064的共同代決的美國專利申請所述,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中)。在另一示例中,包含詞“交通(traffic)”的發(fā)聲可能有不同的解釋,這取決于用戶是否意指導(dǎo)航上下文(即路面交通)、音樂上下文(即二十世紀(jì)六十年代的搖滾樂隊)或電影上下文(即Steven Soderbergh的電影)。因此,在ASR 120中所使用的識別語法可以動態(tài)地適用于優(yōu)化任何給定發(fā)聲的準(zhǔn)確識別(例如,響應(yīng)于錯誤地解釋包含特定詞或語句的發(fā)聲,可將錯誤解釋從識別語法中去除,以防止重復(fù)發(fā)生該錯誤解釋)。在一個實現(xiàn)中,響應(yīng)于ASR 120使用一種或多種上述技術(shù)產(chǎn)生包括在多模式交互中的發(fā)聲的初步解釋,ASR 120可以將初步解釋提供給會話語言處理器130。會話語言處理器130通??砂ǜ鞣N自然語言處理部件,所述各種自然語言處理部件可以配置為對人與 人的會話或交互建模。因此,會話語言處理器130可調(diào)用自然語言處理部件中的一個或多個來進(jìn)一步分析發(fā)聲的初步解釋和任何伴隨的非語音交互,以確定語音支持設(shè)備100所接收的多模式交互的目的。在一個實現(xiàn)中,會話語言處理器120可以調(diào)用目的確定引擎130a,該目的確定引擎配置為確定語音支持設(shè)備100所接收的多模式交互的目的。在一個實現(xiàn)中,目的確定引擎130a可調(diào)用為確定目的而提供長期和短期語義知識的知識增強(qiáng)的語音識別引擎,如在2005 年 8 月 29 日提交的、名稱為“Mobile Systems and Methods of Supporting NaturalLanguage Human-Machine Interactions”、序號為11/212,693的共同代決的美國專利申請所述,其全部內(nèi)容通過引用結(jié)合在本申請中。例如,在一個實現(xiàn)中,語義知識可以基于源自一個或多個與用戶的在前交互的個性化認(rèn)知模型,源自一個或多個與各種不同用戶的在前交互的一般認(rèn)知模型,和/或源自與用戶、語音支持設(shè)備100相關(guān)的環(huán)境和/或語音服務(wù)環(huán)境(例如,環(huán)境噪聲特性、位置敏感信息等)的環(huán)境認(rèn)知模型。此外,目的確定引擎132a可調(diào)用上下文跟蹤引擎132d,以確定多模式交互的上下文。例如,可將源自多模式交互中的自然語言發(fā)聲和/或非語音交互的任何上下文推送到與上下文跟蹤引擎132d相關(guān)的上下文堆棧,其中,該上下文堆棧可以包括各種條目,可根據(jù)一個或多個從認(rèn)知模型所確定的上下文和當(dāng)前多模式交互的上下文加權(quán)或排列所述各種條目。因此,上下文跟蹤引擎132d可以確定上下文堆棧中的一個或多個與當(dāng)前多模式交互所相關(guān)的信息匹配的條目,以確定當(dāng)前多模式交互的最可能的上下文。然后上下文跟蹤引擎132d可將該最可能的上下文提供給目的確定引擎132a,該目的確定引擎可以基于最可能的上下文確定多模式交互的目的。此外,根據(jù)最可能的上下文,目的確定引擎132a可以參考星座模型132b,以確定是否調(diào)用語音服務(wù)環(huán)境中的各種系統(tǒng)或多模式設(shè)備中的任何一種。例如,如上所述,星座模型132b可以提供通過所述各種系統(tǒng)和多模式設(shè)備可用的目的確定性能、領(lǐng)域知識、語義知識、認(rèn)知模型和其它信息。因此,目的確定引擎132a可以參考星座模型132b,以確定其它系統(tǒng)和/或多模式設(shè)備中的一個或多個是否應(yīng)當(dāng)參與確定多模式交互的目的。例如,響應(yīng)于星座模型132b指示其它系統(tǒng)和/或多模式設(shè)備中的一個或多個具有針對最可能的上下文的優(yōu)化的自然語言處理性能,目的確定引擎132a可將與多模式交互相關(guān)的信息轉(zhuǎn)發(fā)給這樣的系統(tǒng)和/或多模式設(shè)備,這樣的系統(tǒng)和/或多模式設(shè)備然后可確定多模式交互的目的并將目的確定返回到語音支持設(shè)備100。
在一個實現(xiàn)中,會話語言處理器130可配置為使用戶參與一個或多個合作性會話中以解析目的或處理多模式交互,如在2006年10月16日提交的、名稱為“System andMethod for a Cooperative Conversational Voice User Interface,,、序號為 11/580,926的共同代決的美國專利申請所述,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。特別地,會話語言處理器130通??纱_定多模式交互的會話目標(biāo),其中,該會話目標(biāo)可以從分析發(fā)聲、非語音交互、最可能的上下文和/或確定的目的而確定。因此,針對多模式交互所確定的的會話目標(biāo)通常可控制會話語言處理器130和用戶之間的合作性會話。例如,會話語言處理器130通常可使用戶參與一個或多個查詢會話、教導(dǎo)會話和/或探索性會話中以解析或處理多模式交互。具體地,響應(yīng)于確定出會話目標(biāo)涉及檢索離散信息或執(zhí)行特定功能,則會話語言處理器130可以使用戶參與查詢回話。因此,在合作性查詢會話中,用戶可以將會話導(dǎo)向?qū)崿F(xiàn)特定會話目標(biāo),而會話語言處理器130可以發(fā)起一個或多個查詢、任務(wù)、命令或其它請求 以實現(xiàn)該目標(biāo),從而支持會話中的用戶。響應(yīng)于多模式交互的目的的歧義性或不確定性,會話語言處理器130可以使用戶參與教導(dǎo)會話以解決歧義性或不確定性(例如,噪聲或用詞錯誤干擾解釋發(fā)聲,無法對多個可能的上下文消除歧義,等等)。因此,在合作性教導(dǎo)會話中,會話語言處理器130可以將會話導(dǎo)向弄清多模式交互的目的(例如,產(chǎn)生通過輸出設(shè)備114所提供的反饋),而用戶可以調(diào)節(jié)會話并提供附加的多模式交互以弄清目的。響應(yīng)于確定具有適當(dāng)可信度的多模式交互的目的,其中該目的指示歧義的或不確定的目標(biāo),則會話語言處理器130可使用戶參與探索性會話以解析該目標(biāo)。在合作性的探索性會話中,會話語言處理器130和用戶可以共享領(lǐng)導(dǎo)者和支持者的角色,其中,在會話過程中可以改進(jìn)或完善歧義的或不確定的目標(biāo)。因此,會話語言處理器130通??蓞⑴c到一個或多個合作性會話中以為語音支持設(shè)備100所接收的多模式交互確定目的和解析特定目標(biāo)。然后,會話語言處理器130可以發(fā)起一個或多個促成針對多模式交互所確定的目的和目標(biāo)的查詢、任務(wù)、命令或其它請求。例如,在一個實現(xiàn)中,會話語言處理器130可以調(diào)用一個或多個代理132c,所述一個或多個代理具有處理特定領(lǐng)域或應(yīng)用程序134中的請求的性能;語音搜索引擎132f,所述語音搜索引擎具有檢索多模式交互中請求的信息的性能(例如,從一個或多個數(shù)據(jù)存儲庫136、網(wǎng)絡(luò)或連接到語音支持設(shè)備100的其它信息源);或者一個或多個其他系統(tǒng)或多模式設(shè)備,所述其他系統(tǒng)或多模式設(shè)備具有用于促進(jìn)多模式交互的目的和目標(biāo)(例如,如從星座模型132b所確定的)的合適的處理性能。此外,在一個實現(xiàn)中,會話語言處理器130可以調(diào)用涉及發(fā)起以處理多模式交互的查詢、任務(wù)、命令或其它請求的廣告應(yīng)用程序134,其中,廣告應(yīng)用程序134可以配置為選擇一個或多個可能與多模式交互的目的和/或目標(biāo)相關(guān)的廣告,如在2007年2月6日提交的、名稱為 “System and Method for Selecting and Presenting Advertisements Basedon Natural Language Processing of Voice-Based Input,,、序號為 11/671,526 的共同代決的美國專利申請所述,該美國專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。在一個實現(xiàn)中,響應(yīng)于接收來自針對多模式交互所處理的查詢、任務(wù)、命令或其它請求的任一合適組合的結(jié)果,會話語言處理器130可將該結(jié)果格式化以通過輸出設(shè)備114顯示給用戶。例如,該結(jié)果可被格式化為自然語言發(fā)聲,該自然語言發(fā)聲可轉(zhuǎn)換成電信號并通過連接至輸出設(shè)備114的揚聲器提供給用戶,或者該結(jié)果可以被可視地呈現(xiàn)在連接至輸出設(shè)備114的顯示器上,或者該結(jié)果可以采用任何其它合適的方式(例如,該結(jié)果可以指示是否成功地執(zhí)行了特定任務(wù)或命令,或者該結(jié)果可以包括響應(yīng)于一個或多個查詢而檢索到的信息,或者如果該結(jié)果是歧義的或不完整的,則其可包括制定隨后的多模式交互的請求,
寸寸7 o此外,在一個實現(xiàn)中,會話語言處理器130可以包括錯誤識別引擎132e,該錯誤識別引擎配置為確定會話語言處理器130是否錯誤地確定了多模式交互的目的。在一個實現(xiàn)中,響應(yīng)于在時間上接近于在前的多模式交互提供的一個或多個隨后的多模式交互,錯誤識別引擎132e可以確定會話語言處理器130錯誤地確定了目的,如在2009年11月17日被授權(quán)為第 7,620,549 號美國專利的、名稱為“System and Method of Supporting AdaptiveMisrecognition in Conversational Speech”、序號為 11/200,164 的美國專利申請所述的,該美國專利的全部內(nèi)容通過引用結(jié)合在本申請中。例如,錯誤識別引擎132e可以監(jiān)控包括停用詞的一個或多個隨后的多模式交互、推翻當(dāng)前請求、或者指示未識別或誤識別的事件。然后錯誤識別引擎132e可以為與ASR 120和/或會話語言處理器130相關(guān)的各種 部件確定一個或多個調(diào)整參數(shù),以改進(jìn)隨后的解釋。因此,如上文更詳細(xì)的描述,語音支持設(shè)備100通??梢园捎糜谧匀徽Z言語音服務(wù)環(huán)境中的混合處理的各種自然語言處理部件和性能。具體地,語音支持設(shè)備100可以配置為確定包括自然語言發(fā)聲和/或非語音交互的任一適當(dāng)組合的各種多模式交互的目的,并根據(jù)所確定的目的處理一個或多個查詢、任務(wù)、命令或其它請求。此外,如上所述和如下更詳細(xì)的描述,一個或多個其它系統(tǒng)和/或多模式設(shè)備可以參與為多模式交互確定目的和處理查詢、任務(wù)、命令或其它請求,以提供混合處理方法,其中,語音支持設(shè)備100與各種其它系統(tǒng)和多模式設(shè)備可以各執(zhí)行部分處理以確定目的,以及以合作的方式處理多模式交互。例如,在一個實現(xiàn)中,合作處理的多模式交互可以包括致力于內(nèi)容(例如,到特定的人物或?qū)嶓w)的請求,其中,可以使用在2009年11月10日提交的、名稱為“System and Methodfor Providing a Natural Language Content Dedication Service,,、序號為 61/259,820的美國臨時專利申請中所描述的技術(shù)處理多模式交互,該美國臨時專利申請的全部內(nèi)容通過引用結(jié)合在本申請中。根據(jù)本發(fā)明的一個方面,圖2示出自然語言語音服務(wù)環(huán)境中的混合處理的示例性系統(tǒng)的框圖。具體地,圖2中所示的系統(tǒng)通??梢园愃朴谏衔慕Y(jié)合圖I描述的語音支持設(shè)備的語音支持客戶端設(shè)備210。例如,語音支持客戶端設(shè)備210可以包括分別用于接收自然語言多模式交互和提供自然語言多模式交互的響應(yīng)的輸入設(shè)備和輸出設(shè)備215a的任一適當(dāng)組合。此外,語音支持客戶端設(shè)備210可以包括自動語音識別器(ASR) 220a, ASR220a配置為產(chǎn)生輸入設(shè)備215a所接收的自然語言發(fā)聲的一個或多個初步解釋且還配置為將所述初步解釋提供給會話語言處理器230a。在一個實現(xiàn)中,語音支持客戶端設(shè)備210上的會話語言處理器230a可以包括一個或多個自然語言處理部件,可調(diào)用所述一個或多個自然語言處理部件以確定語音支持客戶端設(shè)備210所接收的多模式交互的目的。然后會話語言處理器230a可以發(fā)起一個或多個查詢、任務(wù)、命令或其它請求以解析所確定的目的。例如,會話語言處理器230a可以調(diào)用一個或多個應(yīng)用程序234a以處理特定領(lǐng)域中的請求,查詢一個或多個數(shù)據(jù)存儲庫236a以檢索多模式交互中請求的信息,或參與一個或多個與語音支持客戶端設(shè)備210的用戶的合作性會話以解析所確定的目的。此外,如上文結(jié)合圖I所述,語音支持客戶端設(shè)備210還可與一個或多個具有用于發(fā)起查詢、任務(wù)、命令或其它請求以解析多模式交互的目的的適當(dāng)?shù)奶幚硇阅艿钠渌到y(tǒng)或多模式設(shè)備合作。具體地,為了在混合處理環(huán)境中與其它系統(tǒng)或多模式設(shè)備合作,語音支持客戶端設(shè)備210可以使用消息傳送接口 250a來與虛擬路由器260進(jìn)行通信,其中,消息傳送接口250a通常可包括輕客戶端(或瘦客戶端),輕客戶端為語音支持客戶端設(shè)備210提供向虛擬路由器260發(fā)送輸入和從虛擬路由器260接收輸出的機(jī)制。此外,虛擬路由器260還可以包括消息傳送接口 250b,消息傳送接口 250b提供用以與一個或多個附加的語音支持設(shè)備270a-n、一個或多個非語音設(shè)備280a_n和語音支持服務(wù)器240通信的機(jī)制。另外,盡管圖2將消息傳送接口 250a和消息傳送接口 250b示為與其所通信地連接的設(shè)備分開的部件,但是顯然,這樣的圖示僅為了便于描述,因為可將消息傳送接口 250a-b設(shè)置為實施在圖2中 所示的各種設(shè)備上的板上部件,以促進(jìn)混合處理環(huán)境中的各種設(shè)備之間的通信。例如,在一個實現(xiàn)中,實施在語音支持客戶端設(shè)備210上的消息傳送接口 250a可以將來自語音支持客戶端設(shè)備210的輸入在一個或多個XML消息內(nèi)發(fā)送給虛擬路由器260,其中,所述輸入可以包括自然語言發(fā)聲所對應(yīng)的編碼的音頻、自然語言發(fā)聲的初步解釋、多點觸控手勢、焦點或關(guān)注的焦點選擇和/或其它多模式交互所對應(yīng)的數(shù)據(jù)。在一個實現(xiàn)中,然后虛擬路由器260可以使用會話語言處理器230c進(jìn)一步處理該輸入,會話語言處理器230c具有語音識別、目的確定、適應(yīng)性錯誤識別和/或其它自然語言處理的性能。此外,會話語言處理器230c可以包括與通過混合處理環(huán)境中的各種設(shè)備可用的內(nèi)容、服務(wù)、應(yīng)用程序、自然語言處理性能和其它特性相關(guān)的知識。因此,在一個實現(xiàn)中,虛擬路由器260還可以通過消息傳送接口 250b來與語音支持設(shè)備270、非語音設(shè)備280和/或語音支持服務(wù)器240通信,以協(xié)調(diào)處理從語音支持客戶端設(shè)備210所接收的輸入。例如,根據(jù)與混合處理環(huán)境中的各種設(shè)備的特性和性能相關(guān)的知識,虛擬路由器260可以確定設(shè)備中具有用于解析從語音支持客戶端設(shè)備210所接收的輸入的目的的合適的特性和/或性能的一個或多個設(shè)備。然后虛擬路由器260可通過相應(yīng)的消息傳送接口 250b來將該輸入的一個或多個要素轉(zhuǎn)發(fā)給所確定的設(shè)備,其中,可以調(diào)用所確定的設(shè)備以對從虛擬路由器260所轉(zhuǎn)發(fā)的輸入的要素進(jìn)行任何適當(dāng)?shù)奶幚怼T谝粋€實現(xiàn)中,然后所確定的設(shè)備可通過相應(yīng)的消息傳送接口 250b將任何處理結(jié)果返回給虛擬路由器260,其中,虛擬路由器260可以校對處理結(jié)果并通過消息傳送接口 250a將結(jié)果返回給語音支持客戶端設(shè)備210。因此,虛擬路由器260可通過消息傳送接口 250a_b與混合處理環(huán)境中的任何可用設(shè)備通信,以協(xié)調(diào)多模式交互或從語音客戶端設(shè)備210所接收的其它自然語言輸入的合作性混合處理。例如,在一個實現(xiàn)中,合作性混合處理可用于提高嵌入式處理架構(gòu)中的性能,在該嵌入式處理架構(gòu)中,語音支持客戶端設(shè)備210包括有限數(shù)量的資源(例如,語音支持客戶端設(shè)備210可以為具有有限數(shù)量的內(nèi)存儲器或用于自然語言處理的其他專用資源的移動設(shè)備)。因此,當(dāng)語音支持客戶端設(shè)備210具有嵌入式處理架構(gòu)時,語音支持客戶端設(shè)備210的一個或多個部件可以配置為優(yōu)化板上自然語言處理的效率,以減少或消除瓶頸、長響應(yīng)時間或性能降級。
例如,在一個實現(xiàn)中,優(yōu)化板上自然語言處理的效率可以包括將ASR 220a配置成使用具有詞匯表外的字、源自會話歷史的減少的詞匯表的誘導(dǎo)詞的虛擬聽寫語法或其它動態(tài)識別語法(例如,為特定語言、上下文、領(lǐng)域、內(nèi)存限制和/或其它合適的標(biāo)準(zhǔn)而優(yōu)化的語法)。在另一示例中,板上應(yīng)用程序234a和/或數(shù)據(jù)存儲庫236a可以與為語音支持客戶端設(shè)備210提供特定特性和性能的嵌入式應(yīng)用程序組相關(guān)聯(lián)。例如,可以將語音支持客戶端設(shè)備210嵌入在汽車車載通信系統(tǒng)、個人導(dǎo)航設(shè)備、全球定位系統(tǒng)、手機(jī)或用戶經(jīng)常請求基于位置的服務(wù)的另一設(shè)備中。因此,在這種情況下,可以優(yōu)化嵌入式應(yīng)用程序組中的板上應(yīng)用程序234a和數(shù)據(jù)存儲庫236a,以提供可在板上有效處理的某些基于位置的服務(wù)(例如,目的地輸入、導(dǎo)航、地圖控制、音樂搜索、免提撥號等)。此外,盡管可針對嵌入式架構(gòu)中的效率優(yōu)化語音支持客戶端設(shè)備210的部件,但用戶可以請求混合處理環(huán)境中可用的任何合適的內(nèi)容、服務(wù)、應(yīng)用程序和/或其它特性,且在混合處理環(huán)境中的其它設(shè)備可以共同提供自然語言處理性能,以為語音支持客戶端設(shè)備210補(bǔ)充嵌入式自然語言處理性能。例如,語音支持客戶端設(shè)備210可使用嵌入式自然語言處理性能,對特定的多模式交互進(jìn)行初步處理(例如,板上ASR 220a可以進(jìn)行高級虛擬聽寫以部分地轉(zhuǎn)譯多模式交互中的發(fā)聲,板上會話語言處理器230a可以確定多模式交互的 初步目的等),其中,可將初步處理的結(jié)果提供給虛擬路由器260以進(jìn)一步處理。在一個實現(xiàn)中,響應(yīng)于確定出板上性能不能適當(dāng)?shù)亟忉尳换?例如,如果部分轉(zhuǎn)譯的可信度不滿足特定閾值),或者響應(yīng)于確定出應(yīng)在板外處理交互(例如,如果初步解釋指示交互涉及要求在語音支持服務(wù)器240上進(jìn)行大型計算的本地搜索請求),語音支持客戶端設(shè)備210還可以將多模式交互所對應(yīng)的輸入傳送給虛擬路由器260。因此,虛擬路由器260可以捕獲從語音支持客戶端設(shè)備210所接收的輸入,并協(xié)調(diào)提供自然語言處理性能的語音支持設(shè)備270和語音支持服務(wù)器240以及提供檢索數(shù)據(jù)或執(zhí)行任務(wù)的性能的非語音設(shè)備280之間的進(jìn)一步處理。此外,響應(yīng)于虛擬路由器260調(diào)用語音支持設(shè)備270中的一個或多個,可以優(yōu)化提供給語音支持設(shè)備270的輸入,以適應(yīng)從被調(diào)用的語音支持設(shè)備270所請求的處理(例如,為了避免過度征用處理資源,特定的語音支持設(shè)備270可被提供部分轉(zhuǎn)譯或初步解釋,且針對給定上下文或領(lǐng)域解析目的)。可替選地,響應(yīng)于虛擬路由器260調(diào)用語音支持服務(wù)器240,提供給語音支持設(shè)備270的輸入還可以包括自然語言發(fā)聲所對應(yīng)的編碼的音頻和任何其它與多模式交互相關(guān)的數(shù)據(jù)。具體地,如圖2所示,除了語音支持服務(wù)器240可包括消除了語音支持客戶端設(shè)備210所經(jīng)受的限制的大量處理資源之外,語音支持服務(wù)器240可以具有類似于語音支持客戶端設(shè)備210的自然語言處理架構(gòu)。因此,當(dāng)語音支持服務(wù)器240在多模式交互的混合處理中協(xié)作時,可以將自然語言發(fā)聲所對應(yīng)的編碼的音頻和任何其它與多模式交互相關(guān)的數(shù)據(jù)提供給語音支持服務(wù)器240,以最大化語音支持服務(wù)器240正確確定多模式交互的目的的可能性(例如,ASR 220b可以進(jìn)行多通道語音識別,以產(chǎn)生自然語言發(fā)聲的準(zhǔn)確轉(zhuǎn)譯,會話語言處理器230b可以在任意數(shù)量的不同上下文或領(lǐng)域中所進(jìn)行的目的確定之間進(jìn)行仲裁,等等)。因此,總之,在圖2所示的環(huán)境中所進(jìn)行的混合處理技術(shù)通??梢园ǜ鞣N不同的設(shè)備,這些設(shè)備可以包括或不包括自然語言性能、合作地確定特定多模式交互的目的以及采取行動以解析該目的。盡管已在嵌入式處理架構(gòu)的背景下具體地描述了上述的合作性混合處理技術(shù),但這種技術(shù)不一定局限于嵌入式處理架構(gòu)。具體地,同樣的技術(shù)可以應(yīng)用在具有各種設(shè)備的任何適當(dāng)?shù)恼Z音服務(wù)環(huán)境中,所述各種設(shè)備可以協(xié)作以發(fā)起查詢、任務(wù)、命令或其它請求以解析多模式交互的目的。此外,在一個實現(xiàn)中,語音支持客戶端設(shè)備210可以包括適當(dāng)數(shù)量的存儲器或可致力于自然語言處理的其它資源(例如,語音支持客戶端設(shè)備210可以為臺式電腦或可處理自然語言而基本不降低性能的其它設(shè)備)。在這種情況下,語音支持客戶端設(shè)備210的部件中的一個或多個部件可以配置為以可以在嵌入式架構(gòu)中導(dǎo)致瓶頸、長響應(yīng)時間或性能降級的方式優(yōu)化板上自然語言處理。例如,在一個實現(xiàn)中,優(yōu)化板上自然語言處理可以包括將ASR 220a配置成除了和/或替代在嵌入式處理架構(gòu)中所使用的虛擬聽寫語法,使用一大列表的聽寫語法。盡管如此,如下文參照圖3 圖5的更詳細(xì)的描述,合作性混合處理技術(shù)可以是基本相似的,不管語音支持客戶端設(shè)備210是具有嵌入式架構(gòu)還是具有非嵌入式架構(gòu)。具體地,不管語音支持客戶端設(shè)備210的架構(gòu)如何,合作性混合處理都可以包括語音支持客戶端設(shè)備210可選地執(zhí)行自然語言多模式交互的初步處理以及通過消息傳送接口 250a將多模式交互所對應(yīng)的輸入傳送給虛擬路由器260以進(jìn)一步處理??商孢x地(或另外),合作性混合處理可以包括虛擬路由器260通過消息傳送接口 250b協(xié)調(diào)混合環(huán)境中的各種設(shè)備間 的輸入的進(jìn)一步處理以及隨后通過消息傳送接口 250a將任何處理結(jié)果返回給語音支持客戶端設(shè)備210。根據(jù)本發(fā)明的各個方面,圖3示出用于初始化合作執(zhí)行自然語言語音服務(wù)環(huán)境中的混合處理的各種設(shè)備的示例性方法的流程圖。具體地,如上所述,混合處理環(huán)境通常可以包括可合作處理自然語言多模式交互的各種不同設(shè)備間的通信。例如,在一個實現(xiàn)中,在混合處理環(huán)境中的各種設(shè)備可以包括虛擬路由器,該虛擬路由器具有用于與一個或多個語音支持設(shè)備、一個或多個非語音設(shè)備和/或語音支持服務(wù)器通信的一個或多個消息傳送接口。因此,在一個實現(xiàn)中,圖3所示的方法可以用于初始化混合處理環(huán)境中的通信,以開啟隨后的在混合處理環(huán)境中的任一特定設(shè)備上所接收的一個或多個自然語言多模式交互的合作處理。在一個實現(xiàn)中,在混合處理環(huán)境中的各種設(shè)備可以配置為連續(xù)地監(jiān)聽或監(jiān)控相應(yīng)的輸入設(shè)備,以確定自然語言多模式交互是否發(fā)生。因此,圖3所示的方法可以用于校準(zhǔn)、同步或初始化連續(xù)監(jiān)聽自然語言多模式交互的各種設(shè)備。例如,如上文參照圖2所述,混合處理環(huán)境中的虛擬路由器、語音支持設(shè)備、非語音設(shè)備、語音支持服務(wù)器和/或其它設(shè)備可以配置為提供各種不同的性能或服務(wù),其中,圖3所示的初始化方法可以用于確?;旌咸幚憝h(huán)境獲得適當(dāng)?shù)男盘?,以處理任一特定的自然語言多模式交互并適當(dāng)調(diào)用設(shè)備中的一個或多個設(shè)備來合作處理自然語言多模式交互。此外,可以調(diào)用圖3所示的且本申請所述的方法,以注冊混合處理環(huán)境中的各種設(shè)備、注冊添加到混合處理環(huán)境的新設(shè)備、公布領(lǐng)域、服務(wù)、目的確定性能和/或其它在注冊的設(shè)備上所支持的特性、同步注冊的設(shè)備的本地計時和/或初始化混合處理環(huán)境中的設(shè)備的任何其它適當(dāng)?shù)姆矫妗T谝粋€實現(xiàn)中,初始化混合處理環(huán)境中的各種設(shè)備可以包括操作310,其中,可以為混合處理環(huán)境中的每個設(shè)備建立設(shè)備監(jiān)聽器。在操作310中所建立的設(shè)備監(jiān)聽器通??梢园稍诟鞣N設(shè)備上執(zhí)行的指令、固件或其它例程的任一適當(dāng)組合,以確定性能、特性、所支持的領(lǐng)域或其它與設(shè)備相關(guān)的信息。例如,在一個實現(xiàn)中,在操作310中所建立的設(shè)備監(jiān)聽器可以配置為使用針對輔助計算機(jī)設(shè)備所設(shè)計的通用即插即用協(xié)議與相應(yīng)的設(shè)備通信,但很顯然,可合適地替代與各種設(shè)備通信的任一適當(dāng)機(jī)制。響應(yīng)于為混合處理環(huán)境中所注冊的每個設(shè)備建立設(shè)備監(jiān)聽器(或響應(yīng)于為混合處理環(huán)境中所新注冊的任一設(shè)備建立設(shè)備監(jiān)聽器),在操作320中,可以同步設(shè)備監(jiān)聽器。具體地,每個注冊設(shè)備可以具有為輸入的自然語言多模式交互指示本地計時的內(nèi)部時鐘或其它計時機(jī)制,其中,操作320可以用于根據(jù)相應(yīng)設(shè)備的內(nèi)部時鐘或計時機(jī)制來同步操作310中所建立的設(shè)備監(jiān)聽器。因此,在一個實現(xiàn)中,在操作320中的使設(shè)備監(jiān)聽器同步可以包括每個設(shè)備監(jiān)聽器公布與相應(yīng)設(shè)備的內(nèi)部時鐘或本地計時相關(guān)的信息。例如,設(shè)備監(jiān)聽器可以向虛擬路由器公布與內(nèi)部時鐘或本地計時相關(guān)的信息,從而虛擬路由器可以隨后協(xié)調(diào)在混合處理環(huán)境中的設(shè)備中的一個或多個設(shè)備上所接收的自然語言多模式交互的合作混合處理。然而,顯然,可將與混合處理環(huán)境中的各種設(shè)備的內(nèi)部時鐘或本地計時相關(guān)的信息公布給其它語音支持設(shè)備、其它非語音設(shè)備、語音支持服務(wù)器和/或任何其它可參與提供給混合處理環(huán)境的自然語言多模式交互的合作處理的適當(dāng)設(shè)備。在一個實現(xiàn)中,響應(yīng)于為在混合處理環(huán)境中所注冊的各種設(shè)備建立和同步設(shè)備監(jiān) 聽器,在操作330中,設(shè)備監(jiān)聽器可以連續(xù)地監(jiān)聽或監(jiān)控相應(yīng)地所注冊設(shè)備上的相應(yīng)設(shè)備,以檢測與一個或多個自然語言多模式交互相關(guān)的信息。例如,設(shè)備監(jiān)聽器可以配置為響應(yīng)于檢測輸入的自然語言發(fā)聲、與輸入的自然語言發(fā)聲相關(guān)的焦點或關(guān)注的焦點選擇和/或與輸入的自然語言多模式交互相關(guān)的另一交互或交互序列,來檢測自然語言多模式交互的發(fā)生。此外,操作330還可以包括適當(dāng)?shù)脑O(shè)備監(jiān)聽器捕獲自然語言發(fā)聲和/或與自然語言發(fā)聲相關(guān)的非語音設(shè)備交互。在一個實現(xiàn)中,接著在操作340中,可以分析捕獲的自然語言發(fā)聲和相關(guān)的非語音設(shè)備交互,以管理混合處理環(huán)境中的隨后的合作處理。在一個實現(xiàn)中,例如,操作340可以確定是一個設(shè)備監(jiān)聽器還是多個設(shè)備監(jiān)聽器捕獲與在操作330中所檢測的自然語言多模式交互相關(guān)的信息。具體地,如上所述,混合處理環(huán)境通??梢园ê献魈幚碜匀徽Z言多模式交互的各種不同設(shè)備,從而可將與自然語言多模式交互相關(guān)的信息提供給混合處理環(huán)境中的一個或多個設(shè)備。因此,操作340可以確定是一個設(shè)備監(jiān)聽器還是多個設(shè)備監(jiān)聽器捕獲與自然語言多模式交互相關(guān)的信息,以便確定混合處理環(huán)境是否需要使信號在捕獲與多模式交互相關(guān)的信息的各種設(shè)備監(jiān)聽器之間同步。例如,與混合處理環(huán)境進(jìn)行交互的用戶可以瀏覽呈現(xiàn)在非語音顯示設(shè)備上呈現(xiàn)的網(wǎng)頁,并提供請求更多關(guān)于購買網(wǎng)頁上所顯示的產(chǎn)品的信息的自然語言多模式交互。然后用戶可以使用鼠標(biāo)、鍵盤或其它非語音輸入設(shè)備來在該網(wǎng)頁上選擇包含該產(chǎn)品名稱的文本,并將自然語言發(fā)聲提供給麥克風(fēng)或其它語音支持設(shè)備,例如“這在亞馬遜網(wǎng)站上有售嗎? ”在本示例中,在操作330中,與非語音顯示設(shè)備相關(guān)的設(shè)備監(jiān)聽器可以檢測關(guān)于該產(chǎn)品名稱的文本選擇,且在操作330中,與語音支持設(shè)備相關(guān)的設(shè)備監(jiān)聽器可以進(jìn)一步檢測詢問產(chǎn)品可購性的自然語言發(fā)聲。此外,在一個實現(xiàn)中,用戶可能在多個語音支持設(shè)備的適用范圍內(nèi),這可導(dǎo)致多個設(shè)備監(jiān)聽器捕獲自然語言發(fā)聲所對應(yīng)的不同信號(例如,交互可以發(fā)生在語音支持手機(jī)、語音支持車載設(shè)備和/或其它語音支持設(shè)備的范圍內(nèi),這取決于混合處理環(huán)境中的各種設(shè)備的布置和配置)。因此,如本申請更詳細(xì)的描述,響應(yīng)于操作340確定多個設(shè)備監(jiān)聽器捕獲與自然語言多模式交互相關(guān)的信息,可以發(fā)起使與多個設(shè)備監(jiān)聽器所接收的多模式交互相關(guān)的不同信號同步的一系列操作。另一方面,響應(yīng)于操作340確定僅一個設(shè)備監(jiān)聽器捕獲與自然語言多模式交互相關(guān)的信息,可在操作390中處理自然語言多模式交互,而不執(zhí)行使不同信號同步的一系列操作(即,該一個設(shè)備監(jiān)聽器提供與多模式交互相關(guān)的全部輸入信息,使得可在操作390中發(fā)起交互的混合處理,而不使不同的輸入信號同步)。然而,在一個實現(xiàn)中,響應(yīng)于一個設(shè)備監(jiān)聽器捕獲自然語言發(fā)聲和一個或多個非語音交互,也可發(fā)起該系列同步操作,以將與自然語言多模式交互相關(guān)的不同信號對齊,如本申請更詳細(xì)的描述。如上所述,接收到與在操作330中所檢測的自然語言多模式交互相關(guān)的輸入的設(shè)備監(jiān)聽器可以具有內(nèi)部時鐘或其它本地計時機(jī)制。因此,響應(yīng)于在操作340中確定一個或多個設(shè)備監(jiān)聽器捕獲與自然語言多模式交互相關(guān)的不同信號,可在操作350中發(fā)起針對不同信號的該系列同步操作。具體地,操作350可以包括一個或多個設(shè)備監(jiān)聽器根據(jù)與相應(yīng)設(shè)備監(jiān)聽器相關(guān)的內(nèi)部時鐘或其它本地計時機(jī)制確定相應(yīng)信號的本地計時信息,其中,接著可以同步針對相應(yīng)信號所確定的本地計時信息。例如,在一個實現(xiàn)中,可在操作360中發(fā)起使相應(yīng)信號的本地計時信息同步。具體 地,操作360通常可以包括向接收到與多模式交互相關(guān)的輸入的每個設(shè)備監(jiān)聽器通知針對每個相應(yīng)信號所確定的本地計時信息。例如,在一個實現(xiàn)中,每個設(shè)備監(jiān)聽器可以將相應(yīng)信號的本地計時信息提供給虛擬路由器,然后虛擬路由器可以將所有信號的本地計時信息提供給每個設(shè)備監(jiān)聽器。因此,在一個實現(xiàn)中,操作360可以引起每個設(shè)備監(jiān)聽器接收到一通知,該通知包括與在操作330中所檢測的自然語言多模式交互相關(guān)的每個不同信號的本地計時信息。可替選地(或另外),虛擬路由器可以從每個設(shè)備監(jiān)聽器收集每個不同信號的本地計時信息,并進(jìn)一步同步不同信號的本地計時信息,以啟動自然語言多模式交互的混合處理。在一個實現(xiàn)中,任一具體的自然語言多模式交互可以至少包括自然語言發(fā)聲,且還可以包括一個或多個與自然語言發(fā)聲相關(guān)的附加設(shè)備交互。如上所述,通??梢栽诟郊釉O(shè)備交互之前、同時或之后接收發(fā)聲。因此,可以在操作370中同步不同信號的本地計時信息,以啟動自然語言多模式交互的混合處理。具體地,操作370可以包括將自然語言發(fā)聲所對應(yīng)的一個或多個信號的本地計時信息和/或任何與自然語言發(fā)聲相關(guān)的附加設(shè)備交互所對應(yīng)的一個或多個信號的本地計時信息對齊。此外,操作370還可以包括將自然語言發(fā)聲信號和附加設(shè)備交互所對應(yīng)的信號的本地計時信息對齊。因此,在匹配發(fā)聲信號和非語音設(shè)備交互信號時,可以向參與自然語言多模式交互的混合處理的任何設(shè)備提供彼此對齊的語音成分和/或非語音成分。例如,在一個實現(xiàn)中,可以在虛擬路由器上執(zhí)行操作370,然后虛擬路由器可將對齊的計時信息提供給在混合處理中可以被調(diào)用的任何其它設(shè)備??商孢x地(或另外),參與混合處理的其它設(shè)備中的一個或多個可以本地地對齊計時信息(例如,響應(yīng)于虛擬路由器調(diào)用混合處理中的語音支持服務(wù)器,可以利用與語音支持服務(wù)器相關(guān)的資源對齊計時信息并保留虛擬路由器上的通信帶寬)。此外,在一個實現(xiàn)中,在操作380中,虛擬路由器和/或混合處理環(huán)境中的其它設(shè)備可以分析自然語言發(fā)聲所對應(yīng)的信號,以選擇最干凈的樣本來進(jìn)一步處理。具體地,如上所述,虛擬路由器可以包括用以從一個或多個語音支持設(shè)備接收自然語言發(fā)聲所對應(yīng)的編碼的音頻樣本的消息傳送接口。例如,虛擬路由器所接收的音頻樣本可以包括以MPEG-I音頻層3 (MP3)格式或另一有損格式所編碼的自然語言發(fā)聲,以保留混合處理環(huán)境中的通信帶寬。然而,顯然,可替選地(或另外),響應(yīng)于混合處理環(huán)境具有足夠的通信帶寬用于處理可提供更好的自然語言發(fā)聲樣本的無損音頻,可以使用無損音頻壓縮編碼(FLAC)格式或另一無損格式編碼音頻樣本。不管是以有損格式還是以無損格式編碼音頻樣本,在操作380中,可以選擇自然語言發(fā)聲所對應(yīng)的提供最干凈的樣本的信號。例如,一個語音支持設(shè)備可以在噪音環(huán)境中或與干擾產(chǎn)生干凈的音頻樣本的條件相關(guān),而另一語音支持設(shè)備可以包括麥克風(fēng)陣列或配置為采用使編碼的語音的保真度最大化的技術(shù)。因此,響應(yīng)于在操作330中接收自然語言發(fā)聲所對應(yīng)的多個信號,在操作380中可以選擇最干凈的信號,然后在操作390中可以發(fā)起自然語言發(fā)聲的混合處理。因此,在圖3中所示出的且在本申請中所描述的同步和初始化技術(shù)可以確?;旌咸幚憝h(huán)境同步自然語言多模式交互所對應(yīng)的每個信號且產(chǎn)生用以在操作390中進(jìn)一步處 理的輸入,以最可能形成正確的目的確定。此外,在使信號同步和選擇最干凈的音頻樣本以在操作390中進(jìn)一步處理時,在圖3中所示出的且在本申請中所描述的技術(shù)可以確?;旌咸幚憝h(huán)境中沒有設(shè)備對自然語言多模式交互采取行動,直到識別出在操作390中所要使用的適當(dāng)信號。因此,在操作390中可以發(fā)起自然語言多模式交互的混合處理,如本申請中更詳細(xì)地描述的。根據(jù)本發(fā)明的一個方面,圖4示出在自然語言語音服務(wù)環(huán)境中的一個或多個客戶端設(shè)備上執(zhí)行混合處理的示例性方法的流程圖。具體地,如下文將參照圖5進(jìn)行更詳細(xì)的描述的,一個或多個客戶端設(shè)備可以通過消息傳送接口來與虛擬路由器合作執(zhí)行混合處理,該消息傳送接口通信地連接客戶端設(shè)備和虛擬路由器。例如,在一個實現(xiàn)中,消息傳送接口通??梢园ㄝp客戶端(或瘦客戶端),輕客戶端為客戶端設(shè)備提供用以向虛擬路由器發(fā)送與自然語言多模式交互相關(guān)的輸入的機(jī)制,且輕客戶端還為客戶端設(shè)備提供用以從虛擬路由器接收與自然語言多模式交互相關(guān)的輸出的機(jī)制。例如,在一個實現(xiàn)中,響應(yīng)于在操作410中客戶端設(shè)備中的一個或多個接收自然語言多模式交互,可以發(fā)起客戶端設(shè)備上的混合處理。具體地,自然語言多模式交互通??梢园ㄔ谶B接至接收了自然語言多模式交互的客戶端設(shè)備的麥克風(fēng)或其它語音支持輸入設(shè)備上所接收的自然語言發(fā)聲,且還可以包括一個或多個與自然語言發(fā)聲相關(guān)的其它附加輸入形式(例如,文本選擇、按鈕按下、多點觸控手勢等)。因此,在操作410中所接收的自然語言多模式交互可以包括提供給客戶端設(shè)備的一個或多個查詢、命令或其它請求,其中,然后可以在操作420中發(fā)起自然語言多模式交互的混合處理。如上文更詳細(xì)地描述的,自然語言語音服務(wù)環(huán)境通??梢园ㄒ粋€或多個語音支持客戶端設(shè)備、一個或多個非語音設(shè)備、語音支持服務(wù)器和虛擬路由器,該虛擬路由器布置成與語音支持客戶端設(shè)備、非語音設(shè)備和語音支持服務(wù)器中的每一個通信。在一個實現(xiàn)中,因此,虛擬路由器可以協(xié)調(diào)語音支持客戶端設(shè)備、非語音設(shè)備和語音支持服務(wù)器之間的針對自然語言多模式交互的混合處理。因此,本申請所描述的混合處理技術(shù)通??梢灾柑摂M路由器以涉及在多個階段中解析自然語言多模式交互的目的的方式,協(xié)調(diào)自然語言多模式交互的合作處理。
具體地,如上文參照圖3的描述,可以初始化合作執(zhí)行混合處理的各種設(shè)備,以啟動自然語言多模式交互的合作處理。因此,在一個實現(xiàn)中,在操作420中,響應(yīng)于初始化各種設(shè)備,接收與自然語言多模式交互相關(guān)的輸入的每個客戶端設(shè)備可以進(jìn)行相應(yīng)輸入的初步處理。例如,在一個實現(xiàn)中,在操作420中,接收包括在多模式交互中的自然語言發(fā)聲的客戶端設(shè)備可以執(zhí)行初始處理,該初始處理包括編碼發(fā)聲所對應(yīng)的音頻樣本、部分或完全轉(zhuǎn)譯發(fā)聲、確定發(fā)聲的初步目的、或針對發(fā)聲執(zhí)行任何其它合適的初步處理。此外,也可以在接收與發(fā)聲相關(guān)的附加輸入形式中的一個或多個的客戶端設(shè)備上執(zhí)行操作420中的初始處理。例如,在操作420中為附加輸入形式所執(zhí)行的初始處理可以包括識別選擇的文本、選擇的焦點或關(guān)注的焦點,或者產(chǎn)生任何其它可用于進(jìn)一步解釋發(fā)聲的合適的數(shù)據(jù)。在一個實現(xiàn)中,接著操作430可以包括確定混合處理環(huán)境是否已被配置為自動地將與自然語言多模式交互相關(guān)的輸入路由至虛擬路由器。例如,在一個實現(xiàn)中,響應(yīng)于在操作410中多個客戶端設(shè)備接收包括在多模式交互中的自然語言發(fā)聲,操作430可以確定已配置發(fā)生自動路由。在本示例中,操作420中所執(zhí)行的初始處理可以包括多個客戶端設(shè)備編碼發(fā)聲所對應(yīng)的相應(yīng)的音頻樣本,其中,然后在操作460中,可將包括編碼的音頻樣本的消息發(fā)送給虛擬路由器。然后虛擬路由器可以 選擇一個提供最干凈的信號的編碼的音頻樣本并協(xié)調(diào)隨后的針對自然語言多模式交互的混合處理,如下文參照圖5的更詳細(xì)的描述。在另一示例中,響應(yīng)于引起確定多模式交互涉及可能最適合于在語音支持服務(wù)器上處理的請求的初始處理(例如,該請求可以涉及基于位置的搜索查詢或者另一命令或任務(wù),該另一命令或任務(wù)要求語音支持服務(wù)器上所管理的資源、內(nèi)容、應(yīng)用程序、領(lǐng)域或存在于與接收請求的客戶端設(shè)備不同的一個或多個設(shè)備上的其它信息等),操作430可以確定已配置發(fā)生自動路由。然而,顯然,混合處理環(huán)境可以酌情配置為響應(yīng)于其它條件和/或不管任何附加條件是否存在而自動路由。在一個實現(xiàn)中,響應(yīng)于虛擬路由器協(xié)調(diào)自然語言多模式交互的混合處理,在操作470中,虛擬路由器可將混合處理的結(jié)果提供給客戶端設(shè)備。例如,在操作470中提供給客戶端設(shè)備的結(jié)果可以包括自然語言多模式交互的最終目的確定、在交互中所請求的信息、響應(yīng)于執(zhí)行交互中所請求的命令或任務(wù)而產(chǎn)生的數(shù)據(jù)和/或使客戶端設(shè)備在操作480中完成自然語言請求的處理的其它結(jié)果。例如,在一個實現(xiàn)中,操作480可以包括客戶端設(shè)備根據(jù)從虛擬路由器返回的最終目的確定來執(zhí)行查詢、命令、任務(wù)或其它請求,呈現(xiàn)從虛擬路由器返回的所請求的信息,確認(rèn)已執(zhí)行所請求的命令或任務(wù),和/或執(zhí)行任何附加處理以解析自然語g請求。回顧操作430,響應(yīng)于確定出未滿足觸發(fā)自動路由的條件或者未配置自動路由器,則在操作440中客戶端設(shè)備可以進(jìn)一步處理自然語言多模式交互。在一個實現(xiàn)中,在操作440中的進(jìn)一步處理可以包括客戶端設(shè)備使用本地自然語言處理性能試圖確定自然語言多模式交互的目的。例如,客戶端設(shè)備可將包括在多模式交互中的任何非語音輸入形式合并在包括在多模式交互中的發(fā)聲的轉(zhuǎn)譯中。接著客戶端設(shè)備上的會話語言處理器可以利用與上下文、領(lǐng)域、共享知識、標(biāo)準(zhǔn)值或其它信息相關(guān)的本地信息確定多模式交互的目的。然后客戶端設(shè)備可以產(chǎn)生發(fā)聲的一個或多個解釋,以確定多模式交互的目的(例如,識別會話類型、包含在交互中的一個或多個請求等)。在一個實現(xiàn)中,操作440還可以包括確定在客戶端設(shè)備上所產(chǎn)生的目的確定的可信度(例如,可以響應(yīng)于客戶端設(shè)備是否包括多通道語音識別引擎、發(fā)聲是否包含任何有歧義的詞或語句、目的是否隨上下文而不同等,得出可信度)。在一個實現(xiàn)中,接著操作450可以根據(jù)在操作440中所確定的可信度確定是否調(diào)用板外處理。例如,操作450通??梢园ù_定在操作440中所確定的目的是否滿足特定閾值,該特定閾值指示對確定的目的采取行動的可接受的可信度。因此,響應(yīng)于目的確定的可信度滿足閾值,操作450可以確定不調(diào)用板外處理。特別地,可信度滿足閾值可以指示客戶端設(shè)備具有足夠的信息對確定的目的采取行動,從而在操作480中,客戶端設(shè)備可以處理一個或多個查詢、命令、任務(wù)或其它請求以解析多模式交互??商孢x地,響應(yīng)于目的確定的可信度不滿足閾值,操作450可以調(diào)用板外處理,板外處理可以包括在操作460中發(fā)送一個或多個消息給虛擬路由器。該一個或多個消息可以使虛擬路由器以上述類似的方式調(diào)用多模式交互的附加混合處理,且本申請將參照圖5進(jìn)行更詳細(xì)地描述。根據(jù)本發(fā)明的一個方面,圖5示出在自然語言語音服務(wù)環(huán)境中的虛擬路由器上執(zhí) 行混合處理的示例性方法的流程圖。具體地,虛擬路由器可以協(xié)調(diào)在一個或多個客戶端設(shè)備上所接收的自然語言多模式交互的混合處理。在一個實現(xiàn)中,在操作510中,虛擬路由器可以接收與在語音服務(wù)環(huán)境中的客戶端設(shè)備中的一個或多個客戶端設(shè)備上所接收的自然語言多模式交互相關(guān)的一個或多個消息。例如,虛擬路由器可以包括將虛擬路由器通信地連接到客戶端設(shè)備和語音支持服務(wù)器的消息傳送接口,其中,該消息傳送接口通??梢园ㄝp客戶端(或瘦客戶端),輕客戶端為虛擬路由器提供用以從一個或多個客戶端設(shè)備和/或語音支持服務(wù)器接收輸入、且還向一個或多個客戶端設(shè)備和/或語音支持服務(wù)器發(fā)送輸出的機(jī)制。在操作510中所接收的消息通??梢园ǘ嗄J浇换サ娜魏魏线m的處理結(jié)果,從而虛擬路由器可以以包括可發(fā)生在虛擬路由器、客戶端設(shè)備中的一個或多個客戶端設(shè)備、語音支持服務(wù)器或其任一合適組合上的多個處理階段的方式協(xié)調(diào)混合處理。在一個實現(xiàn)中,虛擬路由器可以分析在操作510中所接收的消息以確定是否調(diào)用點對點模式的混合處理。例如,消息中的一個或多個消息可以包括初步目的確定,虛擬路由器可以使用該初步目的確定來確定是否調(diào)用客戶端設(shè)備中的一個或多個客戶端設(shè)備、語音支持服務(wù)器或其各種組合,以便執(zhí)行多模式交互的多個處理階段中的一個或多個處理階段。在另一示例中,消息中的一個或多個消息可以包括編碼的音頻樣本,虛擬路由器將該編碼的音頻樣本轉(zhuǎn)發(fā)給混合處理環(huán)境中的各種設(shè)備中的一個或多個設(shè)備。因此,在一個實現(xiàn)中,虛擬路由器可以分析在操作510中所接收的消息以確定是否調(diào)用語音支持服務(wù)器來處理多模式交互(例如,消息可以包括初步目的確定,該初步目的確定指示多模式交互包括需要存在于服務(wù)器上的資源的基于位置的請求)。響應(yīng)于虛擬路由器確定調(diào)用語音支持服務(wù)器,在操作530中,虛擬路由器可以將消息轉(zhuǎn)發(fā)給服務(wù)器。具體地,轉(zhuǎn)發(fā)給服務(wù)器的消息通常可以包括自然語言發(fā)聲所對應(yīng)的編碼的音頻和涉及其它與發(fā)聲有關(guān)的輸入形式的任何附加信息。例如,如上文參照圖2的更詳細(xì)地描述,語音支持服務(wù)器可以包括可適當(dāng)?shù)卮_定多模式交互的目的的各種自然語言處理部件,從而發(fā)送給語音支持服務(wù)器的消息可以包括編碼的音頻,以便允許語音支持服務(wù)器獨立于客戶端設(shè)備上的可能不準(zhǔn)確或不完全的任何初步處理來確定目的。響應(yīng)于語音支持服務(wù)器處理從虛擬路由器所接收的消息,在操作570中,接著可將處理結(jié)果返回給虛擬路由器。例如,很明顯,結(jié)果可以包括自然語言多模式交互的目的確定,響應(yīng)于確定的目的所執(zhí)行的任何查詢、命令、任務(wù)或其它請求的結(jié)果,或者任何其它合適的結(jié)果??商孢x地,響應(yīng)于操作520中的虛擬路由器確定出調(diào)用點對點模式,虛擬路由器可以協(xié)調(diào)一個或多個客戶端設(shè)備、語音支持服務(wù)器或其任一適當(dāng)組合之間的混合處理。例如,在一個實現(xiàn)中,在操作540中,虛擬路由器可以確定自然語言多模式交互的上下文,且在操作550中,根據(jù)確定的上下文選擇一個或多個對等設(shè)備。例如,客戶端設(shè)備中的一個或多個可以配置為提供按照確定的上下文的內(nèi)容或服務(wù),從而在操作560中,虛擬路由器可以將一個或多個消息發(fā)送給這種設(shè)備,以便請求這種內(nèi)容和/或服務(wù)。在另一示例中,多模式交互可以包括涉及不同設(shè)備上所支持的多個上下文的復(fù)合請求,從而在操作560中,虛擬路由器可以將消息轉(zhuǎn)發(fā)給每個這種設(shè)備,以便請求按照不同的上下文的適當(dāng)內(nèi)容和/或服務(wù)。在又一示例中,交互可以包括將要在語音支持服務(wù)器上處理的請求,然而該請求 可要求存在于客戶端設(shè)備中的一個或多個客戶端設(shè)備上的內(nèi)容和/或服務(wù)(例如,涉及客戶端設(shè)備中的一個或多個客戶端設(shè)備上的地址簿中的條目的基于位置的查詢)。因此,在操作560中,虛擬路由器通??梢詫⒏鞣N消息轉(zhuǎn)發(fā)給所選的對等設(shè)備,以管理本申請中所描述的混合處理技術(shù)中的多個階段。例如,虛擬路由器可將消息發(fā)送給一個或多個具有按照特定上下文的目的確定性能的語音支持客戶端設(shè)備、一個或多個使用內(nèi)容、服務(wù)和/或處理多模式交互所需的其它資源的非語音客戶端設(shè)備、或其任一適當(dāng)組合。因此,虛擬路由器可在操作560中發(fā)送消息給客戶端設(shè)備和/或語音支持服務(wù)器,且在操作570中以任一適當(dāng)方式(例如,并行地、順序地、迭代地等)從客戶端設(shè)備和/或語音支持服務(wù)器接收響應(yīng)消息。然后在操作580中,虛擬路由器可以校對在響應(yīng)消息中所接收的結(jié)果,且將結(jié)果返回給客戶端設(shè)備中的一個或多個,用以結(jié)果的任何最終處理和/或呈現(xiàn)??梢砸杂布⒐碳?、軟件或其各種組合的方式進(jìn)行本發(fā)明的實現(xiàn)。也可將本發(fā)明實現(xiàn)為存儲在機(jī)器可讀介質(zhì)上的可通過一個或多個處理器讀取和執(zhí)行的指令。機(jī)器可讀介質(zhì)可以包括用以存儲或發(fā)送機(jī)器(例如,計算設(shè)備)可讀形式的信息的各種機(jī)制。例如,機(jī)器可讀存儲介質(zhì)可以包括只讀存儲器、隨機(jī)存取存儲器、磁盤存儲介質(zhì)、光學(xué)存儲介質(zhì)、閃存設(shè)備或其它存儲介質(zhì),機(jī)器可讀發(fā)送介質(zhì)可以包括各種形式的傳播信號,例如載波、紅外信號、數(shù)字信號或其它發(fā)送介質(zhì)。此外,可以在以上公開內(nèi)容中就本發(fā)明的具體示例方面和實現(xiàn)方式以及執(zhí)行某些動作這些方面來描述固件、軟件、程序或指令。然而,顯然,這些描述僅是為了方便,且這些動作實際上由執(zhí)行所述固件、軟件、程序或指令的計算設(shè)備、處理器、控制器或其他裝置產(chǎn)生。因此,本發(fā)明的方面和實現(xiàn)方式可以在本文中描述為包括具體的特征、結(jié)構(gòu)或性質(zhì),但將明顯的是,每一方面或?qū)崿F(xiàn)方式可以或者可以不一定包括具體的特征、結(jié)構(gòu)或性質(zhì)。此外,當(dāng)具體的特征、結(jié)構(gòu)或者性質(zhì)已結(jié)合一給定的方面或?qū)崿F(xiàn)方式予以描述時,應(yīng)當(dāng)理解,無論是否明確描述,這樣的特征、結(jié)構(gòu)或性質(zhì)也可以包括在其他的方面或?qū)崿F(xiàn)方式中。因此,可以對以上描述進(jìn)行各種改變或修改,而不脫離本發(fā)明的精神或范圍,因此,本說明書和附圖應(yīng)當(dāng)僅看作示例性的,本發(fā)明的范圍僅由所附權(quán)利要求確定。
權(quán)利要求
1.一種用于自然語言語音服務(wù)環(huán)境中的混合處理的方法,該方法包括 電子設(shè)備檢測至少一個多模式交互,其中,所述多模式交互至少包括自然語言發(fā)聲; 將包含與所述多模式交互相關(guān)的信息的一個或多個消息傳送給與所述電子設(shè)備通信的虛擬路由器,其中,所述電子設(shè)備通過消息傳送接口將所述一個或多個消息傳送給所述虛擬路由器; 所述電子設(shè)備接收包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息,其中,所述電子設(shè)備通過所述消息傳送接口從所述虛擬路由器接收所述一個或多個消息;以及 所述電子設(shè)備根據(jù)從所述虛擬路由器接收的一個或多個消息中所包含的信息解析所述多模式交互。
2.如權(quán)利要求I所述的方法,其中,所述虛擬路由器與一個或多個附加電子設(shè)備通信,以確定所述多模式交互的目的。
3.如權(quán)利要求2所述的方法,其中,所述虛擬路由器確定所述多模式交互的上下文,并響應(yīng)于所確定的上下文而與所述一個或多個附加電子設(shè)備通信。
4.如權(quán)利要求I所述的方法,其中,所述虛擬路由器與多個附加電子設(shè)備通信,以確定所述多模式交互的目的。
5.如權(quán)利要求I所述的方法,其中,傳送給所述虛擬路由器的所述一個或多個消息包括所述自然語言發(fā)聲所對應(yīng)的編碼的音頻。
6.如權(quán)利要求5所述的方法,其中,所述虛擬路由器將包含所述編碼的音頻的一個或多個消息傳送給一個或多個附加電子設(shè)備,以確定所述多模式交互的目的。
7.如權(quán)利要求I所述的方法,其中,所述電子設(shè)備解析所述多模式交互包括所述電子設(shè)備根據(jù)所述多模式交互的目的執(zhí)行至少一個請求。
8.如權(quán)利要求I所述的方法,其中,所述多模式交互還包括與所述電子設(shè)備的附加非語音交互,所述附加非語音交互與所述自然語言發(fā)聲相關(guān)。
9.如權(quán)利要求8所述的方法,還包括 在所述電子設(shè)備上建立一個或多個設(shè)備監(jiān)聽器,其中,所述設(shè)備監(jiān)聽器配置為檢測所述自然語言發(fā)聲和與所述自然語言發(fā)聲相關(guān)的所述附加非語音交互;以及 將與所述附加非語音交互和所述自然語言發(fā)聲相關(guān)的計時信息對齊。
10.一種用于自然語言語音服務(wù)環(huán)境中的混合處理的電子設(shè)備,其中,所述電子設(shè)備配置為 檢測至少一個多模式交互,所述多模式交互至少包括自然語言發(fā)聲; 將包含與所述多模式交互相關(guān)的信息的一個或多個消息傳送給與所述電子設(shè)備通信的虛擬路由器,其中,通過消息傳送接口將所述一個或多個消息傳送給所述虛擬路由器; 通過所述消息傳送接口從所述虛擬路由器接收包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息;以及 所述電子設(shè)備根據(jù)從所述虛擬路由器接收的所述一個或多個消息中所包含的信息解析所述多模式交互。
11.如權(quán)利要求10所述的電子設(shè)備,其中,所述虛擬路由器與一個或多個附加電子設(shè)備通信,以確定所述多模式交互的目的。
12.如權(quán)利要求11所述的電子設(shè)備,其中,所述虛擬路由器確定所述多模式交互的上下文,并響應(yīng)于所確定的上下文而與所述一個或多個附加電子設(shè)備通信。
13.如權(quán)利要求10所述的電子設(shè)備,其中,所述虛擬路由器與多個附加電子設(shè)備通信,以確定所述多模式交互的目的。
14.如權(quán)利要求10所述的電子設(shè)備,其中,傳送給所述虛擬路由器的所述一個或多個消息包括所述自然語言發(fā)聲所對應(yīng)的編碼的音頻。
15.如權(quán)利要求14所述的電子設(shè)備,其中,所述虛擬路由器將包含所述編碼的音頻的一個或多個消息傳送給一個或多個附加電子設(shè)備,以確定所述多模式交互的目的。
16.如權(quán)利要求10所述的電子設(shè)備,其中,所述電子設(shè)備還配置為根據(jù)所述多模式交互的目的執(zhí)行至少一個請求,以解析所述多模式交互。
17.如權(quán)利要求10所述的電子設(shè)備,其中,所述多模式交互還包括與所述電子設(shè)備的附加非語音交互,所述附加非語音交互與所述自然語言發(fā)聲相關(guān)。
18.如權(quán)利要求17所述的電子設(shè)備,其中,所述電子設(shè)備還配置為 建立一個或多個設(shè)備監(jiān)聽器,所述設(shè)備監(jiān)聽器配置為檢測所述自然語言發(fā)聲和與所述自然語言發(fā)聲相關(guān)的附加非語音交互;以及 將與所述附加非語音交互和所述自然語言發(fā)聲相關(guān)的計時信息對齊。
19.一種用于自然語言語音服務(wù)環(huán)境中的混合處理的虛擬路由器,其中,所述虛擬路由器配置為 接收包括自然語言發(fā)聲所對應(yīng)的編碼的音頻的多個消息,所述自然語言發(fā)聲包含在與多個相應(yīng)的電子設(shè)備的多模式交互中; 分析所述多個消息中的編碼的音頻,以確定所述多個消息中的提供所述自然語言發(fā)聲的最干凈的樣本的一個消息; 將包含提供所述最干凈的樣本的編碼的音頻的一個或多個消息傳送給與所述虛擬路由器通信的服務(wù)器,其中,通過消息傳送接口將所述一個或多個消息傳送給所述服務(wù)器; 通過所述消息傳送接口從所述服務(wù)器接收包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息;以及 將包含與所述多模式交互的目的相關(guān)的信息的一個或多個消息返回給所述多個電子設(shè)備中的一個或多個電子設(shè)備,其中,所述電子設(shè)備中的一個或多個電子設(shè)備根據(jù)與所述多模式交互的目的相關(guān)的信息解析所述多模式交互。
20.如權(quán)利要求19所述的虛擬路由器,其中,所述虛擬路由器還配置為與所述多個電子設(shè)備中的一個或多個電子設(shè)備通信,以確定所述多模式交互的目的。
21.如權(quán)利要求20所述的虛擬路由器,其中,所述虛擬路由器還配置為確定所述多模式交互的上下文,并響應(yīng)于所確定的上下文而與所述多個電子設(shè)備中的一個或多個電子設(shè)備通信。
22.如權(quán)利要求19所述的虛擬路由器,其中,所述虛擬路由器還配置為與所述多個電子設(shè)備中的多于一個的電子設(shè)備通信,以確定所述多模式交互的目的。
全文摘要
本發(fā)明可以提供一種自然語言語音服務(wù)環(huán)境中的混合處理的系統(tǒng)及方法,該自然語言語音服務(wù)環(huán)境包括多個多模式設(shè)備。具體地,混合處理通??梢园ǘ鄠€多模式設(shè)備合作地解釋和處理包括在一個或多個多模式請求中的一個或多個自然語言發(fā)聲。例如,虛擬路由器可以接收包括自然語言發(fā)聲所對應(yīng)的編碼的音頻的各種消息,該自然語言發(fā)聲包含在提供給設(shè)備中的一個或多個設(shè)備的多模式交互中。然后虛擬路由器可以分析編碼的音頻以選擇自然語言發(fā)聲的最干凈的樣本,并與環(huán)境中的一個或多個其它設(shè)備通信以確定多模式交互的目的。接著虛擬路由器可以根據(jù)多模式交互的目的協(xié)調(diào)解析多模式交互。
文檔編號G06F17/27GK102792294SQ201080061105
公開日2012年11月21日 申請日期2010年9月16日 優(yōu)先權(quán)日2009年11月10日
發(fā)明者林恩·伊莉斯·阿姆斯壯, 羅伯特·A·肯納威克 申請人:聲鈺科技
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1