本發(fā)明涉及一種在語音識別中插入字符的方法和設(shè)備。
背景技術(shù):
信息處理設(shè)備的便攜性已經(jīng)使得用戶能夠在任何地方使用設(shè)備。一些用戶更喜歡使用語音轉(zhuǎn)文本技術(shù)或語音識別軟件來給這些設(shè)備例如智能電話、平板電腦、智能手表、個人計算機、膝上型計算機等提供輸入。隨著語音轉(zhuǎn)文本技術(shù)變得更精確并且更易于使用,用戶采用軟件而不是短信例如采用電子郵件聽寫而不是短的文本消息來提供文本的長的主體部分。為了使用語音轉(zhuǎn)文本技術(shù)進(jìn)行精確的聽寫,用戶必須提供語音命令以將標(biāo)點輸入到文本的主體中。例如,用戶必須說詞語“逗號”而不是像傳統(tǒng)輸入方法中的一樣鍵入“,”。
技術(shù)實現(xiàn)要素:
總之,一方面,提供了一種方法,包括:從音頻捕獲設(shè)備接收語音輸入;使用處理器將語音輸入轉(zhuǎn)換成機器文本;從替代的輸入源接收包括至少一個字符的輸入;使用處理器識別與機器文本關(guān)聯(lián)的要插入所述至少一個字符的位置;以及使用處理器在所識別的位置處插入所述至少一個字符。
另一方面,提供了一種信息處理設(shè)備,包括:音頻捕獲設(shè)備;處理器,該處理器在操作上耦接至音頻捕獲設(shè)備;存儲設(shè)備,該存儲設(shè)備存儲有指令,所述指令能夠由處理器執(zhí)行以:從音頻捕獲設(shè)備接收語音輸入;使用處理器將語音輸入轉(zhuǎn)換成機器文本;從替代的輸入源接收包括至少一個字符的輸入;識別與機器文本關(guān)聯(lián)的要插入所述至少一個字符的位置;以及在所識別的位置處插入所述至少一個字符。
又一方面,提供了一種產(chǎn)品,包括:存儲設(shè)備,該存儲設(shè)備存儲有能夠由處理器執(zhí)行的代碼,所述代碼包括:用于從音頻捕獲設(shè)備接收語音輸入的代碼;用于將語音輸入轉(zhuǎn)換成機器文本的代碼;用于從替代的輸入源接收包括至少一個字符的輸入的代碼;用于使用處理器識別與機器文本關(guān)聯(lián)的要插入所述至少一個字符的位置的代碼;用于使用處理器在所識別的位置處插入所述至少一個字符的代碼。
前述是總結(jié)性的并且因此可能包含細(xì)節(jié)的簡化、概括及省略;因此,本技術(shù)領(lǐng)域的普通技術(shù)人員要理解,該總結(jié)僅是說明性的并且不意在以任何方式的限制。
為了更好地理解實施方式連同實施方式的其他的和進(jìn)一步的特征和優(yōu)點,參考以下結(jié)合附圖的描述。本發(fā)明的范圍將在所附權(quán)利要求中指出。
附圖說明
圖1示出了信息處理設(shè)備線路的示例。
圖2示出了信息處理設(shè)備線路的另一示例。
圖3示出了在語音識別中插入字符的示例方法。
圖4A至圖4B示出了在語音識別中插入字符的示例。
具體實施方式
將容易理解的是,可以用除所描述的示例實施方式之外的多種不同的配置來布置和設(shè)計如本文附圖中大體描述并示出的實施方式的部件。從而,如在附圖中示出的示例實施方式的以下更詳細(xì)的描述,不意在限制所要求保護(hù)的實施方式的范圍,而只是示例實施方式的代表。
本說明書全文中,對“一個(one)實施方式”或“一種(an)實施方式”(等)的引用意味著結(jié)合實施方式所描述的特定特征、結(jié)構(gòu)或特性包含在至少一個實施方式中。因此,在本說明書全文的各處所出現(xiàn)的短語“在一個實施方式中”或“在一種實施方式中”等未必都指同一實施方式。
而且,在一個或更多個實施方式中,所描述的特征、結(jié)構(gòu)或特性可以以任何適當(dāng)?shù)姆绞竭M(jìn)行組合。在下面的描述中,提供了許多具體的細(xì)節(jié)以給出對實施方式的透徹的理解。然而,相關(guān)領(lǐng)域的技術(shù)人員將認(rèn)識到,可以在沒有一個或多個具體細(xì)節(jié)的情況下實施各種實施方式,或者可以使用其他的方法、部件、材料等來實施各種實施方式。在其他示例中,不再詳細(xì)地示出或描述公知的結(jié)構(gòu)、材料或操作以避免混淆。
語音轉(zhuǎn)文本技術(shù)已經(jīng)變成向信息處理設(shè)備提供輸入的日益流行的方式。該技術(shù)已經(jīng)變得更精確,因此,與傳統(tǒng)方法例如使用觸摸鍵盤、常規(guī)的鍵盤、小鍵盤、鼠標(biāo)等相比,一些用戶更喜歡提供語音輸入,甚至在用戶有能力提供手動輸入的情況下,一些用戶也更喜歡提供語音輸入。由于用戶越來越多地使用該技術(shù)而不是使用短信來提供文本的較長的主體,則用戶會期望準(zhǔn)確地給文本的主體加標(biāo)點。當(dāng)前語音轉(zhuǎn)文本技術(shù)的問題是通常要通過語音命令來輸入標(biāo)點或其他不是字母的字符。換言之,用戶必須說與期望的標(biāo)點例如“感嘆號”關(guān)聯(lián)的詞語而不是僅鍵入“!”。通過命令用語插入標(biāo)點和符號是不自然的并且導(dǎo)致正常的思維過程中斷。此外,在一些情況下,語音轉(zhuǎn)文本技術(shù)可能不支持一些字符例如表情符的輸入。
當(dāng)前采用的解決方案依賴于基于無聲狀態(tài)來預(yù)測標(biāo)點的軟件算法。換言之,如果用戶在提供語音輸入時停頓,則該技術(shù)可以將無聲狀態(tài)識別為逗號或句號。這種解決方案的問題是該方法可能是不準(zhǔn)確的。例如,如果用戶已經(jīng)開始思考,但是然后停頓以進(jìn)一步思考,則該技術(shù)可能將這種情況解釋為句號的位置,但是句子可能沒有完成。在試圖解決標(biāo)點的不準(zhǔn)確的放置時,一些語音轉(zhuǎn)文本技術(shù)使用上下文以幫助消除該問題,但是這再一次趨于不準(zhǔn)確。此外,由軟件選擇的標(biāo)點可能不是用戶期望的標(biāo)點。例如,用戶可能期望感嘆號,但是軟件可能反而使用句號。
另一解決方案是使得用戶能夠使用傳統(tǒng)型輸入方法例如鍵盤、觸摸鍵盤、數(shù)字鍵盤、鼠標(biāo)等,結(jié)合語音轉(zhuǎn)文本輸入來提供輸入。然而,雖然當(dāng)前方法確實允許用戶提供手動輸入,但是僅可以在已經(jīng)顯示文本之后提供輸入。換言之,因為語音轉(zhuǎn)文本技術(shù)在用戶講話與文本顯現(xiàn)之間具有延遲時間,則為了使用手動方法提供標(biāo)點,用戶必須等待文本完成顯現(xiàn)。這使用戶必須等待以及打斷了一連串的思路,這會變得非常令人失望。
這些技術(shù)問題給用戶帶來了以下難題:使用傳統(tǒng)的語音轉(zhuǎn)文本識別軟件可能難以準(zhǔn)確地給文本的主體加標(biāo)點。常規(guī)的語音轉(zhuǎn)文本識別軟件要求用戶提供與期望的標(biāo)點或符號對應(yīng)的言語標(biāo)點或符號聽寫(dictation)?;跓o聲狀態(tài)和詞語上下文來預(yù)測標(biāo)點的軟件算法不總是精確的。此外,對于現(xiàn)有的語音轉(zhuǎn)文本技術(shù),提供字符例如符號、數(shù)字、表情符等而不是字母即使不是不可能也是很困難的。用于使得用戶能夠提供關(guān)于符號的傳統(tǒng)輸入的現(xiàn)有方法要求用戶等待直到語音轉(zhuǎn)文本技術(shù)已經(jīng)完成對語音的處理為止。這些方法中斷了用戶的思路并且是不方便的。
因此,一種實施方式提供了一種使得用戶能夠在提供語音輸入時提供包括至少一個字符的手動輸入的方法。一個實施方式接收語音輸入以及開始將語音輸入轉(zhuǎn)換成機器文本。當(dāng)一種實施方式從替代的輸入源接收包括至少一個字符的輸入時,可以識別機器文本內(nèi)所述至少一個字符的位置。在一個實施方式中,可以在接收語音輸入時接收包括至少一個字符的輸入。可替選地或者另外地,可以在一種實施方式將語音轉(zhuǎn)換成機器文本時接收包括至少一個字符的輸入。
當(dāng)接收所述至少一個字符時,一種實施方式可以另外地接收與所述至少一個字符關(guān)聯(lián)的時間戳。在識別用于插入所述至少一個字符的位置時,一種實施方式可以使用與字符關(guān)聯(lián)的時間戳,并且識別語音輸入內(nèi)對應(yīng)的時間戳。除了時間戳之外,一個實施方式可以使用上下文來確定所述至少一個字符的最佳位置。例如,如果接收到第二輸入的時間戳和與語音輸入關(guān)聯(lián)的時間戳不匹配,則一種實施方式可以使用另外的信息來確定所述至少一個字符的最佳位置。然后,一種實施方式可以在所識別的位置處插入所述至少一個字符。除了字符的放置之外,一種實施方式可以提供對字符已經(jīng)位于機器文本內(nèi)何處的指示。換言之,一種實施方式可以使得用戶能夠在該實施方式將語音轉(zhuǎn)換成文本時提供手動輸入,而不是要求用戶等待直到系統(tǒng)已經(jīng)完成語音輸入的處理為止。
通過參考附圖可以最好地理解所示出的示例實施方式。下面的描述僅意在作為示例,并且簡要示出了某些示例實施方式。
雖然在信息處理設(shè)備中可以利用各種其他電路、線路或部件,但是對于智能電話和/或平板電腦線路100來說,圖1中示出的示例包括例如在平板電腦或其他移動計算平臺中發(fā)現(xiàn)的片上系統(tǒng)設(shè)計。軟件和(一個或多個)處理器被組合在單芯片110中。處理器包括現(xiàn)有技術(shù)中眾所周知的內(nèi)部運算單元、寄存器、緩存內(nèi)存、總線、I/O端口等。內(nèi)部總線等取決于不同的供應(yīng)商,但基本上所有外圍設(shè)備(120)可以附接至單芯片110。線路100將處理器、存儲器控制器以及I/O控制器集線器全部組合到單芯片110中。并且,這種類型的系統(tǒng)100通常不使用SATA或PCI或LPC。公共接口例如包括SDIO和I2C。
存在有(一個或多個)電力管理芯片130,例如電池管理單元BMU,該電池管理單元BMU管理例如經(jīng)由可再充電電池140供給的電力,可再充電電池140可以通過連接到電源(未示出)來被充電。在至少一個設(shè)計中,單芯片如110用于提供類似BIOS的功能和DRAM存儲器。
系統(tǒng)100通常包括用于連接到各種網(wǎng)絡(luò)(例如電信網(wǎng)絡(luò)設(shè)備和無線因特網(wǎng)設(shè)備,如接入點)的WWAN收發(fā)器150和WLAN收發(fā)器160中的一個或多個。此外,設(shè)備120通常包括例如音頻輸入設(shè)備如麥克風(fēng)、圖像傳感器如攝像頭,等等。系統(tǒng)100通常包括用于數(shù)據(jù)輸入和顯示/呈現(xiàn)的觸摸屏170。系統(tǒng)100通常還包括各種存儲器設(shè)備,例如閃存存儲器180和SDRAM 190。
圖2描繪了信息處理設(shè)備電路、線路或部件的另一示例的框圖。圖2中描繪的示例可以對應(yīng)于計算系統(tǒng),例如由位于北卡羅來納州莫里斯維爾的聯(lián)想(美國)公司銷售的THINKPAD系列個人電腦或其他設(shè)備。根據(jù)此處的描述明顯的是,實施方式可以包括圖2中示出的示例的特征中的僅一些特征或其他特征。
圖2的示例包括所謂的芯片組210(一組一起工作的集成電路或芯片、芯片組),芯片組210具有可以取決于制造商(例如INTEL、AMD、ARM等)而變化的架構(gòu)。INTEL是英特爾公司在美國和其他國家的注冊商標(biāo)。AMD是超微半導(dǎo)體公司在美國和其他國家的注冊商標(biāo)。ARM是安謀公司(ARM Holdings plc)在美國和其他國家的注冊商標(biāo)。芯片組210的架構(gòu)包括核和存儲器控制組220以及I/O控制器集線器250,I/O控制器集線器250經(jīng)由直接管理接口(DMI)242或鏈路控制器244交換信息(例如數(shù)據(jù)、信號、命令等)。在圖2中,DMI 242是芯片到芯片的接口(有時也被稱為是“北橋”和“南橋”之間的鏈路)。核和存儲器控制組220包括經(jīng)由前端總線(FSB)224交換信息的一個或更多個處理器222(例如單核或多核)和存儲器控制器集線器226;注意,組220的部件可以被集成在代替?zhèn)鹘y(tǒng)的“北橋”式架構(gòu)的芯片中。一個或更多個處理器222包括現(xiàn)有技術(shù)中眾所周知的內(nèi)部運算單元、寄存器、緩存內(nèi)存、總線、I/O端口等。
在圖2中,存儲器控制器集線器226與存儲器240對接(例如,為可以被稱為“系統(tǒng)存儲器”或“存儲器”的一類RAM提供支持)。存儲器控制器集線器226還包括用于顯示設(shè)備292(例如CRT、平板、觸摸屏等)的低壓差分信號(LVDS)接口232。塊238包括可以經(jīng)由LVDS接口232來支持的一些技術(shù)(例如,串行數(shù)字視頻、HDMI/DVI(高清晰度多媒體接口/數(shù)字視頻接口)、顯示端口)。存儲器控制器集線器226還包括可以支持獨立顯卡236的PCI-express接口(PCI-E)234。
在圖2中,I/O集線器控制器250包括SATA接口251(例如,用于HDD(硬盤驅(qū)動器)、SDD(固態(tài)硬盤)280等)、PCI-E接口252(例如,用于無線連接282)、USB接口253(例如用于設(shè)備284如數(shù)字轉(zhuǎn)換器、鍵盤、鼠標(biāo)、攝像頭、電話、麥克風(fēng)、存儲器、其他連接設(shè)備等)、網(wǎng)絡(luò)接口254(例如LAN)、GPIO(通用輸入輸出)接口255、LPC接口270(用于ASIC(專用集成電路)271、TPM(可信平臺模塊)272、超級I/O 273、固件集線器274、BIOS支持275以及各種類型的存儲器276如ROM(只讀存儲器)277、閃存278和NVRAM(非易失性隨機存儲器)279)、電力管理接口261、時鐘發(fā)生器接口262、音頻接口263(例如,用于揚聲器294)、TCO接口264、系統(tǒng)管理總線接口265以及可以包括BIOS 268和啟動代碼290的SPI閃存266。I/O集線器控制器250可以包括千兆以太網(wǎng)支持。
系統(tǒng)在通電時可以被配置成執(zhí)行在SPI閃存266內(nèi)存儲的、用于BIOS 268的啟動代碼290,此后,在一個或多個操作系統(tǒng)和應(yīng)用程序軟件(例如,存儲在系統(tǒng)存儲器240中)的控制下處理數(shù)據(jù)。操作系統(tǒng)可以存儲在多種位置中的任何位置處,并且可以例如根據(jù)BIOS 268的指令來訪問。如本文所述,設(shè)備可以包括比在圖2的系統(tǒng)中示出的特征更少或者更多的特征。
信息處理設(shè)備線路,如在圖1中或圖2中所描畫的示例,通??梢詰?yīng)用于例如平板電腦、智能電話、個人計算機設(shè)備等的設(shè)備中,和/或可以應(yīng)用于可用來處理語音輸入的電子設(shè)備中。例如,圖1中所描畫的線路可以在平板電腦或智能電話實施方式中實現(xiàn),然而,圖2中所描畫的線路可以在個人計算機實施方式中實現(xiàn)。
現(xiàn)在參照圖3,在301處,一種實施方式可以從音頻捕獲設(shè)備(例如,麥克風(fēng)等)接收語音輸入。例如,用戶可以提供用于聽寫的語音輸入或者提供語音輸入作為至設(shè)備的命令。為了接收語音輸入,設(shè)備可能在運行語音轉(zhuǎn)文本應(yīng)用。作為示例,用戶可能已經(jīng)選擇了向設(shè)備指示用戶正在提供待由裝置聽寫的語音輸入的按鈕。使用語音轉(zhuǎn)文本技術(shù)或軟件,一種實施方式可以在302處使用處理器開始將語音輸入轉(zhuǎn)換成機器文本??梢允褂矛F(xiàn)有技術(shù)中已知的語音轉(zhuǎn)文本技術(shù)或軟件來完成轉(zhuǎn)換。
在303處,一種實施方式可以從替代的輸入源(例如,常規(guī)鍵盤、觸摸鍵盤、數(shù)字鍵盤、鼠標(biāo)等)接收包括至少一個字符的輸入。所述至少一個字符可以包括:字母、表情符、數(shù)字、符號、標(biāo)點等。如果用戶在運行語音轉(zhuǎn)文本應(yīng)用,則可以在該應(yīng)用仍活動時提供字符。換言之,常規(guī)的語音轉(zhuǎn)文本應(yīng)用和軟件包要求用戶停止應(yīng)用以使用不同的方法來提供輸入。該一種實施方式不是要求用戶停止應(yīng)用,而是可以在應(yīng)用或軟件保持活動時納入所提供的手動輸入。
可以在用戶提供語音輸入時接收輸入。例如,用戶可以說“你好嗎”,然后在觸摸屏輸入處寫下“?”,然后繼續(xù)提供語音輸入。換言之,當(dāng)提供語音輸入時,用戶可以在觸摸屏輸入?yún)^(qū)域?qū)懴隆?,”,而不是像語音轉(zhuǎn)文本技術(shù)可能需要的那樣提供標(biāo)點聽寫(例如,說“逗號”)??商孢x地或另外地,可以在語音轉(zhuǎn)文本技術(shù)將語音輸入轉(zhuǎn)換成機器文本時提供輸入。例如,當(dāng)語音轉(zhuǎn)文本技術(shù)轉(zhuǎn)換文本時,用戶可能已經(jīng)講了“嗨我的名字是Jane”,用戶可能決定其想要在“嗨”之后加逗號。在語音被轉(zhuǎn)換的同時,用戶可以通過傳統(tǒng)鍵盤提供“,”。
當(dāng)接收語音輸入,將語音轉(zhuǎn)換成機器文本,以及接收字符輸入時,一種實施方式可以另外地接收時間戳,或者將時間戳與數(shù)據(jù)關(guān)聯(lián)起來。例如,當(dāng)用戶提供語音輸入時,一種實施方式可以識別與詞語中的每個詞語或所提供的語音輸入中的每個語音輸入相關(guān)聯(lián)的時間戳??梢栽谠O(shè)備上本地地創(chuàng)建、識別和/或存儲時間戳??商孢x地,可以例如在云存儲設(shè)備上遠(yuǎn)程地創(chuàng)建、識別、和/或存儲時間戳。
在304處,一種實施方式可以識別與機器文本關(guān)聯(lián)的要插入所述至少一個字符的位置。在一個實施方式中,可以使用與所提供的輸入相關(guān)聯(lián)的時間戳來識別所述位置。作為示例,參照圖4A,用戶可以提供語音輸入401,語音輸入401陳述“今天是星期五,我以為今天只是星期四”。在說了“星期五”之后,用戶可以提供手動輸入402“?”,以及在說了“星期四”之后,用戶可以提供手動輸入402“?。?!”。手動輸入402“?”可以與第一時間戳403關(guān)聯(lián),第一時間戳403對應(yīng)于語音輸入401中的第一時間戳403,語音輸入401中的第一時間戳403在所講的話“星期五”之后。手動輸入402“?。?!”可以與第二時間戳404關(guān)聯(lián),第二時間戳404對應(yīng)于語音輸入401中的第二時間戳404,語音輸入401中的第二時間戳404在所講的話“星期四”之后。
當(dāng)使用用于位置識別的時間戳?xí)r,應(yīng)當(dāng)從相同位置獲得針對每次輸入或每次轉(zhuǎn)換的時間戳,以確保時間戳在輸入之間是一致的。例如,如果從本地存儲位置接收與字符輸入關(guān)聯(lián)的時間戳,則也應(yīng)當(dāng)從相同的本地存儲位置接收與語音輸入關(guān)聯(lián)的時間戳。然而,如果本地存儲位置和遠(yuǎn)程存儲位置已經(jīng)同步了時間戳,則可以從多個位置得到時間戳。
一個實施方式可以使用語音輸入和/或手動輸入的另外的特征來識別位置。作為示例,一個實施方式可以使用與語音輸入關(guān)聯(lián)的上下文特征來識別用于插入字符的位置。上下文特征的這種使用可以與使用基于上下文的語音轉(zhuǎn)文本技術(shù)確定標(biāo)點的當(dāng)前方法類似。例如,如果用戶提供沒有準(zhǔn)確地與語音輸入內(nèi)的時間戳對應(yīng)的手動輸入(例如,用戶在插入的準(zhǔn)確位置之前一些或之后一些提供手動輸入),則一種實施方式可以使用另外的方法來識別插入字符的準(zhǔn)確位置。如果另外的特征引起彼此之間的沖突,則一種實施方式可以默認(rèn)僅使用時間戳來識別插入的位置。
如果該技術(shù)已經(jīng)將語音轉(zhuǎn)換成機器輸入,則用戶仍然能夠提供用于字符插入的輸入。例如,如果一種實施方式已經(jīng)將“你要來”轉(zhuǎn)換成機器文本,但是用戶想要添加問號,則用戶可以使用手動方法選擇詞語“來”以及提供“?”輸入。選擇不一定意味著用戶選擇整個詞語,而是可以包括用戶將光標(biāo)移動至期望的插入位置。在選擇詞語中,用戶不必選擇整個詞語,用戶也不需要將光標(biāo)移動至插入的準(zhǔn)確地點。例如,用戶不必將光標(biāo)置于“來”的末尾,而是用戶可以只觸摸詞語“來”,以及一種實施方式可以確定插入的最合乎邏輯的位置是在詞語的末尾而不是在詞語的中間。
可以在用戶已經(jīng)停止提供語音輸入之后提供輸入,或者可以在用戶繼續(xù)提供語音輸入時提供輸入。例如,用戶可以說“你要來”,以及在選擇詞語“來”并且提供“?”輸入時繼續(xù)講話。換言之,用戶不必停止語音轉(zhuǎn)文本應(yīng)用來提供另外的輸入。這還可以用來校正不適當(dāng)?shù)慕?jīng)轉(zhuǎn)換的語音輸入。例如,用戶可能用“?!?”來結(jié)束句子,但是系統(tǒng)僅提供了“?”。用戶可以選擇“?”,并且提供另外的輸入來修改機器文本。
如果一種實施方式在304處不能識別插入字符的位置,則這種方式可以在306處不采取動作??商孢x地,一種實施方式可以向用戶通知不能識別位置,以及使得用戶能夠提供用于插入字符的正確的位置。如果一種實施方式不能準(zhǔn)確地確定用戶已經(jīng)提供的字符,則也可以不采取動作或向用戶通知不能識別位置。例如,如果一種實施方式不能確定用戶是否提供了“;”或笑臉表情符號,則這種實施方式可以在306處不采取動作,或者可以向用戶提示另外的輸入。
然而,如果一種實施方式在304處可以識別位置,則這種實施方式可以在305處在所識別的位置處插入至少一個字符。例如,參照圖4B,在如結(jié)合圖4A中說明的識別手動輸入的位置之后,一種實施方式可以將字符插入機器文本中以及產(chǎn)生如在圖4B中所示的輸出。當(dāng)使用觸摸輸入時,在一種實施方式已經(jīng)將字符插入到機器文本中之后,由用戶提供的書寫字符可以被從觸摸表面和/或觸摸顯示裝置移除。
一種實施方式可以另外地向用戶提供已經(jīng)插入字符的通知。例如,一種實施方式可以突出字符,改變字符的顏色,把字符圈起來,或者提供所插入字符的指示。一種實施方式可以另外地使得用戶能夠確認(rèn)字符的位置。當(dāng)沒有接收到關(guān)于字符的位置的用戶輸入時,一種實施方式可以維持字符的位置??商孢x地,一種實施方式可以移除字符插入??梢栽谙到y(tǒng)內(nèi)默認(rèn)地設(shè)置該動作(即,字符位置是否被維持或被移除),以及可以由用戶提供該動作。
因此,本文中描述的各種實施方式表示對常規(guī)的語音轉(zhuǎn)文本技術(shù)的技術(shù)改進(jìn)。使用本文中描述的技術(shù),用戶可以在語音輸入的同時提供手動輸入,或者可以在系統(tǒng)將語音輸入轉(zhuǎn)換成機器文本時提供手動輸入。因此,使用本文中描述的方法和系統(tǒng),用戶可以在使用語音轉(zhuǎn)文本技術(shù)時提供更自然并且更少引起混亂的、具有符號、表情符、標(biāo)點、數(shù)字、字母以及其他字符的增強語音輸入。
本領(lǐng)域的普通技術(shù)人員將理解的是,本發(fā)明的各個方面可以實施為系統(tǒng)、方法或設(shè)備程序產(chǎn)品。因此,本發(fā)明的各個方面可以采用完全硬件實施方式的形式或采用包括軟件的實施方式的形式,這些形式在本文中可以全部統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。而且,本發(fā)明的各個方面可以采用包含在一個或多個設(shè)備可讀介質(zhì)中的設(shè)備程序產(chǎn)品的形式,該一個或多個設(shè)備可讀介質(zhì)包含有設(shè)備可讀程序代碼。
應(yīng)當(dāng)注意的是,本文中所描述的各種功能可以使用由處理器執(zhí)行的存儲在設(shè)備可讀存儲介質(zhì)(例如非信號存儲設(shè)備)上的指令來實現(xiàn)。存儲設(shè)備可以是例如電子的、磁的、光學(xué)的、電磁的、紅外線的或半導(dǎo)體的系統(tǒng)、裝置或設(shè)備,或前述的任何適當(dāng)?shù)慕M合。存儲介質(zhì)的更多的具體示例包括如下:便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM或閃存存儲器)、光纖、便攜式壓縮盤只讀存儲器(CD-ROM)、光學(xué)存儲設(shè)備、磁存儲設(shè)備,或前述的任何適當(dāng)?shù)慕M合。在本文檔的上下文中,存儲介質(zhì)不是信號,并且“非暫時的”包括除信號介質(zhì)之外的全部介質(zhì)。
可以使用任何適當(dāng)?shù)慕橘|(zhì),包括但不限于無線、有線、光纜、RF等或前述的任何適當(dāng)?shù)慕M合,來傳輸在存儲介質(zhì)上所包含的程序代碼。
可以以一種或多種編程語言的任何組合來編寫用于執(zhí)行操作的程序代碼。程序代碼可以完全在單個設(shè)備上執(zhí)行、部分地在單個設(shè)備上執(zhí)行、作為獨立軟件包部分地在一個設(shè)備上且部分地在另一設(shè)備上執(zhí)行或完全在其他設(shè)備上執(zhí)行。在一些情況下,可以通過任何類型的連接或網(wǎng)絡(luò)(包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN))來連接設(shè)備,或可以通過其他設(shè)備(例如通過使用因特網(wǎng)服務(wù)提供商的因特網(wǎng))、通過無線連接例如近場通信或通過硬線連接(例如通過USB連接)來進(jìn)行連接。
本文參考示出了根據(jù)各種示例實施方式的示例方法、設(shè)備和程序產(chǎn)品的附圖來描述示例實施方式。要理解的是,動作和功能可以至少部分地由程序指令來實現(xiàn)??梢詫⑦@些程序指令提供給設(shè)備的處理器、專用信息處理設(shè)備的處理器或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生機器,使得經(jīng)由設(shè)備的處理器執(zhí)行的指令實現(xiàn)指定的功能/動作。
值得注意的是,雖然在附圖中使用了特定的塊,并且已經(jīng)示出了塊的特定順序,但這些都是非限制性的示例。由于明確說明的示例僅用于描述的目的,而不應(yīng)被視為限制,所以在某些情況下,可以組合兩個或更多個塊,可以將塊分成兩個或更多個塊,或者可以按需要將某些塊重新排序或重新組織。
如本文所用的那樣,除非另行清楚地指明,否則單數(shù)“一個(a)”和“一個(an)”可以被解釋為包括復(fù)數(shù)“一個或多個”。
給出本公開內(nèi)容是為了說明和描述的目的,而非意在是窮舉或限制。對本領(lǐng)域普通技術(shù)人員來說,許多修改和變化是明顯的。為了說明原理和實際應(yīng)用以及使得本領(lǐng)域其他技術(shù)人員能夠理解具有適于預(yù)期的特定用途的各種修改的各種實施方式的公開內(nèi)容,選擇并描述了示例實施方式。
因此,盡管本文參考附圖已經(jīng)描述了說明性的示例實施方式,但要理解的是,這種描述不是限制性的,并且在不偏離本公開內(nèi)容的范圍或精神的情況下本領(lǐng)域技術(shù)人員可以作出各種其他變化和修改。