背景技術(shù):
聲學(xué)相機(jī)是可以用來再現(xiàn)場景中的聲音能量的視覺表示的設(shè)備。該可視化的結(jié)果有時被稱為聲學(xué)圖像或聲學(xué)映射。與由標(biāo)準(zhǔn)相機(jī)產(chǎn)生的圖像類似,聲學(xué)圖像是2-d像素網(wǎng)格。但是,與其中像素對應(yīng)于場景內(nèi)的光形態(tài)的基于光的圖像不同,聲學(xué)圖像中的像素對應(yīng)于在場景內(nèi)發(fā)出的聲音的強(qiáng)度。在一些情況下,可以利用結(jié)合1-d麥克風(fēng)陣列的信號處理技術(shù),其中輸出圖像的每個像素表示如在由1-d陣列麥克風(fēng)的每個空間點處捕捉的來自獨特到達(dá)角的聲音強(qiáng)度。一個這樣的示例技術(shù)是波束賦形,也被稱為空間濾波。波束賦形包括使每個麥克風(fēng)信號相對延遲并且添加它們。因此,來自特定方向的信號被放大(例如,同相),而來自其他方向(角度)的信號被減弱或以其他方式減輕。所得到的信號的強(qiáng)度然后可以被計算和映射,使得與到達(dá)角(或方向)對應(yīng)的像素反映信號的功率。
附圖說明
圖1圖示了依照本公開的實施例的聲學(xué)監(jiān)視系統(tǒng)的框圖。
圖2圖示了依照本公開的實施例的具有空間對準(zhǔn)的圖像傳感器的示例2-d麥克風(fēng)陣列。
圖3圖示了依照本公開的實施例的用于利用聲學(xué)成像和計算機(jī)處理及分析的場景分析的示例方法。
圖4圖示了依照本公開的實施例的用于圖3的示例方法的示例過程流程,包括多個模塊被配置成對所觀察的場景內(nèi)的事件進(jìn)行檢測和分類。
圖5a-5c描繪了依照本公開的一些實施例的在通過圖4的示例過程流程執(zhí)行場景分析時生成的各種中間的和得到的聲學(xué)圖像。
圖6圖示了依照本公開的實施例配置的分布式聲學(xué)監(jiān)視系統(tǒng)。
圖7圖示了依照本公開的示例實施例的利用在本文中公開的場景分析技術(shù)配置的計算機(jī)系統(tǒng)。
圖8示出了依照本公開的實施例配置的移動計算系統(tǒng)。
將通過閱讀與在本文中描述的圖一起采取的以下詳細(xì)描述來更好地理解目前實施例的這些和其他特征。不意圖附圖按比例繪制。在圖中,通過同樣的數(shù)字來表示在各種圖中圖示的每個相同或幾乎相同的部件。為了清楚的目的,可能沒有在每個圖中標(biāo)注每個部件。
具體實施方式
公開了用于場景分析的技術(shù),其包括使用聲學(xué)成像和計算機(jī)音頻視覺(cav)過程用于視覺監(jiān)視和檢驗應(yīng)用。特別地,依照本公開的實施例配置的監(jiān)視系統(tǒng)包括與cav臺(stage)可操作地耦合的聲學(xué)相機(jī)。使用聲學(xué)相機(jī)來登記聲音變化,其在本文中被稱為聲音事件,發(fā)生在所觀察的場景內(nèi),并且cv-臺被配置成對導(dǎo)致那些聲音事件的一個或多個狀況(原因)進(jìn)行分析和智能分類。聲音變化可以包括例如引入聲音(例如,安靜→聲音,或者聲音1→聲音1+聲音2)、現(xiàn)有的聲音改變(例如,聲音變更大或更柔和)、第一聲音改變到第二聲音(例如,聲音1→聲音2)、移除聲音(例如,聲音→安靜,或者聲音1+聲音2→聲音1)的情況,以及與當(dāng)前聲音域中的改變相關(guān)聯(lián)的任何其他事件。在任何這樣的情況下,cav-增強(qiáng)的聲學(xué)監(jiān)視系統(tǒng)可以用來將聲音事件與在所觀察的場景中標(biāo)識的對象相關(guān)聯(lián),并且利用該關(guān)聯(lián)將導(dǎo)致那些事件的一個或多個原因或狀況聯(lián)系起來。該技術(shù)基于如下認(rèn)識:在某些環(huán)境中諸如在工業(yè)裝備的狀況監(jiān)視期間定位和標(biāo)識聲音的源是有益的。例如,針對工業(yè)裝備而監(jiān)視進(jìn)行的聲學(xué)事件使得該機(jī)器的操作模式能夠被更好地理解,使得與正常的或否則預(yù)期的操作的偏離可以用來標(biāo)識例如發(fā)生的故障或者用于預(yù)防性維護(hù)的機(jī)會,視具體情況而定。在一些實施例中,控制器被配置成接收場景數(shù)據(jù),場景數(shù)據(jù)包括圖像幀、聲學(xué)圖像幀和多個經(jīng)空間濾波的音頻樣本。控制器可以在觀察到場景時實時地或接近實時地接收該場景數(shù)據(jù),或者可以處理先前捕捉的場景數(shù)據(jù)。在任何這樣的情況下,控制器包括事件識別模式,其被配置成(例如,通過聲學(xué)圖像)檢測指示聲音事件的在場景的空間譜中的變化,并且將與每個事件相關(guān)的聲學(xué)圖像和圖像像素的區(qū)域隔離。這些相關(guān)的區(qū)域還可以包括每個事件的音頻內(nèi)容,其中音頻內(nèi)容起因于空間濾波,使得僅導(dǎo)致事件的那些聲音信號在音頻內(nèi)容中最突出或以其他方式清楚地可聽。為此,并且依據(jù)實施例,在監(jiān)視系統(tǒng)的視場(fov)中的每個事件可以經(jīng)由數(shù)據(jù)融合來量化,其中多維事件簽名(signature)有效地起因于光圖像數(shù)據(jù)、聲學(xué)圖像數(shù)據(jù)和音頻數(shù)據(jù)的融合。在實施例中,可以(例如,利用聲學(xué)和圖像簽名技術(shù))將這些事件簽名或事件“指印”與先前分類的或以其他方式先驗地導(dǎo)出的其他這樣的事件簽名進(jìn)行比較,以對導(dǎo)致事件的可能狀況進(jìn)行分類。如將根據(jù)本公開領(lǐng)會的,這樣的系統(tǒng)可以使能夠?qū)崿F(xiàn)在復(fù)雜的聲音環(huán)境、特別是以噪聲和其他干擾的存在為特征的那些環(huán)境中的準(zhǔn)確的場景分析和狀況監(jiān)視。如將進(jìn)一步領(lǐng)會的,該技術(shù)可以在能夠捕捉聲音和圖像數(shù)據(jù)或否則接收所捕捉的聲音和圖像數(shù)據(jù)的各種電子設(shè)備中實現(xiàn),所述各種電子設(shè)備包括例如智能電話、可穿戴計算機(jī)、膝上型計算機(jī)、平板計算機(jī)、片上系統(tǒng)配置或可以用于場景監(jiān)視和分析的其他電子設(shè)備。如將進(jìn)一步領(lǐng)會的,示例實施例可以以硬件、軟件、固件或其任何組合來實現(xiàn)。
一般概述
如先前討論的,諸如在工業(yè)環(huán)境中定位和標(biāo)識聲音的源可能是有益的。例如,機(jī)器的操作模式中的改變常常伴隨著獨特的可聽改變、視覺改變或二者的組合,其中如果被適當(dāng)?shù)貥?biāo)識,則每個這樣的改變指示可執(zhí)行信息。一個這樣的具體示例包括加熱、通風(fēng)和空氣調(diào)節(jié)(hvac)機(jī)器,諸如通過各種子系統(tǒng)和其相關(guān)聯(lián)的循環(huán)(例如,冷卻階段、居留階段、加熱階段等)發(fā)出不同的聲音的冷卻裝置。這樣的聲音可以指示正常狀態(tài)和異常狀態(tài)二者。常常,這樣的分析全部或部分地留給人類來聽、識別和作出反應(yīng)。然而,對未經(jīng)訓(xùn)練的/無經(jīng)驗的耳朵而言聽起來“正?!钡氖挛锟赡軐<业亩涠月犉饋怼爱惓!?。不幸地,獲得這樣的專家知識是昂貴的,并且這樣的專家知識是要求時間、投資和訓(xùn)練的技能組。另外,許多生產(chǎn)環(huán)境是特別嘈雜的地方,使得難以精確定位聲音的源和清楚地聽該聲音,即使人們被以該方式訓(xùn)練?,F(xiàn)今在市場上存在利用聲學(xué)影像來幫助彌補這些問題的監(jiān)視系統(tǒng)。然而,這些解決方案涉及由技術(shù)人員進(jìn)行的手動交互和解釋。另外,這些解決方案中的一些是受限的,因為多個同時的聲音,是真實世界環(huán)境的典型特征,可能重疊并且防止或以其他方式復(fù)雜化準(zhǔn)確的場景分析。出于該原因,現(xiàn)有的解決方案通常完全忽略聲音或者認(rèn)為其是次要方面。
因此,并且依照本公開的實施例,公開了使能夠?qū)崿F(xiàn)準(zhǔn)確的場景分析以用于復(fù)雜的聲音環(huán)境中的狀況監(jiān)視的技術(shù)。特別地,可以使用聲學(xué)監(jiān)視系統(tǒng)來檢測指示環(huán)境中的事件的在聲場中的改變,并且隔離每個事件以對導(dǎo)致其的原因或狀況進(jìn)行分類。一些這樣的示例環(huán)境包括工業(yè)環(huán)境和非工業(yè)環(huán)境二者,僅舉幾例,其包括例如城市環(huán)境、軍事環(huán)境、家庭環(huán)境和災(zāi)難地帶。在任何這樣的情況下,聲學(xué)監(jiān)視系統(tǒng)可以是在電子設(shè)備中實現(xiàn)的或以其他方式整合在電子設(shè)備內(nèi)的硬件和軟件的組合,所述電子設(shè)備包括例如移動電子設(shè)備(例如,膝上型計算機(jī)、智能電話、可穿戴計算機(jī))、固定位置系統(tǒng)(例如,臺式計算系統(tǒng)、計算機(jī)輔助的cctv或相機(jī)監(jiān)控系統(tǒng)、經(jīng)由通信網(wǎng)絡(luò)可操作地耦合的分布式計算系統(tǒng))或其他基于計算機(jī)的設(shè)備和系統(tǒng)。注意,這些技術(shù)不限于實時場景分析,因為它們可以用來分析先前捕捉的場景數(shù)據(jù)以執(zhí)行回顧性事件監(jiān)測和分類。另外,這樣的回顧性分析可以包括更新事件分類模型和/或配置改變(例如,閾值和檢測靈敏度)以增加總體的分析準(zhǔn)確性。此外,可以相對于被監(jiān)視的區(qū)域本地或遠(yuǎn)程地執(zhí)行分析。
一個具體示例實施例可以被至少部分地在計算設(shè)備內(nèi)實現(xiàn),以提供向用戶警告機(jī)器內(nèi)的潛在故障狀況的聲學(xué)監(jiān)視系統(tǒng)或以其他方式監(jiān)視機(jī)器狀況。在一個這樣的實施例中,聲學(xué)監(jiān)視系統(tǒng)可以被配置成以連續(xù)模式(例如,始終開啟、始終捕捉)或周期性模式(例如,每隔幾秒、按時間表或以其他方式延遲)來捕捉場景的音頻和視頻。另外,聲學(xué)監(jiān)視系統(tǒng)可以被以按需模式配置,由此用戶通過選擇用戶接口選項或硬件按鈕而發(fā)起捕捉。在一些這樣的示例情況下,例如,計算設(shè)備可以包括或否則通信地耦合到麥克風(fēng)陣列(例如,2-d麥克風(fēng)陣列)和圖像傳感器以執(zhí)行對聲音和圖像數(shù)據(jù)的捕捉。另外,計算設(shè)備可以包括或否則通信地耦合到被配置成基于所捕捉的音頻而生成聲學(xué)圖像數(shù)據(jù)的聲學(xué)圖像控制器。在實施例中,所捕捉的音頻由聲學(xué)圖像控制器處理并且被變換成表示所捕捉的場景的空間譜的2-d像素網(wǎng)格。在捕捉期間,2-d聲學(xué)圖像像素網(wǎng)格可以可選地通過(例如,在計算設(shè)備的顯示器上的)用戶接口而可視化,并且在一個這樣的示例情況下,可以被描繪為疊加到目標(biāo)/所觀察的場景的一個或多個所顯示的圖像上。如將領(lǐng)會的,這樣的疊加使來自監(jiān)視系統(tǒng)的視場(fov)的音頻數(shù)據(jù)與來自監(jiān)視系統(tǒng)的fov的視覺數(shù)據(jù)有效地相關(guān)。一些這樣的示例可視化包括所謂的“熱點”或熱圖表示,其有助于將聲音強(qiáng)度可視化,并且標(biāo)識發(fā)出聲音的位置(例如,到達(dá)角)。如根據(jù)本公開將領(lǐng)會的,這些熱點可以被用到像素的每個集群(區(qū)域)是來自場景的音頻域的不同的聲音事件的程度,并且可以用來從場景的視覺域定位和隔離(例如,包含發(fā)出聲音的對象或位置的)圖像數(shù)據(jù)的對應(yīng)像素。為此,依據(jù)實施例,監(jiān)視系統(tǒng)的fov有效地允許豐富的數(shù)據(jù)集被捕捉,所述數(shù)據(jù)集包括來自音頻域和視覺域二者的分量。另外,這些熱點可以用來將經(jīng)空間濾波的聲音信號加和或否則放大所述聲音信號以生成聲學(xué)圖像數(shù)據(jù)。如根據(jù)本公開將進(jìn)一步領(lǐng)會的,隔離的/放大的聲音信號、聲學(xué)圖像數(shù)據(jù)和圖像數(shù)據(jù)(例如,光圖像)的這樣的組合可以使能夠?qū)崿F(xiàn)針對每個事件的多維事件簽名,并且可以將該簽名與其他預(yù)先存儲的事件簽名(或模型)進(jìn)行比較以對導(dǎo)致每個事件的狀況或原因進(jìn)行分類。
在實施例中,聲學(xué)監(jiān)視系統(tǒng)可以向用戶提供警報消息,所述警報消息指示一個或多個檢測到的事件中的至少一個、針對事件的一個或多個所確定的分類以及與事件相關(guān)聯(lián)的補充數(shù)據(jù)(聲音事件信息)。例如,如果聲學(xué)監(jiān)視系統(tǒng)已經(jīng)在生產(chǎn)設(shè)施中觀察到濺射機(jī),則聲學(xué)監(jiān)視系統(tǒng)可以基于登記從螺線管發(fā)出的不同聲音而檢測到螺線管出故障或否則處于異常狀態(tài)中。另外,這樣的分析可以包括(例如,使用對象識別)視覺上確認(rèn)機(jī)器是包括螺線管的類型的,從而增加聲音識別的必然性和準(zhǔn)確性。在該示例中,這樣的事件可以被分類并且用來生成警報消息。警報消息的一些這樣的示例包括文本或電子郵件消息、彈出窗口或可聽鐘聲,用戶先前將其與聲學(xué)監(jiān)視應(yīng)用相關(guān)聯(lián)(例如,一系列嗶嗶聲指示機(jī)器故障或異常狀況)。另一示例警報是警報的聽覺表示,諸如經(jīng)由實現(xiàn)聲學(xué)監(jiān)視系統(tǒng)的電子設(shè)備的揚聲器預(yù)先記錄的表達(dá):在所觀察的場景中檢測到事件并對所述事件分類(例如,濺射機(jī)1中的“螺線管正在異常地操作。報告已經(jīng)發(fā)電子郵件給你了”)。另一示例警報是通過壓電致動器或一些其他適合的元件提供的觸覺響應(yīng)(例如,設(shè)備的振動)。許多通信方案可以用來傳達(dá)警報,如將領(lǐng)會的那樣。
在實施例中,警報消息可以存在于增強(qiáng)現(xiàn)實模式中,其中警報消息疊加到所觀察的場景的(具有或不具有聲學(xué)圖像疊加的)一個或多個圖像上。另外,警告消息可以存在于在與發(fā)出聲音的機(jī)器/對象對應(yīng)的位置處的這樣的顯示的圖像內(nèi)。應(yīng)領(lǐng)會,這些技術(shù)不限于將這樣的警報消息呈現(xiàn)到現(xiàn)場(live)/所捕捉的圖像上。例如,機(jī)器的所生成的圖像(例如,3-d線框圖、剖面圖或其他表示)可以被提供對檢測到的事件的位置的指示(包括分類標(biāo)簽和其他補充數(shù)據(jù)),以便使能夠?qū)崿F(xiàn)對引起事件的狀況的增強(qiáng)的觀點。在較一般的意義上,一旦環(huán)境中的對象被標(biāo)識,就存在一定范圍的呈現(xiàn)選項,其包括真實的和生成的二者,以便將檢測到的狀況較精確地傳送給用戶。
另一具體示例實施例是分布式聲學(xué)監(jiān)視系統(tǒng),使得系統(tǒng)的不同節(jié)點包括如在本文中公開的場景數(shù)據(jù)采集和/或場景分析技術(shù)。例如,在一個具體示例情況下,如本文中提供的一個或多個聲學(xué)監(jiān)視系統(tǒng)、聲學(xué)相機(jī)和麥克風(fēng)陣列可以分布或以其他方式部署在通信網(wǎng)絡(luò)上。因此,分布式聲學(xué)監(jiān)視系統(tǒng)可以提供分布式的場景數(shù)據(jù)采集節(jié)點,其可以向中央位置或向能夠訪問來自這些(多個)節(jié)點的信息的實體提供音頻、視頻和聲學(xué)圖像數(shù)據(jù)。這樣的環(huán)境可以例如在所謂的物聯(lián)網(wǎng)(iot)配置的背景下實現(xiàn)以提供通信地耦合到一個或多個分析節(jié)點的一個或多個場景數(shù)據(jù)采集節(jié)點,或其他這樣的分布式聲學(xué)監(jiān)視系統(tǒng)。進(jìn)一步注意,在這樣的iot系統(tǒng)中,這樣的設(shè)備可以被整合在部署在特定位置處的固定位置節(jié)點布置(例如,閉路電視(cctv)、檢查相機(jī)、監(jiān)控相機(jī)等)中并且不必定需要是移動的。
系統(tǒng)架構(gòu)
圖1圖示了依照本公開的實施例配置的聲學(xué)監(jiān)視系統(tǒng)100。如可以看到的,系統(tǒng)100包括場景(數(shù)據(jù))采集設(shè)備102、聲學(xué)圖像控制器108、圖像控制器110和計算機(jī)音頻視覺(cav)控制器112。如將根據(jù)本公開領(lǐng)會的,依照本公開的實施例,數(shù)據(jù)采集設(shè)備102、聲學(xué)圖像控制器108和圖像控制器110配置有空間對準(zhǔn)的捕捉域(例如,公共視場)以生成空間和時間對準(zhǔn)的視頻和音頻數(shù)據(jù)用于由cav控制器112進(jìn)行的處理和后續(xù)場景分析。注意,空間和時間對準(zhǔn)可以由cav控制器112以硬件、軟件或其任何組合來執(zhí)行。另外,cav控制器112可以執(zhí)行各種后處理例程以執(zhí)行空間和時間對準(zhǔn)(例如,相比執(zhí)行這樣的對準(zhǔn)的聲學(xué)圖像設(shè)備)。在各種實施例中,在系統(tǒng)100中示出的部件中的一個或多個可以被完全整合和實現(xiàn)在單個芯片(例如,片上系統(tǒng)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或其他適合的邏輯器件)內(nèi),或者在其他實施例中,整合在一個或多個分離的芯片中并且被通信地耦合以實現(xiàn)在本文中不同地公開的技術(shù)。
如所示,數(shù)據(jù)采集設(shè)備102包括圖像傳感器104。圖像傳感器104可以被實現(xiàn)為能夠捕捉光并且將其轉(zhuǎn)換成成比例的電信號的任何類型的傳感器,包括例如cmos、ccd和混合ccd/cmos傳感器。一些這樣的示例傳感器包括例如彩色圖像數(shù)據(jù)(rgb)、彩色和深度圖像數(shù)據(jù)(rgbd相機(jī))、深度傳感器、立體相機(jī)(l/rrgb)、yuv、紅外信號和x-射線。盡管在圖1中描繪了單個圖像傳感器104,但是應(yīng)領(lǐng)會,可以在不脫離本公開的范圍的情況下利用附加傳感器和傳感器類型(例如,被布置成從不同的視角為場景拍照的多個相機(jī))。為此,取決于特定應(yīng)用,圖像傳感器104可以被實現(xiàn)為多個不同的傳感器。例如,圖像傳感器104可以包括為紅外檢測器的第一傳感器,以及為彩色圖像傳感器(例如,rgb、yuv)的第二傳感器。在其他示例中,圖像傳感器104可以包括被配置用于捕捉圖像信號的第一傳感器(例如,彩色圖像傳感器、啟用深度的圖像感測(rgdb)、立體相機(jī)(l/rrgb)、yuv、紅外和x-射線),以及與第一圖像傳感器不同的被配置成捕捉圖像數(shù)據(jù)的第二傳感器。
如在系統(tǒng)100中進(jìn)一步所示,數(shù)據(jù)采集設(shè)備102包括麥克風(fēng)陣列106。麥克風(fēng)陣列106可以被實現(xiàn)為例如可以將聲音(例如,聲壓)轉(zhuǎn)換成成比例的電信號的任何數(shù)目的麥克風(fēng)設(shè)備。在本文中討論的技術(shù)的一般背景下,麥克風(fēng)陣列106是具有mxn麥克風(fēng)模式的2-d麥克風(fēng)陣列,但其他麥克風(fēng)陣列配置將根據(jù)本公開而是顯然的。在圖2中描繪了一個這樣的示例2-d麥克風(fēng)陣列200。如所示,描繪了以均勻線性陣列模式的8x8麥克風(fēng)陣列200。每個麥克風(fēng)202被定位在特定行和列中,并且因此可以在麥克風(fēng)陣列200內(nèi)被單獨地尋址。應(yīng)領(lǐng)會,在其他實施例中,麥克風(fēng)陣列200可以被以不同的模式配置,諸如例如圓形的、螺旋的、隨機(jī)的或其他的陣列模式。注意,在分布式聲學(xué)監(jiān)視系統(tǒng)(諸如下面關(guān)于圖6討論的那些)的背景下,麥克風(fēng)陣列200可以包括對聲學(xué)監(jiān)視系統(tǒng)100而言本地或遠(yuǎn)程(或本地和遠(yuǎn)程二者)的多個麥克風(fēng)陣列。
麥克風(fēng)陣列200的每個麥克風(fēng)202可以被實現(xiàn)為例如具有全向拾取響應(yīng)使得響應(yīng)等于來自任何方向的聲音的麥克風(fēng)設(shè)備。在實施例中,全向麥克風(fēng)可以被配置成對來自垂直于麥克風(fēng)陣列200的寬邊的源的聲音更敏感。這樣的寬邊陣列配置特別良好地適于相比于源自例如在麥克風(fēng)陣列200后面的聲音將在麥克風(fēng)陣列200前面的聲音源作為目標(biāo)。取決于應(yīng)用,可以利用其他適合的麥克風(fēng)陣列,如將根據(jù)本公開而顯然的那樣。例如,可以在要求緊湊設(shè)計的應(yīng)用或者要求高增益和銳方向性的那些應(yīng)用中利用端射陣列。在其他實施例中,每個麥克風(fēng)202可以包括雙向、單向、獵槍、接觸或拋物線樣式的麥克風(fēng)。如在本文中一般地提到的,接觸麥克風(fēng)可以使能夠?qū)崿F(xiàn)通過使麥克風(fēng)與對象(例如,機(jī)器、人)接觸或緊密接近來檢測聲音。例如,可以使接觸麥克風(fēng)與設(shè)備外側(cè)(例如,底架)接觸,其中具有有著要被監(jiān)視的目標(biāo)設(shè)備或?qū)ο蟮囊暰€可能不是可能的或以其他方式可行的。
如在示例麥克風(fēng)陣列200中所示,每個麥克風(fēng)202包括相同麥克風(fēng)設(shè)備。一個這樣的具體示例包括mems類型的麥克風(fēng)設(shè)備。在其他實施例中,可以基于例如形狀因子、靈敏度、頻率響應(yīng)和其他應(yīng)用特定的因素來實現(xiàn)其他類型的麥克風(fēng)設(shè)備。在一般意義上,相同的麥克風(fēng)設(shè)備是特別有利的,因為每個麥克風(fēng)設(shè)備200可以具有匹配的靈敏度和頻率響應(yīng)以確保在音頻捕捉和波束賦形(空間)分析期間的優(yōu)化性能。在實施例中,麥克風(fēng)陣列200可以被實現(xiàn)在外殼或其他適當(dāng)?shù)臍んw內(nèi)。在一些情況下,麥克風(fēng)陣列200可以被以各種方式安裝,包括例如壁式安裝、天花板安裝和三腳架安裝。另外,麥克風(fēng)陣列200可以是手持裝置或以其他方式移動的(非固定的)。在一些情況下,每個麥克風(fēng)202可以被配置成生成模擬或數(shù)字?jǐn)?shù)據(jù)流(其可能或可能不涉及模擬到數(shù)字轉(zhuǎn)換或數(shù)字到模擬轉(zhuǎn)換)。
根據(jù)本公開應(yīng)領(lǐng)會,可以利用其他類型的麥克風(fēng)設(shè)備并且本公開不限于具體模型或單個類型的麥克風(fēng)設(shè)備的使用。例如,在一些情況下,使麥克風(fēng)設(shè)備的子集具有平坦頻率響應(yīng)并且使其他具有定制的或否則作為目標(biāo)的頻率響應(yīng)可能是有利的。作為目標(biāo)的頻率響應(yīng)的一些這樣的示例包括例如被設(shè)計成強(qiáng)調(diào)人類語音中的頻率而減輕低頻背景噪聲的響應(yīng)模式。其他這樣的示例可以包括例如被設(shè)計成強(qiáng)調(diào)將高或低頻聲音的響應(yīng)模式,所述高或低頻聲音包括將正常地不可聽或否則不可被人耳檢測到的頻率。其他示例包括麥克風(fēng)陣列200的子集具有配置有寬頻率響應(yīng)的響應(yīng)模式并且另一子集具有窄頻率響應(yīng)(例如,作為目標(biāo)的或以其他方式定制的頻率響應(yīng))。在任何這樣的情況下,并且依照實施例,麥克風(fēng)陣列202的子集可以被針對作為目標(biāo)的頻率響應(yīng)進(jìn)行配置,而剩余的麥克風(fēng)可以利用不同的頻率響應(yīng)和靈敏度進(jìn)行配置。
仍參考圖2,在麥克風(fēng)陣列200的中心描繪了圖像傳感器104。依照實施例,圖像傳感器104的中心放置將相機(jī)的圖像捕捉域(視場)與麥克風(fēng)陣列200的音頻捕捉域空間對準(zhǔn)。在其他實施例中,圖像傳感器104的放置不限于中心位置。例如,圖像傳感器104可以被定位成緊挨著麥克風(fēng)陣列200或否則在麥克風(fēng)陣列200附近,只要捕捉域的一部分重疊,或者可以另外以重疊方式彼此相關(guān)。在任何這樣的情況下,依照本公開的實施例,可以執(zhí)行校準(zhǔn)例程或空間配準(zhǔn)過程,使得圖像傳感器104的捕捉域和麥克風(fēng)陣列200的捕捉域被對準(zhǔn)以產(chǎn)生空間對準(zhǔn)的圖像和聲音數(shù)據(jù)。
返回到圖1,聲學(xué)圖像控制器108可以被實現(xiàn)例如為復(fù)雜指令集計算機(jī)(cisc)或精簡指令集計算機(jī)(risc)處理器、x86指令集處理器、多核、微控制器、asic或中央處理單元(cpu)。在一些實施例中,聲學(xué)圖像控制器108可以包括(多個)雙核處理器、(多個)雙核移動處理器等。聲學(xué)圖像控制器108可以包括(未示出的)記憶裝置,諸如包括閃存的非易失性存儲設(shè)備和/或易失性存儲設(shè)備,諸如隨機(jī)存取存儲器(ram)、動態(tài)隨機(jī)存取存儲器(dram)和靜態(tài)ram(sram)。
圖像控制器110可以被實現(xiàn)例如為例如復(fù)雜指令集計算機(jī)(cisc)或精簡指令集計算機(jī)(risc)處理器、x86指令集處理器、多核、微控制器、asic或中央處理單元(cpu)。在一些實施例中,圖像控制器110可以包括(多個)雙核處理器、(多個)雙核移動處理器等。圖像控制器110可以包括(未示出的)記憶裝置,諸如包括閃存的非易失性存儲設(shè)備和/或易失性存儲設(shè)備,諸如隨機(jī)存取存儲器(ram)、動態(tài)隨機(jī)存取存儲器(dram)和靜態(tài)ram(sram)。在實施例中,圖像控制器110包括(未示出的)圖像管線,其包括圖像信號處理器和一個或多個圖像增強(qiáng)臺用于圖像數(shù)據(jù)的捕捉后的處理。在實施例中,利用圖像控制器110來控制圖像傳感器104的相機(jī)到發(fā)起具有期望的特性的圖像數(shù)據(jù)的捕捉所必需的程度,所述特性諸如銳度、噪聲、對比度或任何其他期望的圖像質(zhì)量,視具體情況而定。
cav控制器112可以被實現(xiàn)例如為復(fù)雜指令集計算機(jī)(cisc)或精簡指令集計算機(jī)(risc)處理器、x86指令集處理器、多核、微控制器、asic、fpga、soc或中央處理單元(cpu)。在一些實施例中,cav控制器112可以包括(多個)雙核處理器、(多個)雙核移動處理器等。cav控制器112可以包括(未示出的)記憶裝置,諸如包括閃存的非易失性存儲設(shè)備和/或易失性存儲設(shè)備,諸如隨機(jī)存取存儲器(ram)、動態(tài)隨機(jī)存取存儲器(dram)和靜態(tài)ram(sram)。在一些實施例中,cav控制器112可以包括指令或否則被編程以使得下面討論的方法300被執(zhí)行。為此,可以以硬件、軟件、固件或其任何組合來實現(xiàn)過程300。
在實施例中,系統(tǒng)100可以以變化的物理樣式或形狀因子來體現(xiàn)。在一些實施例中,例如,系統(tǒng)100或其部分可以被實現(xiàn)為具有無線能力的移動計算設(shè)備。例如,移動計算設(shè)備可以指的是具有處理系統(tǒng)和移動電源或電力供應(yīng)(諸如一個或多個電池)的任何設(shè)備。移動計算設(shè)備的一些這樣的示例可以包括個人計算機(jī)(pc)、膝上型計算機(jī)、超級膝上型計算機(jī)、平板計算機(jī)、觸摸板、便攜式計算機(jī)、手持計算機(jī)、掌上計算機(jī)、個人數(shù)字助理(pda)、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備(例如,智能電話、智能平板計算機(jī)或智能電視)、移動互聯(lián)網(wǎng)設(shè)備(mid)、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備等。
移動計算設(shè)備的示例還可以包括被布置成由人穿戴的計算機(jī),諸如手腕計算機(jī)、手指計算機(jī)、戒指計算機(jī)、眼鏡計算機(jī)、腰帶夾計算機(jī)、臂帶計算機(jī)、鞋計算機(jī)、衣服計算機(jī)以及其他可穿戴計算機(jī)。在一些實施例中,例如,移動計算設(shè)備可以被實現(xiàn)為能夠執(zhí)行計算機(jī)應(yīng)用以及語音通信和/或數(shù)據(jù)通信的智能電話。盡管可能利用被實現(xiàn)為智能電話的移動計算設(shè)備作為示例描述了一些實施例,但是可以領(lǐng)會,也可以使用其他無線移動計算設(shè)備來實現(xiàn)其他實施例。實施例不限于該背景下。
在使用中,數(shù)據(jù)采集設(shè)備102捕捉針對所觀察的場景的音頻和視頻。如上面所討論的,這樣的音頻和視頻數(shù)據(jù)被空間和時間對準(zhǔn),使得每個的捕捉域重疊。注意,可以(例如,通過耦合到監(jiān)視系統(tǒng)的分離的相機(jī)和麥克風(fēng)陣列)分離地捕捉音頻和視頻,并且本公開不應(yīng)該被解釋為在該點上是限制的。在一些情況下,所捕捉的音頻和視頻數(shù)據(jù)表示目標(biāo)場景,諸如例如制造設(shè)施中的制造裝備、城市街道或其他可觀察的場景。為了說明而提供了這些示例使用情況,并且其不意圖限制本公開。
在實施例中,聲學(xué)圖像控制器108可以被配置成基于(例如,來自麥克風(fēng)陣列200的)經(jīng)空間濾波的音頻信號而生成聲學(xué)圖像數(shù)據(jù)以便視覺上表示所觀察的場景中的聲音能量。如上面所討論的,聲學(xué)圖像關(guān)于標(biāo)準(zhǔn)圖像類似,因為它們包括2-d像素網(wǎng)格,但不同在于像素的強(qiáng)度與從場景發(fā)出的聲音的強(qiáng)度對應(yīng)。為此,所生成的聲學(xué)圖像幀的每個像素的像素強(qiáng)度表示來自聲音的每個獨特的到達(dá)角(方位角和仰角)的聲音強(qiáng)度。一般地,使用諸如例如半透明的著色的熱圖或其他可視的著色之類的遮蔽(mask)將聲學(xué)圖像疊加到相同場景的圖像幀上。在圖5a中描繪了一個這樣的示例圖像,其描繪了在半導(dǎo)體制造環(huán)境中的濺射機(jī)。如所示,利用具有第一顏色(例如,紅色)的像素的(例如,表示到達(dá)角的)最高強(qiáng)度的那些區(qū)域來表示從濺射機(jī)的兩個固定點(在該情況下,點a和b)發(fā)出的聲音。因為聲音在不同的到達(dá)角較不強(qiáng)烈,所以通過從第一顏色502褪色(fade)到第二顏色504(例如,紅色到黃色)的像素來表示強(qiáng)度中的該差異。另外,聲音強(qiáng)度中的其他差異可以通過從第一顏色502褪色到第二顏色504并且然后到第三顏色506(例如,紅色到黃色、黃色到綠色)的像素來表示。如所示,相對聲音強(qiáng)度也由每個著色的像素所具有的透明度的量來指示。例如,最接近到達(dá)角的像素(例如,在第一顏色502的區(qū)域內(nèi)著色/漸變的像素)基本上是不透明的。相反,最遠(yuǎn)離到達(dá)角的那些像素包括幾乎透明的遮蔽。在任何這樣的實施例中,所應(yīng)用的這些顏色和透明度漸變可以是用戶可配置的。應(yīng)領(lǐng)會,所選取的顏色的確切數(shù)目和特定色調(diào)不特別地與本公開相關(guān)并且不應(yīng)被視為限制性的。如下面將進(jìn)一步討論的那樣,依照一些實施例,聲學(xué)圖像幀中的聲音強(qiáng)度的這些加亮(highlight)的區(qū)域允許所觀察的場景中的聲音源的定位和隔離以及對其的分析以將聲音與場景內(nèi)的視覺特征智能相關(guān)。
方法和架構(gòu)
圖3圖示了依照本公開的實施例的用于分析聲學(xué)圖像和聲音以對所觀察的場景內(nèi)的事件進(jìn)行檢測和分類的示例方法300。該方法可以例如由圖1的系統(tǒng)100來實現(xiàn),但是根據(jù)本公開許多實施例將是顯然的。圖4到5c圖示了依照一些實施例的除執(zhí)行在事件分析時生成的一些示例圖像之外的用于方法300的示例過程流程。示例方法300包括如下動作:采集304所觀察的場景的聲音和圖像數(shù)據(jù)以生成空間和時間對準(zhǔn)的聲學(xué)圖像和聲音數(shù)據(jù)、檢測306在對準(zhǔn)的聲學(xué)圖像、圖像數(shù)據(jù)(光圖像)和聲音數(shù)據(jù)內(nèi)發(fā)生的一個或多個事件、提取308一個或多個檢測到的事件的特征,以及對場景特征進(jìn)行分類310以憑經(jīng)驗或理論上確定引起事件的一個或多個狀況,以及輸出312分類數(shù)據(jù)。方法300在動作302中開始。
如所示,示例方法300包括采集304所觀察的場景的聲音和圖像數(shù)據(jù)以生成空間和時間對準(zhǔn)的聲學(xué)圖像和音頻數(shù)據(jù)流的動作。參考圖4,經(jīng)由數(shù)據(jù)采集設(shè)備102采集304聲音和圖像數(shù)據(jù)的動作在示例過程流程內(nèi)被表示為數(shù)據(jù)采集模塊402。應(yīng)領(lǐng)會,在一些示例實施例中,數(shù)據(jù)采集模塊402可以被精確地稱為場景采集模塊,因為數(shù)據(jù)采集模塊402可以被配置成監(jiān)視場景(包括其中的所有對象)并且不僅是一件特定的裝備或?qū)ο?。注意,模塊404、406和408中的每個可以被實現(xiàn)為cav控制器112內(nèi)的硬件、軟件或其任何組合。進(jìn)一步注意,cav控制器112可以被配置成執(zhí)行與數(shù)據(jù)采集模塊402的那些例程類似的例程。一些這樣的例程可以包括(多個)空間對準(zhǔn)的聲學(xué)圖像403、音頻幀405和(多個)圖像幀407,生成與音頻數(shù)據(jù)的信號處理(例如,波束賦形)相關(guān)的聲學(xué)圖像和各種信號處理。如所示,數(shù)據(jù)采集模塊402包括聲學(xué)圖像設(shè)備,其被配置成捕捉和實時地提供聲學(xué)圖像、圖像幀和音頻數(shù)據(jù)。應(yīng)領(lǐng)會,數(shù)據(jù)采集模塊402可以是可選的或者被不同地配置以使能夠?qū)崿F(xiàn)預(yù)期的場景分析和狀況監(jiān)視。例如,系統(tǒng)100可以被配置成使得先前觀察的場景的所捕捉的音頻和視頻可以從外部位置(例如,存儲器、網(wǎng)絡(luò)位置或其他存儲位置)取回并且使用在本文中不同地公開的聲學(xué)分析技術(shù)(例如,通過模塊404-408)來處理。另外,并且在實施例中,數(shù)據(jù)采集模塊402可以由兩個或更多個分離的設(shè)備來實現(xiàn),其中每個設(shè)備被配置成捕捉場景的不同方面(例如,相機(jī)設(shè)備用以捕捉光圖像、聲學(xué)圖像控制器用以再現(xiàn)聲音強(qiáng)度,以及一個或多個外部麥克風(fēng)陣列)。為此,在圖4中示出的數(shù)據(jù)采集模塊402不應(yīng)該被解釋為限制性的。其他實現(xiàn)將根據(jù)本公開而是顯然的,諸如混合配置,其中系統(tǒng)100進(jìn)行的現(xiàn)場分析可以被轉(zhuǎn)換成預(yù)期分析,如果期望的話。
在圖4中示出的示例實施例中,數(shù)據(jù)采集模塊402可以實現(xiàn)波束賦形或其他適合的技術(shù)用于對音頻幀進(jìn)行空間濾波以便生成所觀察的場景的空間譜(聲學(xué)圖像數(shù)據(jù))。應(yīng)領(lǐng)會,可以利用不同于波束賦形的用于空間分析的其他技術(shù)并且其在本公開的范圍內(nèi)。雖然波束賦形技術(shù)可以被有利地用來生成經(jīng)空間濾波的音頻和聲學(xué)圖像二者,但是用于空間分析的其他類似的技術(shù)不生成經(jīng)空間濾波的音頻。代之以,它們產(chǎn)生空間譜(例如,聲學(xué)圖像)。例如,兩個這樣的技術(shù)被稱為多信號分類(music)算法和經(jīng)由旋轉(zhuǎn)不變技術(shù)估計信號參數(shù)(esprit)。這樣的技術(shù)可以用來生成高分辨率聲學(xué)圖像。為此,除了通過波束賦形技術(shù)生成的聲學(xué)圖像之外,或者作為對通過波束賦形技術(shù)生成的聲學(xué)圖像的替代,可以使用這些聲學(xué)圖像。
盡管下面討論的示例實施例引用所謂的“延遲和加和”或“迫零”波束賦形的一個具體實現(xiàn),但是其他波束賦形技術(shù)將根據(jù)本公開而是顯然的。例如,還可以利用濾波和加和以及自適應(yīng)的波束賦形技術(shù)。如先前所討論的,聲學(xué)成像基于相對于在多個點(例如,麥克風(fēng)陣列的每個空間位置)處檢測到的聲壓的變化的像素強(qiáng)度使起源(origin)可視化為聲波的強(qiáng)度。在圖2的示例麥克風(fēng)陣列200的背景內(nèi),每個麥克風(fēng)設(shè)備202可以被定位在預(yù)定義的區(qū)域中的離散點處。為此,來自麥克風(fēng)陣列200的所有麥克風(fēng)信號的疊加使能夠?qū)崿F(xiàn)對每個作為目標(biāo)的空間點的聲壓的估計,其轉(zhuǎn)化成所生成的聲學(xué)圖像的一個或多個像素。為了集中在所觀察的場景中或以其他方式將所觀察的場景中的某個點作為目標(biāo),麥克風(fēng)陣列200不一定必須被物理上移動。代之以,通過跨麥克風(fēng)施加一系列適當(dāng)?shù)难舆t并且將來自所述麥克風(fēng)的所有信號加和,可以集中在(例如,引向)所觀察的場景中的特定點(例如,到達(dá)角)。該延遲和加和技術(shù)本質(zhì)上以使從所觀察的場景中的目標(biāo)點發(fā)出的所有聲波同相并且因此當(dāng)被加在一起時放大了從該目標(biāo)點發(fā)出的聲波的這樣的方式使來自每個麥克風(fēng)的信號延遲。從所觀察的場景中的其他(非作為目標(biāo)的)點發(fā)出的那些聲波是異相的,并且因此被減弱。
作為示例,考慮實現(xiàn)一些這樣的波束賦形技術(shù)的數(shù)據(jù)采集設(shè)備102的一個具體示例實施例。如在圖2中所示,麥克風(fēng)陣列200包括在總計64個離散空間點的線性陣列中的離散位置中的8x8麥克風(fēng)模式以測量聲壓。在該示例實施例中,每個麥克風(fēng)202具有相同的靈敏度和頻率響應(yīng)并且被配置成產(chǎn)生以例如16khz以16位字深采樣的聲音信號。另外,圖像傳感器104可以被配置成產(chǎn)生具有例如256x256(65536個像素)分辨率的圖像幀。為了清楚和容易計算的目的,在本文中公開的示例實施例假設(shè)16khz音頻采樣速率和256x256(65536個像素)圖像幀,但應(yīng)領(lǐng)會,其他音頻采樣速率和圖像分辨率可以被按需利用并且在本公開的范圍內(nèi)。如上面所討論的,麥克風(fēng)陣列106和圖像傳感器104被配置成使得它們空間對準(zhǔn)。另外,麥克風(fēng)陣列106和圖像傳感器104可以基于公共時鐘或用以確保數(shù)據(jù)流同步(例如,接近實時或通過后處理例程實現(xiàn))的其他定時方案而時間對準(zhǔn)。
在第一階段期間,并且依照實施例,聲學(xué)圖像控制器108將來自麥克風(fēng)陣列200的每個麥克風(fēng)202的聲音信號劃分成重疊的連續(xù)幀,其具有例如在512個樣本內(nèi)表示的32毫秒的持續(xù)時間。然后在聲學(xué)圖像控制器108內(nèi)通過波束賦形算法來處理來自每個麥克風(fēng)202(例如,64個幀)的同步幀。波束賦形算法的結(jié)果是65536個經(jīng)空間濾波的音頻幀405,其與通過圖像傳感器104捕捉的每個圖像幀對應(yīng)。不同地闡述,波束賦形技術(shù)可以使能夠?qū)崿F(xiàn)經(jīng)由空間濾波器對所捕捉的音頻信號的數(shù)字操縱,使得65536個獨特的到達(dá)角中的每個與經(jīng)濾波的音頻幀對應(yīng)。
在第二階段期間,并且依照實施例,通過計算這些音頻幀405中的每個中的能量(強(qiáng)度)和將強(qiáng)度轉(zhuǎn)換成2-d網(wǎng)格以再現(xiàn)256x256圖像(例如,65536個像素)而生成聲學(xué)圖像403。然后將得到的聲學(xué)圖像403、對應(yīng)的音頻幀405和圖像幀407提供給事件檢測模塊404。
參考圖4并且另外參考圖3,在數(shù)據(jù)采集模塊402生成包括聲學(xué)圖像403、音頻幀405和圖像幀407的數(shù)據(jù)流之后,方法以檢測306這些數(shù)據(jù)流內(nèi)的事件而繼續(xù)。參考圖4,利用示例過程流程將檢測306由數(shù)據(jù)采集模塊402生成的數(shù)據(jù)流內(nèi)的事件表示為事件檢測模塊404。在一般意義上,并且依照實施例,事件檢測模塊404針對指示或以其他方式暗示在所觀察的場景中發(fā)生的事件的在聲場中的改變的位置來分析聲學(xué)圖像的流。
在實施例中,事件檢測模塊404通過確定409連續(xù)的聲學(xué)圖像幀403之間的絕對差而產(chǎn)生增量圖像(deltaimage)的流。在一些情況下,基于計算連續(xù)聲學(xué)圖像之間的平方距離來生成增量圖像。在其他情況下,可以利用其他適合的圖像比較例程來生成增量圖像,如將根據(jù)本公開而顯然的那樣。在任何這樣的情況下,基于將增量圖像內(nèi)的像素值與閾值強(qiáng)度值進(jìn)行比較來確定每個增量圖像中的峰值。在實施例中,閾值是用戶可配置的或否則預(yù)先確定的,并且表示最小像素強(qiáng)度,由此超過該值的增量像素強(qiáng)度被登記為與事件相關(guān)。為此,當(dāng)增量像素超過閾值時,利用像素的索引來定義遮蔽413并且將遮蔽413應(yīng)用在圖像幀407內(nèi)。在實施例中,所應(yīng)用的遮蔽413包括長方形形狀或其他幾何形狀(例如,圓、正方形或其他形狀),其指示事件區(qū)域(或位置),在本文中也被稱為感興趣的區(qū)域。關(guān)于所應(yīng)用的遮蔽413的參數(shù)可以是用戶定義的并且可以包括例如線厚度、線顏色、拐角四舍五入值和線類型(例如,折線、連續(xù)線或虛線)。另外,諸如所應(yīng)用的遮蔽413的高度和寬度之類的參數(shù)可以是預(yù)先確定的和/或用戶供應(yīng)的。
圖5b描繪了依照本公開的實施例的由事件檢測模塊404輸出的一個示例中間圖像幀。如所示,得到的圖像是合成圖像,其包括圖像幀407(描繪制造裝備)、重疊的聲學(xué)圖像幀403和所應(yīng)用的遮蔽413。并且如在圖5b的具體示例中所示,兩個不同的事件(事件1、事件2)和對應(yīng)的事件區(qū)域被檢測到并且基于所應(yīng)用的遮蔽413被在得到的圖像內(nèi)指示。在該具體示例的背景內(nèi),這兩個經(jīng)標(biāo)識的事件與從所觀察的場景內(nèi)的兩個不同點發(fā)出的聲音直接相關(guān)。如上面所討論的,并且依照實施例,音頻幀405和圖像幀407可以被(例如,通過公共視點和/或?qū)?zhǔn)例程)空間和時間配準(zhǔn)。為此,根據(jù)實施例,所應(yīng)用的遮蔽413使得事件檢測模塊404能夠針對每個相應(yīng)事件隔離/定位(多個)圖像幀407和對應(yīng)的(多個)聲學(xué)圖像幀403的對應(yīng)部分,使得每個事件可以被單獨地處理和分類。在實施例中,與每個所遮蔽的區(qū)域413相關(guān)聯(lián)的音頻幀可以被加和和求平均以再現(xiàn)針對每個相應(yīng)事件的音頻幀。可以利用用于音頻信號處理的其他適合的技術(shù)來再現(xiàn)針對每個事件的音頻幀,如將根據(jù)本公開而顯然的那樣。在一些情況下,聲學(xué)圖像數(shù)據(jù)和圖像數(shù)據(jù)的相關(guān)和隔離的部分可以被稱為所謂的“塊(patch)”。在實施例中,將聲學(xué)圖像數(shù)據(jù)的這些塊連同針對每個事件的再現(xiàn)的音頻幀一起提供給特征提取模塊406。
進(jìn)一步參考圖3,在通過事件檢測模塊404檢測到一個或多個事件之后,方法以從隔離的事件區(qū)域/塊提取308特征而繼續(xù)。參考圖4,在示例過程流程內(nèi)將從隔離的事件區(qū)域/塊提取308特征表示為特征提取模塊406。如所示,聲學(xué)圖像數(shù)據(jù)、圖像數(shù)據(jù)和音頻幀的每個部分由對應(yīng)的特征提取例程來處理?,F(xiàn)在將依次討論這些特征提取例程中的每個。
在實施例中,經(jīng)由尺度不變特征變換(sift)或用于從圖像提取顯著的/相關(guān)的特征的其他適合的例程來分析聲學(xué)圖像和圖像數(shù)據(jù)二者的區(qū)域/塊內(nèi)的視覺特征。在一些情況下,sift和基于sift的衍生例程特別良好地適于補償小量的移動,由于例如不穩(wěn)定的手握著包括系統(tǒng)100的智能設(shè)備或者因為所觀察的場景中的移動。這樣的sift處理的結(jié)果包括對象標(biāo)識和對象的所謂的“特征描述”。每個可以被用來執(zhí)行對象識別。如根據(jù)本公開將領(lǐng)會的,這樣的方法特別有利,因為混亂和部分遮擋之中的對象仍可以被可靠地標(biāo)識。
在實施例中,可以分析由事件檢測模塊404生成的來自每個事件的音頻內(nèi)容以識別聲音和/或執(zhí)行語音識別。在實施例中,如將根據(jù)本公開而顯然的,可以使用梅爾頻率倒譜系數(shù)(mfcc)或其他適合的聲音分析例程來分析音頻內(nèi)容。在實施例中,mfcc特別良好地適于一定范圍的應(yīng)用,因為mfcc通常用在語音識別和聲音場景分析二者中。
在實施例中,在依照上面討論的特征提取例程針對每個事件提取視覺和音頻特征之后,然后將導(dǎo)出的特征發(fā)送到特征標(biāo)準(zhǔn)化和向量化模塊415。在該實施例中,所提取的特征(例如,來自聲學(xué)圖像塊、圖像塊和再現(xiàn)的音頻幀)被組合和聚集以針對每個檢測到的聲音事件創(chuàng)建特征向量。在實施例中,特征向量可以包括一個或多個格式,包括例如二進(jìn)制數(shù)據(jù)結(jié)構(gòu)、xml、json或其他適合的機(jī)器可讀格式。如下面將討論的,聲學(xué)圖像數(shù)據(jù)、圖像數(shù)據(jù)和音頻內(nèi)容的該組合形成多維事件簽名,其可以被在本文中公開的各種技術(shù)用來執(zhí)行復(fù)雜的場景分析。如將領(lǐng)會的,這些技術(shù)使能夠?qū)崿F(xiàn)在復(fù)雜的聲音環(huán)境中的準(zhǔn)確的場景分析,其中可以在干擾的不和諧音(背景噪聲、非關(guān)鍵噪聲或任何其他普通的或否則不重要的噪聲)之中辨別兩個或更多個共現(xiàn)的聲音。在實施例中,特征提取模塊406然后向分類模塊408提供針對每個事件的特征向量。
進(jìn)一步參考圖3,在從每個事件提取308特征并且生成針對每個事件的特征向量(多維事件簽名)之后,方法以對場景特征進(jìn)行分類310以確定事件分類和關(guān)聯(lián)的元數(shù)據(jù)(補充數(shù)據(jù))而繼續(xù)。參考圖4,在示例過程流程內(nèi)將根據(jù)針對每個檢測到的事件的特征向量對事件特征進(jìn)行分類310表示為分類模塊408。
在實施例中,分類模塊408嘗試根據(jù)由特征提取模塊406生成的對應(yīng)的特征向量將每個事件進(jìn)行分類。在一些情況下,基于相對于多個預(yù)先訓(xùn)練的模型對特征向量評分來執(zhí)行分類。更一般地,預(yù)先訓(xùn)練的模型可以包括聲學(xué)和視覺簽名,其允許聲音事件與事件種類相關(guān)(例如,利用概率分布)或否則分類到事件種類。為此,在本文中不同地公開的技術(shù)利用聲音事件和其特定特性對每個事件加“指印”,并且利用那些指印憑經(jīng)驗和/或理論上確定導(dǎo)致那些事件的原因。為此,在本文中不同地公開的技術(shù)有利地融合光數(shù)據(jù)、聲學(xué)圖像數(shù)據(jù)和聲音數(shù)據(jù)。如根據(jù)本公開將領(lǐng)會的,可以利用其他適合的機(jī)器學(xué)習(xí)技術(shù)來構(gòu)造和分析這樣的指印。另外,這些生成的指印可以被存儲并且在后續(xù)分析期間利用(例如,用于聲學(xué)監(jiān)視系統(tǒng)100的進(jìn)行的訓(xùn)練)。
在利用基于gmm的機(jī)器學(xué)習(xí)的一個具體示例中,可以針對每個事件種類先驗地預(yù)先確定29維gmm(13維分別用于聲學(xué)圖像、圖像和聲音)。在這些情況下,在例如設(shè)備的制造期間配置預(yù)定義的事件模型。在其他情況下,隨時間過去通過例如訓(xùn)練例程或通過添加和/或更新來自外部位置(例如,網(wǎng)絡(luò)服務(wù)器、usb拇指驅(qū)動器或其他位置)的模型,這些預(yù)定義的事件模型被學(xué)習(xí)或否則添加到系統(tǒng)100。在一個這樣的示例情況下,系統(tǒng)100可以向用戶呈現(xiàn)與檢測到的事件相關(guān)的信息(例如,事件的視覺圖像、來自事件的聲音樣本,或者其他隔離的和提取的特征),由此用戶可以選擇用戶接口特征來手動地將事件分類和存儲(例如,作為gmm模型),使得可以在將來適當(dāng)?shù)刈R別相同或否則類似的事件的將來發(fā)生。另外,用戶可以將補充數(shù)據(jù)與所存儲的事件相關(guān)聯(lián),其包括例如指南、筆記、照片或任何其他相關(guān)的元數(shù)據(jù)。在任何這樣的情況下,可以使用期望最大化(em)算法來計算用于每個模型的參數(shù)。為此,可以將每個特征向量傳遞給每個gmm,導(dǎo)致針對每個種類的評分,其中評分被跨種類標(biāo)準(zhǔn)化(例如,到1)使得針對每個事件生成后驗的概率分布。因此,系統(tǒng)100可以基于最高評分模型中的一個或多個來推斷每個事件的一個或多個狀況。
如根據(jù)本公開將領(lǐng)會的,模型種類可以表示以其聲學(xué)簽名為特征的種種狀況,包括例如機(jī)器部件故障(例如,螺線管失效、不合規(guī)范的壓縮機(jī)循環(huán),或其他異常狀況)。另外,模型種類可以表示在這樣的機(jī)器內(nèi)發(fā)生的各種中間狀態(tài)并且可以用來推斷例如進(jìn)行的狀況的過程,其包括狀況是否可能引起緊迫的問題(例如,關(guān)鍵狀態(tài)或高嚴(yán)重性級別)或者狀況是否指示問題的一些其他階段(例如,建議將來的維護(hù)可能必要或者事件可忽略或否則具有低嚴(yán)重性的階段)。為此,并且依照實施例,系統(tǒng)100可以向用戶或其他感興趣方(例如,另一計算機(jī)或過程)提供對機(jī)器內(nèi)的潛在問題的早期警告。另外,系統(tǒng)100可以包括管理事件檢測的相對靈敏度的用戶定義的設(shè)置,由此用戶可以在將事件傳播給用戶之前細(xì)調(diào)事件的最低嚴(yán)重性級別。
應(yīng)進(jìn)一步領(lǐng)會,可以使用這些模型來虛擬表示任何種類的狀況相關(guān)的聲音(例如,基于其聲學(xué)和視覺簽名),并且不一定限于工業(yè)機(jī)器監(jiān)視和為該環(huán)境特有的聲音。例如,模型可以表示狀況事件,僅舉幾例,諸如在城市環(huán)境中的運載工具相關(guān)的噪聲(例如,排氣裝置、引擎部件、路面上的輪胎的聲音,以及其他這樣的聲音)、在戰(zhàn)場上的敵人移動/活動噪聲(例如,迫擊炮火、槍聲、軍隊移動、運載工具移動等),以及對災(zāi)難地帶內(nèi)的人類生命(例如,被困受害者)的指示。
在較一般的意義上,這些模型允許考慮事件的簽名的每個方面/維度,從而做出關(guān)于什么狀況可能引起聲音事件的經(jīng)驗的或否則理論的推斷。例如,可以通過每個gmm來分析事件簽名的聲學(xué)維度的那些方面以登記類似性(例如,諸如在像素強(qiáng)度、像素位置之間的類似性,以及其他聲學(xué)類似性),并且因此最終產(chǎn)生得到的評分。在其他示例中,可以組合和分析簽名的其他方面和維度,使得在總體評分中考慮到聲音識別和對象標(biāo)識中的每個。另外,應(yīng)領(lǐng)會,這樣的聲音識別和對象標(biāo)識可以被組合,從而提供背景感知的理解,其包括例如部分地基于確認(rèn)經(jīng)標(biāo)識的對象能夠產(chǎn)生這樣的聲音而證實經(jīng)識別/標(biāo)識的聲音。在任何這樣的情況下,如果在分類期間利用的每個模型的評分超過預(yù)先確定的閾值達(dá)概率(例如,25%、50%等),則事件向量被認(rèn)為與事件模型相關(guān)或否則被標(biāo)記為與事件模型相關(guān)。在其他實施例中,如果概率不超過預(yù)先確定的閾值,則忽略該事件,使得不向用戶顯示警報或其他指示符(例如,以減輕誤報)。替代地,通過訓(xùn)練例程和/或在其他分類模型細(xì)化期間,可以保留不超過預(yù)先確定的閾值的那些概率供將來使用。事件何時可以被忽略的一些這樣的情況包括不使預(yù)先存儲的模型配置用于該事件。另外,并且其他這樣的情況,分析為指示機(jī)器的正常操作的事件可能不一定向用戶報告或針對進(jìn)一步動作將事件升級。在其他實施例中,這樣的事件可能沒有被忽略并且可以充當(dāng)用于訓(xùn)練例程的催化劑,如上面所討論的,或者向用戶提供機(jī)器/目標(biāo)場景正在正常/預(yù)期參數(shù)內(nèi)操作的指示。依照實施例,檢測到的每個事件可以導(dǎo)致評分高于閾值的多個模型。在該實施例中,每個事件可以包括相對于具有最高評分的那些模型命令的多個評分,并且因此是引起事件的最可能的狀況。
進(jìn)一步參考圖3,在事件分類310之后,方法以輸出312分類數(shù)據(jù)而繼續(xù)。在實施例中,然后可以將得到的事件分類提供給用戶接口或其他高級別過程。如上面所討論的,可以利用事件分類評分來執(zhí)行各種分類后動作,其包括經(jīng)由用戶接口向用戶提供警報消息、自動地執(zhí)行后續(xù)動作(例如,關(guān)閉機(jī)器、閃光、切斷繼電器、響鈴、發(fā)送電子郵件、發(fā)送sms)以及(例如,在數(shù)據(jù)庫或其他電子數(shù)據(jù)存儲區(qū)域中)記錄事件分類中的至少一個。在實施例中,這些動作與相應(yīng)種類的模型相關(guān)聯(lián)或否則可在分類被確定之后可取回。另外,可以向用戶提供事件分類的一個或多個視覺表示,其包括例如對最高概率事件種類的指示(例如,人類可讀描述或圖像)和多個其他高概率的事件分類(例如,以從最高概率到最低概率的遞減次序)的指示。
在實施例中,還可以經(jīng)由用戶接口通過警報消息來提供關(guān)于所述一個或多個事件分類的補充數(shù)據(jù)。一些這樣的補充數(shù)據(jù)可以是元數(shù)據(jù),僅舉幾例,其包括例如場景內(nèi)的發(fā)出聲音的對象的所謂的“易懂的英語”名稱、用以對目標(biāo)機(jī)器執(zhí)行操作(例如,修理或其他維護(hù))的指令、用戶定義的筆記/標(biāo)簽、指南、藍(lán)圖、特定機(jī)器的圖片(例如,包括剖視圖、3-d模型)、用于機(jī)器的服務(wù)標(biāo)簽(例如,其標(biāo)識號碼)、gps位置(地理位置)、檢測的日期、檢測的時間、建筑標(biāo)識符、要呼叫的電話號碼、要通知的電子郵件地址,以及檢測到的事件分類的文本描述。替代地,或除了元數(shù)據(jù)之外,補充數(shù)據(jù)可以是音頻和視頻數(shù)據(jù),其包括例如來自事件的聲音樣本、來自所觀察的場景的視頻/圖像(例如,具有或不具有疊加到圖像上的事件指示符的增強(qiáng)現(xiàn)實),或所觀察的場景的聲學(xué)圖像數(shù)據(jù)、音頻幀和圖像幀的任何部分或組合,具有或不具有元數(shù)據(jù)疊加。
圖5c描繪了依照本公開的實施例的由事件分類模塊408輸出的一個這樣的示例圖像幀。如所示,利用兩個事件(例如,圖5b的事件1和事件2)和事件標(biāo)簽(螺線管和活塞)來描繪得到的圖像。在實施例中,諸如在圖5c中描繪的示例圖像之類的圖像可以被再現(xiàn)和呈現(xiàn)在電子設(shè)備(例如,具有顯示器的智能電話、膝上型計算機(jī)或其他設(shè)備)的顯示器上。在該實施例中,電子設(shè)備可以在增強(qiáng)現(xiàn)實模式中呈現(xiàn)多個這些圖像,由此顯示器呈現(xiàn)所觀察的場景的實時圖像,其具有描繪事件的聲學(xué)熱圖和/或元數(shù)據(jù)的疊加。注意,可以以暗示所確定的事件被認(rèn)為正常還是異常的方式對長方形遮蔽413著色。例如,在圖5c中,可以以綠色長方形來框定(frame)螺線管位置,并且標(biāo)簽也可以是綠色的,從而指示正常操作(例如,噪聲,但噪聲被分類為機(jī)器的正常操作)。相反,可以以紅色長方形來框定活塞位置,其中用于事件(“活塞”)的標(biāo)簽也是紅色的,從而指示異常操作(例如,在機(jī)器中發(fā)生的潛在故障)??梢允褂迷S多其他這樣的顏色編碼方案,如將領(lǐng)會的。盡管事件區(qū)域被描繪為長方形,但應(yīng)領(lǐng)會,可能沒有示出這樣的長方形或類似框架。同樣地,應(yīng)領(lǐng)會,所描繪的形狀不限于長方形并且可以是例如正方形、圓和或梯形。另外,用于異常聲音區(qū)域的形狀可以與用于正常聲音區(qū)域的形狀不同。并且,在一些情況下,可以使用不同類型的加亮(例如,顏色、圖像、符號)和動畫(例如,閃光的文本、閃爍的符號和其他效果)來指示每個區(qū)域。另外,應(yīng)領(lǐng)會,聲音可能(例如,通過實現(xiàn)聲學(xué)監(jiān)視系統(tǒng)100的設(shè)備的揚聲器)伴隨這些圖像,諸如例如包括預(yù)先記錄的表達(dá)(例如,“在螺線管x中檢測到異常狀態(tài);可能需要維護(hù)”)的狀況的聽覺呈現(xiàn)。在實施例中,這些圖像可以被靜態(tài)地顯示或在增強(qiáng)現(xiàn)實模式中顯示給用戶,由此所觀察的場景的一個或多個圖像包括聲學(xué)熱圖和元數(shù)據(jù)疊加。
示例使用情況
如上面關(guān)于圖1所討論的,用于在本文中公開的場景分析技術(shù)的許多附加應(yīng)用應(yīng)當(dāng)根據(jù)本公開是顯然的。一個這樣的示例包括在城市或否則高業(yè)務(wù)量區(qū)域中的場景分析。在該示例中,可以檢測到事件,諸如例如汽車碰撞、泛洪、爆炸、打破窗戶(例如,搶劫)或其他典型的事件,其可以指示警察服務(wù)、消防和緊急醫(yī)療服務(wù)(ems)可能是必要的。在實施例中,事件的檢測可能導(dǎo)致位置連同事件的任何關(guān)聯(lián)的元數(shù)據(jù)一起被傳輸?shù)竭@樣的第一響應(yīng)者。另外,在一些應(yīng)用中,對進(jìn)入場景的運載工具的數(shù)目計數(shù)可能是必要的,并且在一些情況下,標(biāo)識運載工具是汽車還是卡車也可能是必要的。為此,汽車相對于卡車產(chǎn)生的獨特聲音可以被建模并且用來執(zhí)行這樣的分析。其他這樣的應(yīng)用將根據(jù)本公開而是顯然的。
另一這樣的示例是包括戰(zhàn)場的軍事環(huán)境。在這些環(huán)境中,潛在的敵人位置可以通過其發(fā)出的聲音來定位和分類。一些這樣的示例聲音可以是敵人武器的炮火(例如,ak-47的獨特顫振)、迫擊炮彈被丟到管中的砰的一聲、嗓音(例如,包括講特定語言的那些,將成人嗓音與孩子區(qū)分開、將男人與女人的嗓音區(qū)分開、檢測所講的特定語言),以及指示敵人/友好活動的任何其他聲音。在實施例中,可以將敵人位置(和分類描述)呈現(xiàn)為疊加到戰(zhàn)場的實時視頻上的長方形或其他加亮。在該實施例中,可以在增強(qiáng)現(xiàn)實模式中將這些疊加的圖像呈現(xiàn)在顯示器上,諸如例如頭盔中、基于地面的運載工具、航空器或例如觀察戰(zhàn)場的其他軍用運載工具的平視顯示器。
又一這樣的示例是家庭環(huán)境。在該環(huán)境中,可以對聲音進(jìn)行檢測和分類以(例如,基于課的中斷、門被打破或其他類似的入室行竊噪聲)確定搶劫是否正在發(fā)生。該環(huán)境的其他噪聲還可能對分類目的有用,并且可以包括例如水淹、煙霧報警器響起、炮火的聲音,僅舉幾例。
又一示例在災(zāi)難地帶中的災(zāi)難恢復(fù)的場地中。在該環(huán)境中,使用聲音來識別災(zāi)難地帶中的對象可能對于發(fā)現(xiàn)被困受害者、標(biāo)識氣體泄漏、爆裂的管道、來自第一響應(yīng)者“人下型”設(shè)備(例如,其在第一響應(yīng)者被確定為水平時發(fā)出聲音)的砰是有利的。許多變化將根據(jù)本公開是顯然的,并且這些提供的示例環(huán)境不意圖是限制性的。
分布式場景分析系統(tǒng)
圖6圖示了依照本公開的實施例配置的分布式聲學(xué)監(jiān)視系統(tǒng)600。如可以看見的,系統(tǒng)包括多個數(shù)據(jù)采集設(shè)備102,其通信地耦合到網(wǎng)絡(luò)601。另外,系統(tǒng)包括一個或多個聲學(xué)監(jiān)視系統(tǒng)100’,其分別通信地耦合到網(wǎng)絡(luò)601和網(wǎng)絡(luò)605。在實施例中,每個聲學(xué)監(jiān)視系統(tǒng)100’可以包括圖1的聲學(xué)監(jiān)視系統(tǒng)100的分離的實現(xiàn)。在該實施例中,每個聲學(xué)監(jiān)視系統(tǒng)100’可以是獨立系統(tǒng)(例如,具有數(shù)據(jù)采集設(shè)備102、聲學(xué)圖像控制器108、圖像控制器110和cav控制器112)或者是分布式的,使得一個或多個遠(yuǎn)程數(shù)據(jù)采集設(shè)備102提供音頻/視頻場景數(shù)據(jù)。另外,每個聲學(xué)監(jiān)視系統(tǒng)100’可以是具有獨立的質(zhì)量的混合系統(tǒng)(具有一個或多個采集設(shè)備的自包含系統(tǒng))并且還從一個或多個遠(yuǎn)程采集設(shè)備102接收音頻/視頻數(shù)據(jù)的一部分。為此,聲學(xué)監(jiān)視系統(tǒng)100’可以實時或接近實時地執(zhí)行聲學(xué)監(jiān)視和/或以獨立的或分布式的方式(例如,對先前捕捉的場景數(shù)據(jù))執(zhí)行預(yù)期分析。
如所示,分布式聲學(xué)監(jiān)視系統(tǒng)600可以包括兩個或更多個網(wǎng)絡(luò)(601和605),每個包括聲學(xué)監(jiān)視設(shè)備和多個采集設(shè)備。注意,分布式聲學(xué)監(jiān)視系統(tǒng)600不限于特定數(shù)目的網(wǎng)絡(luò),或那些網(wǎng)絡(luò)內(nèi)的聲學(xué)監(jiān)視系統(tǒng)/采集設(shè)備。為此,在圖6中示出的網(wǎng)絡(luò)布置不應(yīng)該被認(rèn)為是限制性的。如所示,兩個網(wǎng)絡(luò)601和605可以使能夠?qū)崿F(xiàn)協(xié)作的數(shù)據(jù)采集和聲學(xué)監(jiān)視過程。例如,網(wǎng)絡(luò)601的聲學(xué)監(jiān)視系統(tǒng)100’可以遠(yuǎn)程地訪問網(wǎng)絡(luò)605中的來自任何采集設(shè)備102的場景數(shù)據(jù)。同樣地,網(wǎng)絡(luò)605的聲學(xué)監(jiān)視系統(tǒng)100’可以訪問網(wǎng)絡(luò)601中的來自數(shù)據(jù)采集設(shè)備102中的任一個的場景數(shù)據(jù)。在任何事件中,應(yīng)領(lǐng)會,這樣的布置使得一些聲學(xué)監(jiān)視系統(tǒng)能夠分析場景數(shù)據(jù)以對第一類型的聲音事件進(jìn)行檢測和分類,而其他聲學(xué)監(jiān)視系統(tǒng)可以對來自相同場景、來自不同角度的相同場景和不同場景中的至少一個的第二類型的聲音事件進(jìn)行檢測和分類(例如,用于監(jiān)視或訓(xùn)練目的)。如將領(lǐng)會的,這在例如利用分而治之方法來平衡計算上昂貴的場景分析的工作負(fù)荷時是特別有利的。同樣地,應(yīng)領(lǐng)會,來自不同場景(例如,遠(yuǎn)程場景、不同角度)的數(shù)據(jù)可能對訓(xùn)練和機(jī)器學(xué)習(xí)有用。例如,新部署的監(jiān)視系統(tǒng)可能通過能夠訪問其他監(jiān)視系統(tǒng)的場景數(shù)據(jù)、模型和在先分類而受益于其他監(jiān)視系統(tǒng)。另外,應(yīng)進(jìn)一步領(lǐng)會,網(wǎng)絡(luò)601和603中的每個的聲學(xué)監(jiān)視系統(tǒng)100’分別可以利用來自數(shù)據(jù)采集設(shè)備102的數(shù)據(jù)來執(zhí)行進(jìn)行的訓(xùn)練例程,并且不僅在首先部署時。
在實施例中,能夠執(zhí)行場景數(shù)據(jù)收集模塊的應(yīng)用服務(wù)器603被配置成訪問各種數(shù)據(jù)采集設(shè)備102以從每個數(shù)據(jù)采集設(shè)備102獲得聲學(xué)圖像、圖像數(shù)據(jù)和音頻樣本。注意,附加的應(yīng)用服務(wù)器603可以被(例如,在網(wǎng)絡(luò)601中和/或網(wǎng)絡(luò)605中)實現(xiàn),并且在圖6中示出的實施例不應(yīng)被視為限制本公開??梢詫⑼ㄟ^服務(wù)器603接收的場景數(shù)據(jù)存儲在場景數(shù)據(jù)記憶裝置605中。如上面所討論的,可以實時或接近實時地或者在預(yù)期模式中執(zhí)行場景分析。為此,網(wǎng)絡(luò)601和603的聲學(xué)監(jiān)視系統(tǒng)100’分別可以訪問數(shù)據(jù)采集設(shè)備102中的一個或多個以接收場景數(shù)據(jù)的實時流(例如,實時傳輸協(xié)議(rtp))。替代地,或除了訪問采集設(shè)備之外,一個或多個聲學(xué)監(jiān)視系統(tǒng)100’可以經(jīng)由與應(yīng)用服務(wù)器603通信的應(yīng)用編程接口(api)或其他適當(dāng)?shù)牟考碓L問存儲在場景數(shù)據(jù)倉庫605內(nèi)的場景數(shù)據(jù)以取回這樣的數(shù)據(jù)。同樣地,一個或多個客戶端計算系統(tǒng)607也可能能夠(例如,經(jīng)由對基于云的狀況監(jiān)視系統(tǒng)的訂閱或一些其他授權(quán)的使用)訪問聲學(xué)監(jiān)視系統(tǒng)100’或數(shù)據(jù)采集設(shè)備102中的一個或多個。
網(wǎng)絡(luò)601可以是任何通信網(wǎng)絡(luò)或網(wǎng)絡(luò)的組合,諸如因特網(wǎng)和一個或多個本地接入網(wǎng)絡(luò)??梢允褂脽o線和有線網(wǎng)絡(luò)技術(shù),如將領(lǐng)會的。雖然僅示出了一個客戶端607和一個服務(wù)器603,但是將領(lǐng)會,可以按需在系統(tǒng)中包括任何數(shù)目的客戶端607和服務(wù)器603。每個客戶端607和服務(wù)器603可以利用任何適合的計算架構(gòu)來實現(xiàn),如通常進(jìn)行的那樣,并且被編程或以其他方式配置成執(zhí)行從分布式聲學(xué)監(jiān)視系統(tǒng)的場景收集。(多個)服務(wù)器603可以是例如基于云的感測系統(tǒng)的部分,諸如具有部署在各種位置和/或圍繞生產(chǎn)設(shè)施的其他位置中的聲學(xué)相機(jī)設(shè)備的工業(yè)狀況監(jiān)視系統(tǒng),使得用戶(例如,技術(shù)人員、管理者和其他人員)可以訪問系統(tǒng)以確定目標(biāo)場景(例如一個或多個機(jī)器)是否正在以正?;蚍駝t如預(yù)期的方式操作??蛻舳擞嬎阆到y(tǒng)607的用戶接口(ui)可以呈現(xiàn)圖像,例如與在圖5a、圖5b和圖5c中示出的圖像類似,但是可以使用任何數(shù)目的適合的ui方案。例如,可以呈現(xiàn)與檢測到的事件相關(guān)的附加補充數(shù)據(jù),其包括例如機(jī)器原理圖、指南、維護(hù)過程、機(jī)器的內(nèi)部工作的剖面圖或可以有助于檢測后動作的任何其他數(shù)據(jù)。如將進(jìn)一步領(lǐng)會的,類似的ui方案還可以被關(guān)于應(yīng)用服務(wù)器603使用并且用來提供對記憶裝置605的訪問,用于向該記憶裝置寫入數(shù)據(jù)和從該記憶裝置讀取數(shù)據(jù)二者。
可以例如在所謂的物聯(lián)網(wǎng)(iot)配置的背景下實現(xiàn)這樣的實施例以提供一個或多個聲學(xué)監(jiān)視系統(tǒng)100和數(shù)據(jù)采集設(shè)備102。進(jìn)一步注意,在這樣的iot系統(tǒng)中,這樣的設(shè)備可以被包括在特定位置處部署的固定位置節(jié)點(例如,監(jiān)控相機(jī)、cctv相機(jī))中。為此,聲學(xué)監(jiān)視系統(tǒng)100和數(shù)據(jù)采集設(shè)備102不需要是移動的。進(jìn)一步注意,聲學(xué)監(jiān)視系統(tǒng)100和采集設(shè)備和任何其他計算系統(tǒng)一樣在給定網(wǎng)絡(luò)上諸如通過給定的ip地址、mac地址和/或可以通過其訪問給定網(wǎng)絡(luò)上的元素的任何其他適合的尋址機(jī)制可尋址。采用分布式感測系統(tǒng)的許多變化和實施例將根據(jù)本公開而是顯然的。
示例系統(tǒng)
圖7圖示了依照各種示例實施例的使用在本文中公開的技術(shù)利用聲學(xué)監(jiān)控系統(tǒng)實現(xiàn)的計算系統(tǒng)700。在一些實施例中,系統(tǒng)700可以是用于經(jīng)由(未示出的)相機(jī)來捕捉和/或顯示靜止或移動的圖像的系統(tǒng),但是系統(tǒng)700不被限于該背景。例如,系統(tǒng)700可被合并到個人計算機(jī)(pc)、膝上型計算機(jī)、可穿戴計算設(shè)備、超級膝上型計算機(jī)、平板計算機(jī)、觸摸板、便攜式計算機(jī)、手持計算機(jī)、掌上計算機(jī)、個人數(shù)字助理(pda)、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備(例如智能電話、智能平板計算機(jī)或智能電視)、移動互聯(lián)網(wǎng)設(shè)備(mid)、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備、機(jī)頂盒、游戲控制臺或能夠執(zhí)行圖形再現(xiàn)操作并顯示內(nèi)容的其他這樣的計算環(huán)境中。
在一些實施例中,系統(tǒng)700包括耦合至顯示器720的平臺702。平臺702可從諸如(多個)內(nèi)容服務(wù)設(shè)備730或(多個)內(nèi)容遞送設(shè)備740之類的內(nèi)容設(shè)備或者其他類似的內(nèi)容源接收內(nèi)容。包括一個或多個導(dǎo)航特征的導(dǎo)航控制器750可被用來與例如平臺702和/或顯示器720交互,以便補充由用戶進(jìn)行的導(dǎo)航手勢。在下面更詳細(xì)地描述這些示例部件中的每個。
在一些實施例中,平臺702可包括芯片組705、處理器710、存儲器712、記憶裝置714、圖形子系統(tǒng)715、相機(jī)719、運動傳感器721、應(yīng)用716和/或無線電設(shè)備(radio)718的任何組合。芯片組705可提供處理器710、存儲器712、記憶裝置714、圖形子系統(tǒng)715、應(yīng)用716和/或無線電設(shè)備718之間的互相通信。例如,芯片組705可包括能夠提供與記憶裝置714的互相通信的記憶裝置適配器(未被描繪)。
處理器710可被實現(xiàn)例如為復(fù)雜指令集計算機(jī)(cisc)或精簡指令集計算機(jī)(risc)處理器、x86指令集兼容處理器、多核或任何其他微處理器或中央處理單元(cpu)。在一些實施例中,處理器710可以包括(多個)雙核處理器、(多個)雙核移動處理器等。存儲器712可以被實現(xiàn)例如為易失性存儲器設(shè)備,諸如但不限于隨機(jī)存取存儲器(ram)、動態(tài)隨機(jī)存取存儲器(dram)或靜態(tài)ram(sram)。記憶裝置714可被實現(xiàn)例如為非易失性存儲設(shè)備,諸如但不限于磁盤驅(qū)動器、光盤驅(qū)動器、磁帶驅(qū)動器、內(nèi)部存儲設(shè)備、附接存儲設(shè)備、閃存、電池備份sdram(同步dram)和/或網(wǎng)絡(luò)可訪問存儲設(shè)備。在一些實施例中,當(dāng)例如多個硬件驅(qū)動器被包括時,記憶裝置714可包括用來增加對有價值的數(shù)字媒體的存儲性能增強(qiáng)保護(hù)的技術(shù)。
圖形子系統(tǒng)715可執(zhí)行諸如用于顯示的靜止攝影或視頻之類的圖像的處理,并且在一些實施例中被配置成合成面部圖像,如在本文中不同地描述的那樣。圖形子系統(tǒng)715可以是例如圖形處理單元(gpu)或視覺處理單元(vpu)。模擬或數(shù)字接口可被用來通信地耦合圖形子系統(tǒng)715和顯示器720。例如,該接口可以是高清晰度多媒體接口、顯示端口、無線hdmi和/或無線hd兼容技術(shù)中的任一個。圖形子系統(tǒng)715可被整合在處理器710或芯片組705中。圖形子系統(tǒng)715可以是通信地耦合至芯片組705的獨立卡??稍诟鞣N硬件架構(gòu)中實現(xiàn)圖形和/或視頻處理技術(shù),其包括在本文中描述的用于標(biāo)識和產(chǎn)生優(yōu)選的面部朝向的技術(shù)。例如,圖形和/或視頻功能可被整合在芯片組內(nèi)。替代地,可使用分立的圖形和/或視頻處理器。作為又一實施例,可通過通用處理器(包括多核處理器)來實現(xiàn)圖形和/或視頻功能。在另一實施例中,可在消費類電子設(shè)備中實現(xiàn)所述功能。
無線電設(shè)備718可包括能夠使用各種適合的無線通信技術(shù)來傳輸和接收信號的一個或多個無線電設(shè)備。這樣的技術(shù)可涉及跨一個或多個無線網(wǎng)絡(luò)的通信。示例性無線網(wǎng)絡(luò)包括(但不限于)無線局域網(wǎng)(wlan)、無線個域網(wǎng)(wpan)、無線城域網(wǎng)(wman)、蜂窩網(wǎng)以及衛(wèi)星網(wǎng)。在跨這樣的網(wǎng)絡(luò)進(jìn)行通信時,無線電設(shè)備718可依據(jù)任何版本的一個或多個可適用標(biāo)準(zhǔn)來操作。
在一些實施例中,(多個)內(nèi)容服務(wù)設(shè)備730可通過任何國家的、國際的和/或獨立的服務(wù)來托管并且因此經(jīng)由例如因特網(wǎng)或其他網(wǎng)絡(luò)對平臺702而言是可訪問的。(多個)內(nèi)容服務(wù)設(shè)備730可被耦合至平臺702和/或顯示器720。平臺702和/或(多個)內(nèi)容服務(wù)設(shè)備730可被耦合至網(wǎng)絡(luò)760以向和從網(wǎng)絡(luò)760傳送(例如,發(fā)送和/或接收)媒體信息。(多個)內(nèi)容遞送設(shè)備740也可被耦合至平臺702和/或顯示器720。在一些實施例中,(多個)內(nèi)容服務(wù)設(shè)備730可包括有線電視盒、個人計算機(jī)、網(wǎng)絡(luò)、電話、能夠遞送數(shù)字信息和/或內(nèi)容的因特網(wǎng)使能設(shè)備或器具,以及能夠經(jīng)由網(wǎng)絡(luò)760或者直接地在內(nèi)容提供者與平臺702和/或顯示器720之間單向或雙向地傳送內(nèi)容的任何其他類似設(shè)備。將領(lǐng)會到,可經(jīng)由網(wǎng)絡(luò)760單向和/或雙向地向和從系統(tǒng)700中的部件和內(nèi)容提供者中的任一個傳送內(nèi)容。內(nèi)容的示例可包括任何媒體信息,包括例如視頻、音樂、圖形、文本、醫(yī)療和游戲內(nèi)容等。
(多個)內(nèi)容服務(wù)設(shè)備730接收內(nèi)容,諸如包括媒體信息、數(shù)字信息和/或其他內(nèi)容的有線電視節(jié)目。內(nèi)容提供者的示例可包括任何有線或衛(wèi)星電視或者無線電或因特網(wǎng)內(nèi)容提供者。所提供的示例不意味著限制本公開。在一些實施例中,平臺702可從具有一個或多個導(dǎo)航特征的導(dǎo)航控制器750接收控制信號。例如,控制器750的導(dǎo)航特征可被用來與用戶接口722交互。在一些實施例中,導(dǎo)航控制器750可以是定點設(shè)備,其可以是允許用戶將空間(例如連續(xù)且多維)數(shù)據(jù)輸入到計算機(jī)中的計算機(jī)硬件部件(具體地,人性化接口設(shè)備)。諸如圖形用戶接口(gui)和電視及監(jiān)視器之類的許多系統(tǒng)允許用戶使用物理手勢、面部表情或聲音等來控制數(shù)據(jù)和向計算機(jī)或電視提供數(shù)據(jù)。
控制器750的導(dǎo)航特征的移動可通過指針、光標(biāo)、聚焦環(huán)或顯示在顯示器上的其他視覺指示器的移動被重復(fù)在顯示器(例如顯示器720)上。例如,在軟件應(yīng)用716的控制下,位于導(dǎo)航控制器750上的導(dǎo)航特征可被例如映射成顯示在用戶接口722上的視覺導(dǎo)航特征。在一些實施例中,控制器750可能不是分離的部件,而是可被整合到平臺702和/或顯示器720中。然而,如將領(lǐng)會的,實施例不限于本文中所示或所描述的元件或背景下。
在一些實施例中,(未示出的)驅(qū)動器可包括使得用戶能夠例如在初始啟動之后、在被使能時利用按鈕的觸摸來立即打開和關(guān)閉平臺702(比如電視)的技術(shù)。程序邏輯可允許平臺702在平臺被“關(guān)閉”時將內(nèi)容流式傳輸至媒體適配器或其他(多個)內(nèi)容服務(wù)設(shè)備730或(多個)內(nèi)容遞送設(shè)備740。此外,芯片組705可包括支持例如5.1環(huán)繞聲音音頻和/或高清晰度7.1環(huán)繞聲音音頻的硬件和/或軟件。驅(qū)動器可包括用于集成圖形平臺的圖形驅(qū)動器。在一些實施例中,圖形驅(qū)動器可包括外圍部件互連(pci)express圖形卡。
在各種實施例中,系統(tǒng)700中示出的部件中的任何一個或多個可被整合。例如,平臺702和(多個)內(nèi)容服務(wù)設(shè)備730可被整合,或者平臺702和(多個)內(nèi)容遞送設(shè)備740可被整合,或者例如平臺702、(多個)內(nèi)容服務(wù)設(shè)備730和(多個)內(nèi)容遞送設(shè)備740可被整合。在各種實施例中,平臺702和顯示器720可以是集成單元。例如,顯示器720和(多個)內(nèi)容服務(wù)設(shè)備730可被整合,或者顯示器720和(多個)內(nèi)容遞送設(shè)備740可被整合。這些示例不意味著限制本公開。
在各種實施例中,系統(tǒng)700可以被實現(xiàn)為無線系統(tǒng)、有線系統(tǒng)或二者的組合。當(dāng)被實現(xiàn)為無線系統(tǒng)時,系統(tǒng)700可包括適于通過無線共享介質(zhì)進(jìn)行通信的部件和接口,諸如一個或多個天線、發(fā)射器、接收器、收發(fā)器、放大器、濾波器、控制邏輯等。無線共享介質(zhì)的示例可包括無線頻譜的部分,諸如rf頻譜等。當(dāng)被實現(xiàn)為有線系統(tǒng)時,系統(tǒng)700可包括適于通過有線通信介質(zhì)進(jìn)行通信的部件和接口,諸如輸入/輸出(i/o)適配器、連接i/o適配器與對應(yīng)的有線通信介質(zhì)的物理連接器、網(wǎng)絡(luò)接口卡(nic)、盤控制器、視頻控制器、音頻控制器等。有線通信介質(zhì)的示例可包括電線、電纜、金屬引線、印刷電路板(pcb)、背板、開關(guān)結(jié)構(gòu)、半導(dǎo)體材料、雙絞線、同軸電纜、光纖等。
平臺702可建立一個或多個邏輯或物理通道來傳送信息。信息可包括媒體信息和控制信息。媒體信息可指代表示打算用于用戶的內(nèi)容的任何數(shù)據(jù)。內(nèi)容的示例可包括例如來自語音會話、視頻會議、流式傳輸?shù)囊曨l、電子郵件或文本消息、語音郵件消息、字母數(shù)字符號、圖形、圖像(例如,自拍照等)、視頻、文本等的數(shù)據(jù)??刂菩畔⒖芍复硎敬蛩阌糜谧詣踊到y(tǒng)的命令、指令或控制字的任何數(shù)據(jù)。例如,控制信息可被用來通過系統(tǒng)來路由媒體信息或者指示節(jié)點(例如,使用幫助如在本文中描述的特權(quán)訪問違反檢查的硬件)以預(yù)先確定的方式處理媒體信息。然而,實施例不限于圖7中所示或所描述的元件或背景。
如上面所描述的,系統(tǒng)700可以以變化的物理樣式或形狀因子來體現(xiàn)。圖8圖示了可在其中體現(xiàn)系統(tǒng)700的小形狀因子設(shè)備800的實施例。在一些實施例中,例如,設(shè)備800可被實現(xiàn)為具有無線能力的移動計算設(shè)備。例如,移動計算設(shè)備可指代具有處理系統(tǒng)和移動電源或電力供應(yīng)(諸如一個或多個電池)的任何設(shè)備。
如先前所描述的,移動計算設(shè)備的示例可包括個人計算機(jī)(pc)、膝上型計算機(jī)、超級膝上型計算機(jī)、平板計算機(jī)、觸摸板、便攜式計算機(jī)、手持計算機(jī)、掌上計算機(jī)、個人數(shù)字助理(pda)、蜂窩電話、組合蜂窩電話/pda、電視、智能設(shè)備(例如智能電話、智能平板計算機(jī)或智能電視)、移動互聯(lián)網(wǎng)設(shè)備(mid)、消息傳送設(shè)備、數(shù)據(jù)通信設(shè)備等。
移動計算設(shè)備的示例還可包括被布置成由人穿戴的計算機(jī),諸如手腕計算機(jī)、手指計算機(jī)、戒指計算機(jī)、眼鏡計算機(jī)、腰帶夾計算機(jī)、臂帶計算機(jī)、鞋計算機(jī)、衣服計算機(jī)以及其他可穿戴計算機(jī)。在一些實施例中,例如,移動計算設(shè)備可被實現(xiàn)為能夠執(zhí)行計算機(jī)應(yīng)用以及語音通信和/或數(shù)據(jù)通信的智能電話。盡管可能利用被實現(xiàn)為智能電話的移動計算設(shè)備作為示例描述了一些實施例,但是可領(lǐng)會,也可使用其他無線移動計算設(shè)備來實現(xiàn)其他實施例。實施例不限于該背景下。
如圖8中所示,移動電子設(shè)備800可包括外殼802、顯示器804、輸入/輸出(i/o)設(shè)備806和天線808。設(shè)備800還可包括導(dǎo)航特征812。顯示器804可包括用于顯示適于移動計算設(shè)備的信息的任何適合的顯示單元,其在一個示例實施例中是觸摸屏顯示器。i/o設(shè)備806可包括用于將信息輸入到移動計算設(shè)備中的任何適合的i/o設(shè)備。i/o設(shè)備806的示例可包括字母數(shù)字鍵盤、數(shù)字小鍵盤、觸摸板、輸入鍵、按鈕、相機(jī)、開關(guān)、翹板開關(guān)、麥克風(fēng)、揚聲器、語音識別設(shè)備和軟件等。還可經(jīng)由麥克風(fēng)將信息輸入到設(shè)備800中。這樣的信息可通過語音識別設(shè)備來數(shù)字化。實施例不限于該背景下。
可使用硬件元件、軟件元件或二者的組合來實現(xiàn)各種實施例。硬件元件的示例可包括處理器、微處理器、電路、電路元件(例如晶體管、電阻器、電容器、電感器等)、集成電路、專用集成電路(asic)、可編程邏輯器件(pld)、數(shù)字信號處理器(dsp)、現(xiàn)場可編程門陣列(fpga)、邏輯門、寄存器、片上系統(tǒng)、半導(dǎo)體器件、芯片、微芯片、芯片組等。軟件的示例可包括軟件部件、程序、應(yīng)用、計算機(jī)程序、應(yīng)用程序、系統(tǒng)程序、機(jī)器程序、操作系統(tǒng)軟件、中間件、固件、軟件模塊、例程、子例程、函數(shù)、方法、過程、軟件接口、應(yīng)用程序接口(api)、指令集、計算代碼、計算機(jī)代碼、代碼段、計算機(jī)代碼段、字、數(shù)值、符號或其任何組合。是否使用硬件元件和/或軟件元件可以依照任何數(shù)目的因素從一個實施例變化到下一個實施例,所述因素諸如期望的計算速率、功率級、熱耐受性、處理周期預(yù)算、輸入數(shù)據(jù)速率、輸出數(shù)據(jù)速率、存儲器資源、數(shù)據(jù)總線速度以及其他設(shè)計或性能約束。
一些實施例可以例如使用可以存儲指令或指令集的機(jī)器可讀介質(zhì)或物品來實現(xiàn),所述指令或指令集在被機(jī)器執(zhí)行時可以使得機(jī)器執(zhí)行依照本公開的實施例的方法和/或操作。這樣的機(jī)器可以包括例如任何適合的處理平臺、計算平臺、計算設(shè)備、處理設(shè)備、計算系統(tǒng)、處理系統(tǒng)、計算機(jī)、處理器等,并且可以使用硬件和軟件的任何適合的組合來實現(xiàn)。機(jī)器可讀介質(zhì)或物品可以包括例如任何適合的類型的存儲器單元、存儲器設(shè)備、存儲器物品、存儲器介質(zhì)、存儲設(shè)備、存儲物品、存儲介質(zhì)和/或存儲單元,例如存儲器、可移除或不可移除介質(zhì)、可擦除或不可擦除介質(zhì)、可寫或可重寫介質(zhì)、數(shù)字或模擬介質(zhì)、影片、軟盤、壓縮盤只讀存儲器(cd-rom)、可記錄壓縮盤(cd-r)、可重寫壓縮盤(cd-rw)、光盤、磁性介質(zhì)、磁光介質(zhì)、可移除存儲器卡或盤,各種類型的數(shù)字通用盤(dvd)、磁帶、盒式磁帶等。指令可以包括使用任何適合的高級的、低級的、面向?qū)ο蟮?、視覺的、編譯的和/或解釋的編程語言實現(xiàn)的任何適合類型的可執(zhí)行代碼。
其他示例實施例
以下示例關(guān)于其他實施例,根據(jù)其許多置換和配置將是顯然的。
示例1是一種聲學(xué)監(jiān)視系統(tǒng),其包括麥克風(fēng)設(shè)備陣列;聲學(xué)圖像控制器,其被通信地耦合到麥克風(fēng)設(shè)備陣列并且被配置成基于從麥克風(fēng)設(shè)備陣列接收的多個音頻信號而輸出聲學(xué)圖像數(shù)據(jù);以及計算機(jī)音頻視覺(cav)控制器,其通信地耦合到聲學(xué)圖像控制器并且包括事件識別模式,所述事件識別模式被配置成至少分析聲學(xué)圖像數(shù)據(jù)的部分以檢測所觀察的場景內(nèi)的一個或多個聲音事件,并且確定引起所述一個或多個聲音事件的至少一個狀況。
示例2包括示例1的主題,其中cav控制器被進(jìn)一步配置成響應(yīng)于檢測到一個或多個聲音事件而生成針對用于每個相應(yīng)的聲音事件的多維事件簽名,并且其中每個多維事件簽名至少包括聲學(xué)圖像數(shù)據(jù)的部分和基于所述多個音頻信號的一組經(jīng)空間濾波的聲音信號。
示例3包括示例2的主題,其中cav控制器被進(jìn)一步配置成將所述一個或多個聲音事件的位置與通過視覺圖像傳感器捕捉的圖像幀的對應(yīng)部分相關(guān)。
示例4包括示例3的主題,其中cav控制器被進(jìn)一步配置成從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的一個或多個聲學(xué)圖像幀的相關(guān)區(qū)域提取第一組視覺特征;從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的一個或多個圖像幀的相關(guān)區(qū)域提取第二組視覺特征;以及從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的經(jīng)空間濾波的聲音信號提取音頻特征。
示例5包括示例4的主題,其中cav控制器被進(jìn)一步配置成:針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件,相對于一個或多個預(yù)定義的事件種類模型對多維事件簽名進(jìn)行評分,以及基于一個或多個經(jīng)評分的事件種類模型對引起一個或多個事件中的至少一個聲音事件的狀況進(jìn)行分類。
示例6包括示例1-5的主題,其中麥克風(fēng)設(shè)備陣列中的每個麥克風(fēng)設(shè)備包括全向頻率響應(yīng)。
示例7包括示例1-5的主題,其中麥克風(fēng)設(shè)備陣列中的每個麥克風(fēng)設(shè)備包括單向、雙向、獵槍、接觸和拋物線麥克風(fēng)類型中的至少一個。
示例8包括示例1-7的主題,其中麥克風(fēng)設(shè)備陣列中的每個麥克風(fēng)設(shè)備包括相同的頻率響應(yīng)和靈敏度。
示例9包括示例1-8的主題,其中麥克風(fēng)設(shè)備陣列的第一子集包括具有第一頻率響應(yīng)的麥克風(fēng)設(shè)備,并且第二子集包括具有第二頻率響應(yīng)的麥克風(fēng)設(shè)備。
示例10包括示例9的主題,其中第一子集和第二子集中的至少一個包括作為目標(biāo)的頻率響應(yīng)。
示例11包括示例1-10的主題,其中麥克風(fēng)設(shè)備陣列包括2-d陣列,2-d陣列包括mxn麥克風(fēng)模式。
示例12包括示例1-11的主題,其中麥克風(fēng)設(shè)備陣列包括寬邊陣列。
示例13包括示例1-12的主題,進(jìn)一步包括視覺圖像傳感器。
示例14包括示例13的主題,其中視覺圖像傳感器被定位在麥克風(fēng)設(shè)備陣列的中心。
示例15包括示例13-14的主題,其中視覺圖像傳感器被配置成產(chǎn)生rgb圖像流。
示例16包括示例13-15的主題,其中視覺圖像傳感器包括紅外圖像傳感器。
示例17包括示例13-16的主題,其中視覺圖像傳感器和麥克風(fēng)設(shè)備陣列每個都具有捕捉域并且被配置成使得捕捉域彼此空間對準(zhǔn)。
示例18包括示例13-17的主題,其中基于公共時鐘方案將通過視覺圖像傳感器輸出的圖像數(shù)據(jù)和通過麥克風(fēng)陣列輸出的多個音頻信號時間對準(zhǔn)。
示例19包括示例1-18的主題,進(jìn)一步包括處理器,其被配置成響應(yīng)于cav控制器在所觀察的場景中檢測到至少一個聲音事件并且確定引起所述至少一個聲音事件的狀況而發(fā)出警報。
示例20包括示例19的主題,進(jìn)一步包括如下中的至少一個:用以視覺上呈現(xiàn)警報的顯示器、用以呈現(xiàn)警報的觸覺元件以及用以聽覺上呈現(xiàn)警報的揚聲器。
示例21包括示例20的主題,其中顯示器是觸摸屏顯示器。
示例22包括示例1-21的主題,進(jìn)一步包括用戶接口,其被配置成響應(yīng)于在所觀察的場景內(nèi)檢測到的至少一個聲音事件而呈現(xiàn)聲音事件信息。
示例23包括示例22的主題,其中用戶接口提供增強(qiáng)現(xiàn)實呈現(xiàn),使得聲音事件信息疊加在所觀察的場景的一個或多個視覺圖像上。
示例24包括示例23的主題,其中增強(qiáng)現(xiàn)實呈現(xiàn)進(jìn)一步包括疊加到所觀察的場景的一個或多個圖像上的半透明的聲學(xué)熱圖。
示例25包括示例22-24的主題,其中聲音事件信息包括對象標(biāo)識符、用戶定義的標(biāo)簽和地理位置標(biāo)識符中的至少一個。
示例26是一種片上系統(tǒng)(soc),其包括如在前述示例中的任一個中限定的系統(tǒng)。
示例27是一種移動計算設(shè)備,其包括前述示例中的任一個的系統(tǒng)。
示例28包括示例27的主題,其中移動計算設(shè)備是可穿戴設(shè)備、智能電話、平板計算機(jī)或膝上型計算機(jī)中的一個。
示例29是至少一種編碼有指令的非瞬態(tài)計算機(jī)程序產(chǎn)品,所述指令在被一個或多個處理器執(zhí)行時使得過程被執(zhí)行,過程包括:從聲學(xué)成像控制器接收多個聲學(xué)圖像幀和多個經(jīng)空間濾波的聲音信號,所述多個聲學(xué)圖像幀和所述多個經(jīng)空間濾波的聲音信號表示所觀察的場景的空間譜;確定一個或多個聲音事件在所述多個聲學(xué)圖像幀內(nèi)的位置;以及響應(yīng)于確定一個或多個聲音事件的位置而生成針對每個相應(yīng)的聲音事件的多維事件簽名,其中每個多維事件簽名至少包括聲學(xué)圖像幀的部分和來自所述多個經(jīng)空間濾波的聲音信號的一組經(jīng)空間濾波的聲音信號。
示例30包括示例29的主題,過程進(jìn)一步包括接收表示所觀察的場景的多個圖像幀。
示例31包括示例30的主題,其中所述多個聲學(xué)圖像幀、所述多個經(jīng)空間濾波的聲音信號以及所述多個圖像幀被空間和時間對準(zhǔn)。
示例32包括示例29-31的主題,其中確定一個或多個聲音事件的位置的動作進(jìn)一步包括對增量圖像利用峰值檢出算法,增量圖像從所述多個聲學(xué)圖像幀生成,其中僅在增量圖像內(nèi)的具有超過預(yù)定義的閾值的像素強(qiáng)度的那些像素被登記為聲音事件。
示例33包括示例32的主題,其中所述一個或多個聲音事件中的每個聲音事件的位置與聲學(xué)圖像數(shù)據(jù)的超過預(yù)定義的閾值的那些像素的幾何區(qū)域相關(guān)。
示例34包括示例30-33的主題,過程進(jìn)一步包括將所述一個或多個聲音事件的位置與圖像幀的對應(yīng)部分相關(guān)。
示例35包括示例29-34的主題,進(jìn)一步包括將針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的該組經(jīng)空間濾波的聲音信號加和。
示例36包括示例35的主題,過程進(jìn)一步包括從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的一個或多個聲學(xué)圖像幀的相關(guān)區(qū)域提取第一組視覺特征,從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的一個或多個圖像幀的相關(guān)區(qū)域提取第二組視覺特征,以及從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的被加和的經(jīng)空間濾波的聲音信號提取音頻特征。
示例37包括示例36的主題,其中提取第一組視覺特征和第二組視覺特征進(jìn)一步包括利用尺度不變特征變換(sift)。
示例38包括示例36-37的主題,其中從針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的被加和的經(jīng)空間濾波的信號提取音頻特征進(jìn)一步包括利用梅爾頻率倒譜系數(shù)(mfcc)。
示例39包括示例36-38的主題,其中針對每個相應(yīng)的聲音事件生成的多維事件簽名至少包括第一組提取的視覺特征的部分、第二組提取的視覺特征的部分和提取的音頻特征的部分。
示例40包括示例29-39的主題,過程進(jìn)一步包括針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件相對于一個或多個預(yù)定義的事件種類模型對多維事件簽名進(jìn)行評分,以及基于一個或多個經(jīng)評分的事件種類模型對引起所述一個或多個聲音事件中的至少一個聲音事件的狀況進(jìn)行分類。
示例41包括示例40的主題,其中所述一個或多個預(yù)定義的事件種類模型每個包括高斯混合模型(gmm)。
示例42包括示例40-41的主題,其中所述一個或多個預(yù)定義的事件種類模型被先驗地確定。
示例43包括示例40-42的主題,其中通過訓(xùn)練例程來生成所述一個或多個預(yù)定義的事件種類模型。
示例44包括示例40-43的主題,過程進(jìn)一步包括基于針對所述一個或多個聲音事件的每個分類的狀況向用戶呈現(xiàn)一個或多個警報。
示例45包括示例44的主題,其中經(jīng)由顯示屏幕視覺上呈現(xiàn)所述一個或多個警報。
示例46包括示例44-45的主題,其中經(jīng)由揚聲器聽覺上呈現(xiàn)所述一個或多個警報。
示例47包括示例44-46的主題,其中過程進(jìn)一步包括將所述一個或多個警報和針對所述一個或多個聲音事件中的每個聲音事件的補充數(shù)據(jù)記錄在數(shù)據(jù)庫中。
示例48包括示例47的主題,其中補充數(shù)據(jù)包括如下中的至少一個:檢測的日期、檢測的時間、檢測的地理位置、對經(jīng)分類的狀況的描述,以及發(fā)出所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的對象標(biāo)識符或標(biāo)簽。
示例49是一種用于狀況監(jiān)視的計算機(jī)實現(xiàn)方法,方法包括:通過處理器接收多個聲學(xué)圖像幀和多個經(jīng)空間濾波的聲音信號,所述多個聲學(xué)圖像幀和所述多個經(jīng)空間濾波的聲音信號表示所觀察的場景的空間譜;確定一個或多個聲音事件在所述多個聲學(xué)圖像幀內(nèi)的位置;以及響應(yīng)于確定一個或多個聲音事件的位置而生成針對每個相應(yīng)的聲音事件的多維事件簽名,其中每個多維事件簽名至少包括聲學(xué)圖像幀的部分和來自所述多個經(jīng)空間濾波的聲音信號的一組經(jīng)空間濾波的聲音信號。
示例50包括示例49的主題,進(jìn)一步包括針對所述一個或多個聲音事件中的每個相應(yīng)的聲音事件相對于一個或多個預(yù)定義的事件種類模型對多維事件簽名進(jìn)行評分,基于一個或多個經(jīng)評分的預(yù)定義的事件種類模型對引起所述一個或多個聲音事件中的至少一個聲音事件的狀況進(jìn)行分類,以及響應(yīng)于對引起所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的狀況進(jìn)行分類而顯示視覺上表示聲音事件信息的用戶接口。
示例51包括示例50的主題,其中顯示描繪聲音事件信息的用戶接口進(jìn)一步包括在增強(qiáng)現(xiàn)實模式中顯示圖像數(shù)據(jù)的一個或多個幀,其中聲音事件信息在發(fā)出所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的位置處疊加在圖像數(shù)據(jù)的所述一個或多個幀上。
示例52包括示例51的主題,其中增強(qiáng)現(xiàn)實模式進(jìn)一步包括顯示半透明的聲學(xué)熱圖,其表示所述一個或多個聲音事件中的每個相應(yīng)的聲音事件的響度強(qiáng)度和位置。
示例53包括示例49-52的主題,其中接收所述多個聲學(xué)圖像幀和所述多個經(jīng)空間濾波的聲音信號進(jìn)一步包括從遠(yuǎn)程存儲服務(wù)器至少接收所述多個聲學(xué)圖像幀和所述多個經(jīng)空間濾波的聲音信號的部分。
示例54包括示例49-53的主題,方法進(jìn)一步包括接收至少一個新的或更新的預(yù)定義的事件種類模型。
出于說明和描述的目的呈現(xiàn)了示例實施例的前述描述。其不意圖是詳盡的或?qū)⒈竟_限于所公開的精確形式。根據(jù)本公開的許多修改和變化是可能的。意圖本公開的范圍不被該詳細(xì)描述限制,而是由附著到其的權(quán)利要求書限制。要求本申請的優(yōu)先權(quán)的將來提交的申請可以以不同的方式要求保護(hù)所公開的主題,并且一般可以包括如在本文中不同地公開或以其他方式展示的一個或多個限制的任何集合。