日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于車聯(lián)網(wǎng)環(huán)境的手勢識別系統(tǒng)

文檔序號:39724513發(fā)布日期:2024-10-22 13:21閱讀:2來源:國知局
基于車聯(lián)網(wǎng)環(huán)境的手勢識別系統(tǒng)

本發(fā)明涉及一種人機交互和手勢分類識別系統(tǒng),更具體地說是一種基于改良目前算法用以提高精度的車載手勢識別系統(tǒng)。


背景技術:

1、市面上的車載手勢交互終端類型豐富,有基于雷達波原理的,還有針對硬件設備做出改進用來提升整體效果的。目前的交互越來越注重用戶體驗,交互屏幕高清,色彩生動,觸屏更加靈敏便捷。雖然大屏幕為枯燥的車內(nèi)環(huán)境增添了互動趣味性和生動性,但同樣會使得車內(nèi)用戶過于關注屏幕而忽略外部環(huán)境。再加上實時導航帶來的語音提示,內(nèi)部環(huán)境會變得混亂。

2、隨著車內(nèi)配置不斷升級,向著功能多樣化、空間立體化、操作簡單化發(fā)展,很多用戶喜歡追求精簡的操作流程和直觀的反饋效果。不受空間場景變換影響的識別技術更加受青睞,與改變采樣設備相比,改進內(nèi)部算法對絕大多數(shù)交互系統(tǒng)實用度更高,后續(xù)升級也更方便。不需要用戶拆解交互設備定期返廠升級,也不需要占用過多車內(nèi)空間,體現(xiàn)了交互的安全性和實用性。

3、近些年,許多學者提出了不少方法來實現(xiàn)車載手勢識別,比如基于卷積神經(jīng)網(wǎng)絡的方法。但是這種方法存在一個成本問題,它們需要精確計算圖片的每一個位置,不適合實時性要求比較高的場景。本發(fā)明旨在通過實時目標檢測算法,提高其應用價值,在確保識別準確度的前提下保證效率。


技術實現(xiàn)思路

1、為解決上述問題,本發(fā)明提供了一種基于車聯(lián)網(wǎng)環(huán)境的手勢識別系統(tǒng)。其目的在于,提供一種圖像增強算法,處理后的圖像清晰度增加。此外,通過改進特征提取層次,建立全局信息,對圖像分析更加全面,從而提高實時處理速率。

2、為了實現(xiàn)上述目的,本發(fā)明提供的技術方案是這樣的:

3、一種基于車聯(lián)網(wǎng)環(huán)境的手勢識別系統(tǒng),包括:手勢輸入模塊、圖像預處理模塊、手勢分類模塊、執(zhí)行模塊、后處理模塊。

4、手勢輸入模塊的作用是攝像頭采集手部動作,達到實時記錄并傳入下一處理單元的目的。

5、圖像預處理模塊是對采集到的圖片進行特征提取與檢測、特征描述、特征匹配這一系列操作。

6、手勢分類模塊是對上述處理之后獲取的特征與數(shù)據(jù)庫中的現(xiàn)有手勢進行比對,進而得出最符合的一個含義。

7、執(zhí)行模塊是系統(tǒng)根據(jù)已知手勢做出響應,執(zhí)行對應操作的過程。

8、后處理模塊是記錄上述已完成的指令。

9、其中手勢輸入模塊的采集攝像頭位于顯示屏頂端,采取內(nèi)置的方式安裝。在方便采集圖像的基礎上節(jié)省內(nèi)部空間,且不需要多余連線,同時具備實用性和安全性。

10、圖像預處理模塊首先利用uformer用于圖片增強,獲取到的圖像稱為一代圖像。其次,提取一代圖像中相關特征,描述特征,并進行特征匹配。

11、由于行車位置不固定,車內(nèi)環(huán)境并非均一不變,所以會存在圖像模糊、邊界或者特征不明顯的情況。為避免后續(xù)手勢分割、特征提取和識別匹配等步驟受到影響,在圖像分割之前需要對圖片去噪處理。采用基于uformer的去噪算法處理拍攝到的圖片,在改進原有結構的基礎上進一步縮短處理時間。

12、基于transformer的架構uformer用于圖像去噪,它采用transformer模塊構建了一種分層編解碼網(wǎng)絡。uformer的核心設計之一使其適用于圖像增強任務。

13、局部增強窗口transformer模塊:采用非重疊的基于窗口的自注意力降低計算量,同時在前向網(wǎng)絡中采用深度卷積進一步改善其捕獲局部上下文的能力。

14、首先是uformer的整體架構,整個網(wǎng)絡結構是一種u型可跳過連接網(wǎng)絡。具體來說,給定輸入退化圖像i∈r3×h×w,uformer首先采用3×3卷積+leakyrelu提取底層特征x0∈rc×h×w;

15、接下來,按照u型架構,特征x0將由k個編碼器進行處理,每個編碼器包含多個所提lewin?transformer模塊與一個下采樣層。lewin?transformer利用自注意力機制捕獲長距離依賴,同時通過非重疊窗口上的自注意力降低計算量;

16、在下采樣層,我們首先將平展特征reshape為2d形式,然后采用stride=2的4×4卷積下采樣,同時通道數(shù)加倍。比如,在給定輸入x0∈rc×h×w下,第l階段的編碼器輸出特征圖

17、然后,瓶頸階段位于編碼階段的底部,它由多個lewin?transformer模塊構成。在這個階段,受益于分層結構,transformer可以捕獲更長距離依賴,甚至全局依賴。

18、在特征重建方面,所提解碼器同樣包含k個階段,每個階段包含一個上采樣層與多個lewin?transformer模塊(類似于編碼器部分)。采用stride=2的2×2反卷積進行上采樣,它在提升特征分辨率同時降低通道數(shù)。

19、上采樣之后的特征以及同級編碼器的特征將送入到lewin?transformer模塊。經(jīng)過k個解碼器處理后,我們將平展特征reshape為2d特征,然后采用3×3卷積得到殘差圖像r∈r3×h×w。

20、最后,重建圖像通過i′=i+r得到。損失函數(shù)選擇了charbonnier損失。

21、接下來是lewin?transformer模塊主要說明:

22、由于傳統(tǒng)的transformer處理圖像會存在計算量較大和局部上下文信息弱化這兩個問題,因此提出局部增強窗口transformer(locally-enhance?window,lewin),它采用transformer的自注意力捕獲長距離依賴,同時將卷積引入到transformer以捕獲有用的局部上下文信息。

23、具體來說,給定第l-1的輸出特征x_(l-1),基于非重疊窗口多頭自注意力和局部增強前饋網(wǎng)絡兩個核心構建模塊:

24、非重疊窗口多頭自注意力(w-msa)

25、局部增強前饋網(wǎng)絡(leff)

26、lewin模塊可以表示成如下形式:

27、x′l=w-msa(ln(xl-1))+xl-1

28、xl=leff(ln(x′l))+x′l

29、w-msa區(qū)別于標準transformer的全局自注意力,在非重疊局部窗口執(zhí)行自注意力,可以有效降低計算量。相比全局自注意力,基于窗口的自注意力可以大幅減少計算量。由于uformer采用了分層結構,在低分辨率特征時該注意力具有大感受野,可以有效捕獲長距離依賴。

30、由于本發(fā)明采用實時目標檢測算法處理圖像,從而可以得到以下有益的效果:

31、其自身具備的高度適應性的優(yōu)點,使得檢測系統(tǒng)無需重新訓練從而提高了效率。

32、通過線性變換,先將數(shù)據(jù)映射到高緯度的空間再映射到低緯度的空間,提取了更深層次的特征。

33、rt-detr是一種基于transformer的實時目標檢測、嵌入和跟蹤模型。它通過結合目標檢測、特征嵌入和目標跟蹤三個任務,實現(xiàn)了高效準確的實時目標識別和跟蹤。以往的車內(nèi)手勢識別效果不好,其中一方面原因是做不到實時性,或者受無關條件干擾較大。

34、與目前現(xiàn)有的實時目標檢測器相比,rt-detr不需要后處理,減少了推理延遲并提高了檢測速度。rt-detr的核心思想是將目標檢測和目標跟蹤這兩個傳統(tǒng)獨立的任務進行統(tǒng)一建模,并利用transformer網(wǎng)絡進行特征提取和關聯(lián)學習。相比于傳統(tǒng)的兩階段目標檢測器,rt-detr采用端到端的方式,直接從輸入圖像中提取目標特征并輸出目標的位置和類別信息,極大地簡化了目標檢測流程。

35、接下來詳細介紹一下這個結構,主要包括backbone部分、efficient?hybridencoder部分、iou-aware?query?selection部分和decoder以及head部分。

36、其中每一幀圖片經(jīng)過backbone部分輸入,將這最后三階段(分別是s3、s4、s5)的輸出特征作為編碼器的輸入?;旌暇幋a器通過尺度內(nèi)交互(aifi)和跨尺度融合(ccfm)將多尺度特征轉(zhuǎn)換為一系列圖像特征。

37、隨后,采用解耦感知查詢選擇模塊從編碼器輸出序列中選擇固定數(shù)量的圖像特征,作為解碼器的初始對象查詢。最后,具有輔助預測頭的解碼器迭代地優(yōu)化對象查詢生成框和置信度得分。

38、其中高效混合編碼器優(yōu)化了deformable-detr中多尺度transformer編碼器中的計算冗余,連接的多尺度之間進行特征交互是多余的,并設計了一系列的編碼器變體進行實驗驗證;證明多尺度特征交互解耦為尺度內(nèi)交互和跨尺度融合后提高了模型準確性并顯著降低了計算成本。

39、混合編碼器結構:基于注意力的aifi和基于cnn的ccfm;aifi僅在s5上執(zhí)行尺度交互;ccfm在融合路徑中插入了幾個由卷積層組成的融合塊,融合塊將相鄰特征合并為一個新特征。這種設計結構使得模型能夠維持高精度的同時,顯著提高處理速度。

40、利用分類得分從編碼器中選擇前k個特征來初始化object?queries,由于分類分數(shù)和位置置信度分布不一致,會出現(xiàn)高分類分數(shù)和低iou分數(shù)的框。

41、iou-aware?query?selection部分在訓練過程中約束模型為具有高iou分數(shù)的特征產(chǎn)生高分類分數(shù),為具有低iou得分的特征產(chǎn)生低分類分數(shù),從而優(yōu)化模型性能。因此選出的前k個預測框具有高分類得分和高iou得分,將iou分數(shù)引入分類分支的目標函數(shù)中。

42、rt-detr的decoder通常由以下步驟組成:

43、特征嵌入:將編碼器的輸出轉(zhuǎn)換為適合decoder處理的嵌入表示。

44、位置編碼:為對象查詢添加位置編碼,以提供序列中的位置信息。

45、多頭自注意力:decoder內(nèi)部使用多頭自注意力機制來處理對象查詢。

46、交叉注意力:decoder通過交叉注意力機制與編碼器的輸出進行交互。

47、輸出層:最終,decoder的輸出通過一個線性層或類似的結構轉(zhuǎn)換為類別預測和邊界框坐標。

48、基于transformer的decoder:rt-detr的decoder采用了標準的transformerdecoder結構,它通過自注意力機制(self-attention)和跨注意力機制(cross-attention)處理編碼器的輸出特征。

49、object?query:在transformer?decoder中,每個目標由一個對象查詢(objectquery)表示,這些查詢向量通過與編碼器輸出的特征圖進行交互,生成目標的類別和邊界框預測。

50、cross-attention:decoder中的cross-attention機制允許對象查詢與編碼器的特征圖進行交互,這有助于模型學習到目標的空間位置信息。

51、self-attention:self-attention機制使decoder中的每個查詢都能夠考慮到其他查詢的信息,這有助于模型處理重疊或相互關聯(lián)的目標。

52、分層結構:rt-detr的decoder可能包含多個層次,每一層都對前一層的輸出進行進一步的細化,以提高檢測的準確性。

53、iou感知的查詢選擇:rt-detr引入了一種iou(交并比)感知的查詢選擇機制,這有助于優(yōu)化解碼器查詢的初始化,從而提高檢測性能。

54、靈活性:rt-detr支持通過使用不同數(shù)量的解碼器層來靈活調(diào)整模型的推理速度,而不需要重新訓練模型。

55、去噪思想:rt-detr的decoder部分采用了dino(distilled?knowledge?fromtransformers)的思想,使用“去噪學習”來提升雙邊匹配的樣本質(zhì)量,加快訓練的收斂速度。

56、iou軟標簽:在rt-detr的decoder中,分類標簽被替換為iou軟標簽,這有助于模型更精確地預測邊界框。

57、端到端學習:decoder的設計允許rt-detr直接從圖像像素到邊界框和類別預測的端到端學習,無需額外的后處理步驟,如非極大值抑制(nms)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1