本發(fā)明涉及計算機視覺及圖像處理,尤其涉及一種基于多模態(tài)大模型的行為識別方法、裝置、計算機可讀存儲介質、計算機程序產(chǎn)品及終端設備。
背景技術:
1、隨著文明城市的建設和各種法律法規(guī)、規(guī)章制度的完善,對人們的行為規(guī)范提出了更高的要求,特別是在公共場合、特殊作業(yè)場合中出現(xiàn)的存在安全隱患的各種違規(guī)行為(例如,遛狗違規(guī)行為、騎行/駕駛違規(guī)行為、施工作業(yè)違規(guī)行為、比賽違規(guī)行為等)成為當前備受關注的問題。盡管傳統(tǒng)的行為監(jiān)管方法,如人工巡查等,取得了一定成效,但是,由于人力、成本和效率等方面的限制,對違規(guī)行為的實時檢測和取證依然面臨著困難,難以滿足現(xiàn)代智慧城市管理的需求。
2、隨著科技的發(fā)展,一些自動行為識別方法被相繼提出,能夠客戶傳統(tǒng)的行為監(jiān)管方法所存在的缺陷,為智慧城市管理維護提供了可能性。但是,現(xiàn)有的行為識別方法受到光照條件變化、視角多樣性、背景復雜等諸多因素的影響,特別是在復雜的監(jiān)控場景(例如街道等)中,容易出現(xiàn)漏檢、誤判問題,從而導致行為識別方案的魯棒性低,行為識別結果的準確性低。
技術實現(xiàn)思路
1、本發(fā)明實施例的目的在于,提供一種基于多模態(tài)大模型的行為識別方法、裝置、計算機可讀存儲介質、計算機程序產(chǎn)品及終端設備,能夠有效減少漏檢、誤判問題,從而提高行為識別方案的魯棒性和行為識別結果的準確性。
2、為了實現(xiàn)上述目的,本發(fā)明實施例提供了一種基于多模態(tài)大模型的行為識別方法,包括:
3、獲取待檢測圖像;
4、將所述待檢測圖像輸入多模態(tài)大模型中對被檢測目標進行檢測和分類,獲得目標檢測結果和目標分類結果;其中,所述被檢測目標包括第一物體、第二物體和人物,所述多模態(tài)大模型是利用包含思維鏈推理描述的指令數(shù)據(jù)集進行訓練獲得的;
5、當所述目標檢測結果中出現(xiàn)第一物體時,根據(jù)所述目標檢測結果和所述目標分類結果進行行為識別,獲得行為識別結果。
6、進一步地,所述多模態(tài)大模型通過以下步驟訓練獲得:
7、獲取原始圖像樣本集;
8、對所述原始圖像樣本集中的每一張圖像中包含的被檢測目標的位置及類別進行標注,獲得標注圖像樣本集;其中,第一物體的類別包括違規(guī)類別和合規(guī)類別;
9、獲取所述標注圖像樣本集中的每一張圖像對應的行為識別的思維鏈推理描述及結論;
10、將所述標注圖像樣本集整理為包含圖像、指令信息、目標位置、目標類別、思維鏈推理描述及結論的指令數(shù)據(jù)集;
11、根據(jù)所述指令數(shù)據(jù)集進行模型訓練和優(yōu)化,獲得所述多模態(tài)大模型。
12、進一步地,所述當所述目標檢測結果中出現(xiàn)第一物體時,根據(jù)所述目標檢測結果和所述目標分類結果進行行為識別,獲得行為識別結果,具體包括:
13、當所述目標檢測結果中出現(xiàn)第一物體時,根據(jù)所述目標分類結果判斷出現(xiàn)的第一物體的類別;
14、當?shù)谝晃矬w的類別為違規(guī)類別時,獲得行為識別結果為存在違規(guī)行為,并觸發(fā)警報;
15、當?shù)谝晃矬w的類別為合規(guī)類別時,根據(jù)所述目標檢測結果識別是否存在違規(guī)行為,獲得行為識別結果。
16、進一步地,所述當?shù)谝晃矬w的類別為合規(guī)類別時,根據(jù)所述目標檢測結果識別是否存在違規(guī)行為,獲得行為識別結果,具體包括:
17、當?shù)谝晃矬w的類別為合規(guī)類別時,判斷所述目標檢測結果中是否出現(xiàn)與第一物體相關聯(lián)的第二物體;
18、當所述目標檢測結果中未出現(xiàn)與第一物體相關聯(lián)的第二物體時,獲得行為識別結果為存在違規(guī)行為,并觸發(fā)警報。
19、進一步地,所述當?shù)谝晃矬w的類別為合規(guī)類別時,根據(jù)所述目標檢測結果識別是否存在違規(guī)行為,獲得行為識別結果,還包括:
20、當所述目標檢測結果中出現(xiàn)與第一物體相關聯(lián)的第二物體時,對第一物體進行行為跟蹤,判斷所述目標檢測結果中是否出現(xiàn)與第二物體相關聯(lián)的人物;
21、當所述目標檢測結果中出現(xiàn)與第二物體相關聯(lián)的人物時,獲得行為識別結果為不存在違規(guī)行為。
22、進一步地,所述當?shù)谝晃矬w的類別為合規(guī)類別時,根據(jù)所述目標檢測結果識別是否存在違規(guī)行為,獲得行為識別結果,還包括:
23、當所述目標檢測結果中未出現(xiàn)與第二物體相關聯(lián)的人物時,基于對第一物體的行為跟蹤獲取未出現(xiàn)與第二物體相關聯(lián)的人物的累計時長;
24、當所述累計時長達到預設的時間閾值時,獲得行為識別結果為存在違規(guī)行為,并觸發(fā)警報。
25、進一步地,所述判斷所述目標檢測結果中是否出現(xiàn)與第一物體相關聯(lián)的第二物體,具體包括:
26、當所述目標檢測結果中出現(xiàn)第二物體時,根據(jù)第二物體的檢測框和第一物體的檢測框計算第二物體與第一物體之間的第一關聯(lián)系數(shù);
27、判斷所述第一關聯(lián)系數(shù)是否大于或等于預設的第一系數(shù)閾值;
28、當所述第一關聯(lián)系數(shù)大于或等于所述第一系數(shù)閾值時,判定第二物體為與第一物體相關聯(lián)的第二物體;
29、當所述第一關聯(lián)系數(shù)小于所述第一系數(shù)閾值時,判定第二物體不為與第一物體相關聯(lián)的第二物體。
30、進一步地,所述根據(jù)第二物體的檢測框和第一物體的檢測框計算第二物體與第一物體之間的第一關聯(lián)系數(shù),具體包括:
31、計算第二物體的檢測框和第一物體的檢測框之間的第一相交面積;
32、將所述第一相交面積除以第一物體的檢測框的面積,獲得第二物體與第一物體之間的第一關聯(lián)系數(shù)。
33、進一步地,所述判斷所述目標檢測結果中是否出現(xiàn)與第二物體相關聯(lián)的人物,具體包括:
34、當所述目標檢測結果中出現(xiàn)人物時,根據(jù)人物的檢測框和第二物體的檢測框計算人物與第二物體之間的第二關聯(lián)系數(shù);
35、判斷所述第二關聯(lián)系數(shù)是否大于或等于預設的第二系數(shù)閾值;
36、當所述第二關聯(lián)系數(shù)大于或等于所述第二系數(shù)閾值時,判定人物為與第二物體相關聯(lián)的人物;
37、當所述第二關聯(lián)系數(shù)小于所述第二系數(shù)閾值時,判定人物不為與第二物體相關聯(lián)的人物。
38、進一步地,所述根據(jù)人物的檢測框和第二物體的檢測框計算人物與第二物體之間的第二關聯(lián)系數(shù),具體包括:
39、計算人物的檢測框和第二物體的檢測框之間的第二相交面積;
40、將所述第二相交面積除以人物的檢測框的面積,獲得人物與第二物體之間的第二關聯(lián)系數(shù)。
41、進一步地,所述獲取待檢測圖像,具體包括:
42、獲取待檢測圖像序列;
43、對所述待檢測圖像序列進行抽幀處理,從抽幀后的圖像序列中獲取單幀圖像作為待檢測圖像。
44、進一步地,所述方法還包括:
45、當所述目標檢測結果中未出現(xiàn)第一物體時,判斷在所述待檢測圖像序列中是否存在對第一物體的行為跟蹤;
46、若否,則獲得行為識別結果為不存在違規(guī)行為;
47、若是,則判定行為跟蹤已結束,并結束對所述待檢測圖像序列的行為識別。
48、為了實現(xiàn)上述目的,本發(fā)明實施例還提供了一種基于多模態(tài)大模型的行為識別裝置,用于實現(xiàn)上述任一項所述的基于多模態(tài)大模型的行為識別方法,所述裝置包括:
49、待檢測圖像獲取模塊,用于獲取待檢測圖像;
50、目標檢測及分類模塊,用于將所述待檢測圖像輸入多模態(tài)大模型中對被檢測目標進行檢測和分類,獲得目標檢測結果和目標分類結果;其中,所述被檢測目標包括第一物體、第二物體和人物,所述多模態(tài)大模型是利用包含思維鏈推理描述的指令數(shù)據(jù)集進行訓練獲得的;
51、行為識別模塊,用于當所述目標檢測結果中出現(xiàn)第一物體時,根據(jù)所述目標檢測結果和所述目標分類結果進行行為識別,獲得行為識別結果。
52、本發(fā)明實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質包括存儲的計算機程序;其中,所述計算機程序在運行時控制所述計算機可讀存儲介質所在的設備執(zhí)行上述任一項所述的基于多模態(tài)大模型的行為識別方法。
53、本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)上述任一項所述的基于多模態(tài)大模型的行為識別方法。
54、本發(fā)明實施例還提供了一種終端設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器在執(zhí)行所述計算機程序時實現(xiàn)上述任一項所述的基于多模態(tài)大模型的行為識別方法。
55、與現(xiàn)有技術相比,本發(fā)明實施例提供了一種基于多模態(tài)大模型的行為識別方法、裝置、計算機可讀存儲介質、計算機程序產(chǎn)品及終端設備,先獲取待檢測圖像;再將待檢測圖像輸入多模態(tài)大模型中對被檢測目標進行檢測和分類,獲得目標檢測結果和目標分類結果,其中,被檢測目標包括第一物體、第二物體和人物,多模態(tài)大模型是利用包含思維鏈推理描述的指令數(shù)據(jù)集進行訓練獲得的;當目標檢測結果中出現(xiàn)第一物體時,根據(jù)目標檢測結果和目標分類結果進行行為識別,獲得行為識別結果。本發(fā)明實施例利用多模態(tài)大模型的強通用性和高泛化性,同時完成目標檢測和分類,并利用思維鏈推理描述進行行為識別,能夠有效減少漏檢、誤判問題,提升大模型在處理復雜監(jiān)控場景任務時的準確性,從而提高行為識別方案的魯棒性和行為識別結果的準確性。