本發(fā)明涉及計算機,尤其涉及一種標注數(shù)據(jù)的校驗方法、裝置、設備、介質(zhì)和程序產(chǎn)品。
背景技術:
1、近年來,深度學習技術發(fā)展迅速,推動了目標檢測領域不斷實現(xiàn)新的突破。獲取大量具有樣本多樣性的帶有準確標簽的訓練樣本數(shù)據(jù)來進行目標檢測模型的訓練,是目標檢測取得較好性能的關鍵。
2、在樣本數(shù)據(jù)的標注過程中發(fā)現(xiàn),圖像中較為明顯的大目標,標注更為容易,標注的準確率也比較高,而圖像中的小目標,由于信息少,相對難以判定,因此容易產(chǎn)生標注不一致的問題。標注不一致指的是相同或者同類的數(shù)據(jù)在不同批次或者因為標注者的標注標準不同所產(chǎn)生的標注不準確的情況。標注不一致的問題會降低數(shù)據(jù)標注的質(zhì)量,影響后期模型訓練的效果,這些不一致的數(shù)據(jù)不但無益于模型訓練與預測精度,甚至可能會導致錯誤的模型訓練結果,因此有必要對存在標注不一致問題的目標進行判斷區(qū)分。
3、現(xiàn)有技術采用人工校驗和自動校驗的方式來驗證數(shù)據(jù)標注的準確性,自動校驗的方式包括交叉驗證和多種順序檢測校驗,能夠在一定程度上能夠解決標注過程中出現(xiàn)的標注錯誤和標注不一致問題。然而,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在如下問題:采用人工審核的校驗方式效率太低,而基于交叉驗證的自動校驗方式需要基于大量數(shù)據(jù)提前訓練模型,多種順序校驗的自動校驗方式只能局限于連續(xù)視頻幀,且上述方法中,并沒有關注小目標對象的標注和校驗的問題,難以提高對標注數(shù)據(jù)的校驗準確性。
技術實現(xiàn)思路
1、本發(fā)明實施例的目的是提供一種標注數(shù)據(jù)的校驗方法,其能夠針對標注數(shù)據(jù)存在的標注不一致的問題,自動實現(xiàn)對標注數(shù)據(jù)的校驗,有效提高數(shù)據(jù)標注的準確性。
2、為實現(xiàn)上述目的,本發(fā)明實施例提供了一種標注數(shù)據(jù)的校驗方法,包括:
3、獲取若干個標注數(shù)據(jù)集;其中,每一所述標注數(shù)據(jù)集中包括若干個預先標注有真實目標的標注數(shù)據(jù);
4、將所述若干個標注數(shù)據(jù)集中的目標標注數(shù)據(jù)集作為訓練數(shù)據(jù),訓練得到目標檢測模型;
5、根據(jù)所述目標檢測模型對所述若干個標注數(shù)據(jù)集中的非目標標注數(shù)據(jù)集進行目標檢測,得到目標檢測結果;
6、根據(jù)所述目標檢測結果,分別計算所述非目標標注數(shù)據(jù)集中第一目標類型和第二目標類型的檢測精度;其中,所述第一目標類型和所述第二目標類型是根據(jù)目標尺寸劃分得到的;
7、計算所述第一目標類型和第二目標類型的檢測精度之間的精度差值;
8、根據(jù)所述精度差值,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格。
9、作為一種優(yōu)選的實施方式,所述非目標標注數(shù)據(jù)集為至少兩個;
10、所述根據(jù)所述精度差值,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格,包括:
11、計算同一目標檢測模型下兩個不同非目標標注數(shù)據(jù)集之間的精度差值的差值,作為第一差值;
12、根據(jù)所述第一差值的大小,校驗所述兩個不同的非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格。
13、作為上述方案的改進,所述根據(jù)所述第一差值的大小,校驗所述兩個不同的非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格,包括:
14、將所述第一差值與預設的第一差值閾值進行比較;
15、當所述第一差值小于等于所述預設的第一差值閾值時,確定所述兩個不同的非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)均標注合格;
16、當所述第一差值大于所述預設的第一差值閾值時,確定所述兩個不同的非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)存在標注不一致,則所述兩個不同的非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)標注不合格。
17、作為另一種優(yōu)選的實施方式,根據(jù)所述目標標注數(shù)據(jù)集訓練得到的所述目標檢測模型的數(shù)量為兩個,且兩個目標檢測模型的網(wǎng)絡結構相同但損失函數(shù)不同;
18、所述根據(jù)所述精度差值,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格,包括:
19、計算同個非目標標注數(shù)據(jù)集在兩個不同的目標檢測模型下的精度差值的差值,作為第二差值;
20、根據(jù)所述第二差值的大小,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格。
21、作為上述方案的改進,所述兩個目標檢測模型為第一目標檢測模型和第二目標檢測模型,所述第一目標檢測模型的損失函數(shù)為交叉熵損失函數(shù);所述第二目標檢測模型的損失函數(shù)為focal?loss損失函數(shù)。
22、作為上述方案的改進,所述計算同個非目標標注數(shù)據(jù)集在兩個不同的目標檢測模型下的精度差值的差值,作為第二差值,包括:
23、根據(jù)所述同個非目標標注數(shù)據(jù)集在所述第二目標檢測模型下的精度差值和在所述第一目標檢測模型下的精度差值的差值,作為第二差值;
24、則所述根據(jù)所述第二差值的大小,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格,包括:
25、將所述第二差值與預設的第二差值閾值進行比較;
26、當所述第二差值小于等于所述預設的第二差值閾值時,確定所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)均標注合格;
27、當所述第二差值大于所述預設的第二差值閾值時,確定所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)存在標注不一致,則所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)標注不合格。
28、作為上述方案的改進,在所述根據(jù)所述精度差值,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格之后,所述方法還包括:
29、當所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)標注不合格時,分別計算所述非目標標注數(shù)據(jù)集中的每一所述標注數(shù)據(jù)在所述兩個不同的目標檢測模型下的損失值,作為第一損失值和第二損失值;
30、計算所述第一損失值和所述第二損失值的差值,作為第三差值;
31、對所述非目標標注數(shù)據(jù)集中的每一所述標注數(shù)據(jù)按照所述第三差值進行排序,并將排序在前預設數(shù)量的標注數(shù)據(jù)作為待重新審核的標注數(shù)據(jù)。
32、作為上述方案的改進,所述目標檢測結果包括所述非目標標注數(shù)據(jù)集中每一所述標注數(shù)據(jù)的預測目標;
33、則所述根據(jù)所述目標檢測結果,分別計算所述非目標標注數(shù)據(jù)集中第一目標類型和第二目標類型的檢測精度,包括:
34、將所述預測目標及對應的真實目標進行比較;
35、當所述預測目標及對應的真實目標相同時,確定為預測正確;否則確定為預測錯誤;
36、將每一所述預測目標的尺寸與預設的尺寸閾值進行比較;
37、當所述預測目標的尺寸大于所述尺寸閾值時,將所述預測目標對應的標注數(shù)據(jù)劃分為第一目標類型;否則劃分為第二目標類型;
38、根據(jù)所述第一目標類型中預測正確和預測錯誤的數(shù)量,計算所述第一目標類型的檢測精度;
39、根據(jù)所述第二目標類型中預測正確和預測錯誤的數(shù)量,計算所述第二目標類型的檢測精度。
40、本發(fā)明實施例還提供了一種標注數(shù)據(jù)的校驗裝置,包括:
41、數(shù)據(jù)集獲取模塊,用于獲取若干個標注數(shù)據(jù)集;其中,每一所述標注數(shù)據(jù)集中包括若干個預先標注有真實目標的標注數(shù)據(jù);
42、檢測模型訓練模塊,損益將所述若干個標注數(shù)據(jù)集中的目標標注數(shù)據(jù)集作為訓練數(shù)據(jù),訓練得到目標檢測模型;
43、目標檢測模塊,用于根據(jù)所述目標檢測模型對所述若干個標注數(shù)據(jù)集中的非目標標注數(shù)據(jù)集進行目標檢測,得到目標檢測結果;
44、檢測精度計算模塊,用于根據(jù)所述目標檢測結果,分別計算所述非目標標注數(shù)據(jù)集中第一目標類型和第二目標類型的檢測精度;其中,所述第一目標類型和所述第二目標類型是根據(jù)目標尺寸劃分得到的;
45、精度差值計算模塊,用于計算所述第一目標類型和第二目標類型的檢測精度之間的精度差值;
46、標注數(shù)據(jù)校驗模塊,用于根據(jù)所述精度差值,校驗所述非目標標注數(shù)據(jù)集中的標注數(shù)據(jù)是否標注合格。
47、本發(fā)明實施例還提供了一種標注數(shù)據(jù)的校驗設備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如上述任意一項所述的標注數(shù)據(jù)的校驗方法。
48、本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設備執(zhí)行如上述任意一項所述的標注數(shù)據(jù)的校驗方法。
49、本發(fā)明實施例還提供了一種計算機程序產(chǎn)品,所述計算機程序產(chǎn)品包括計算機程序或計算機指令,所述計算機程序或所述計算機指令被處理器執(zhí)行時實現(xiàn)如上述任意一項所述的標注數(shù)據(jù)的校驗方法。
50、與現(xiàn)有技術相比,本發(fā)明公開的標注數(shù)據(jù)的校驗方法、裝置、設備、介質(zhì)和程序產(chǎn)品,通過將目標劃分為大目標和小目標兩種目標類型,計算大、小目標在目標檢測模型下的檢測精度的精度差值,通過分析在單個目標檢測模型下不同的標注數(shù)據(jù)集之間的精度差值的差異,或者同一標注數(shù)據(jù)集在不同目標檢測模型下的精度差值的差異,能夠判斷是否存在小目標的標注不一致的情況,實現(xiàn)對標注數(shù)據(jù)集中的標注數(shù)據(jù)的標注合格性的分析,有利于篩選出標注一致性較差的標注數(shù)據(jù)并反饋給標注人員進行糾正,本發(fā)明實施例能夠自動實現(xiàn)對標注數(shù)據(jù)的校驗,有效提高數(shù)據(jù)標注的準確性,進一步提高采用標注數(shù)據(jù)集進行訓練的模型的精度。并且,本發(fā)明實施例具有較強的適應性,可以適用于絕大多數(shù)的目標檢測場景下的標注任務。