日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法、裝置及產(chǎn)品

文檔序號:39717018發(fā)布日期:2024-10-22 13:03閱讀:3來源:國知局
基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法、裝置及產(chǎn)品

本發(fā)明實施例涉及強化學(xué)習(xí)領(lǐng)域,尤其涉及一種基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法、裝置及產(chǎn)品。


背景技術(shù):

1、當(dāng)前基于深度強化學(xué)習(xí)的船舶軌跡預(yù)測算法的研究,多數(shù)都是單模型強化結(jié)構(gòu),在海上任務(wù)發(fā)生動態(tài)調(diào)整時,出現(xiàn)災(zāi)難性遺忘問題,當(dāng)前海上任務(wù)經(jīng)驗完全覆蓋關(guān)于之前任務(wù)的學(xué)習(xí)經(jīng)驗,最終導(dǎo)致決策收斂到局部最優(yōu),而不是全局最優(yōu)。

2、基于此,相關(guān)技術(shù)提出了多智能體強化學(xué)習(xí)的船舶軌跡預(yù)測算法以更適合多變的海上環(huán)境,但由于當(dāng)前的多智能體策略主要針對單一任務(wù)訓(xùn)練,學(xué)習(xí)得到的模型魯棒性較弱存在不同海上局勢下通用性不足的問題。


技術(shù)實現(xiàn)思路

1、基于上述技術(shù)問題,本發(fā)明實施例提供一種基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法、裝置及產(chǎn)品,旨在通過面向多任務(wù)的多層級多智能體強化學(xué)習(xí)方法,提升海上策略在不同海上局勢下的通用性。

2、本發(fā)明實施例第一方面提供了一種基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法,所述方法包括:

3、針對海上任務(wù)集合中的第i個海上任務(wù),n個智能體以最大化總回報r為目標(biāo),基于所述第i個海上任務(wù)的樣本海上態(tài)勢信息,進行第一階段的深度強化學(xué)習(xí),在所述第一階段的深度強化學(xué)習(xí)結(jié)束時,所述n個智能體各自學(xué)習(xí)到針對所述第i個海上任務(wù)的策略,每個智能體針對所述第i個海上任務(wù)的策略為:在狀態(tài)s下按照預(yù)測軌跡執(zhí)行動作a,回報為r;其中,所述總回報r為所述n個智能體各自的回報r之和,所述n個智能體表征n個船舶;

4、將歷史已執(zhí)行的各個海上任務(wù)的聯(lián)合狀態(tài)、聯(lián)合動作以及總回報輸入博弈任務(wù)網(wǎng)絡(luò),得到下一海上任務(wù)的軌跡預(yù)測信息;所述聯(lián)合動作為所述n個智能體各自按照歷史軌跡執(zhí)行的動作a之和,所述聯(lián)合狀態(tài)為所述n個智能體各自對應(yīng)的狀態(tài)s之和;

5、將當(dāng)前海上態(tài)勢信息輸入經(jīng)過所述第一階段的深度強化學(xué)習(xí)的n個智能體,得到當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作,將所述當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作輸入基本評價網(wǎng)絡(luò),得到當(dāng)前海上任務(wù)的q值;

6、將所述下一海上任務(wù)的軌跡預(yù)測信息和所述當(dāng)前海上任務(wù)的q值輸入元評價網(wǎng)絡(luò),得到所述海上任務(wù)集合中的每個海上任務(wù)的新的聯(lián)合動作;所述新的聯(lián)合動作為所述n個智能體各自按照新的預(yù)測軌跡執(zhí)行新的動作a之和;

7、基于所述當(dāng)前海上任務(wù)的新的聯(lián)合動作,所述n個智能體各自按照所述新的預(yù)測軌跡執(zhí)行各自的新的動作。

8、可選地,所述基于所述第i個海上任務(wù)的樣本海上態(tài)勢信息,進行第一階段的深度強化學(xué)習(xí),包括:

9、基于oare模型,將所述第i個海上任務(wù)的樣本海上態(tài)勢信息表示為樣本oare向量;

10、將所述樣本oare向量輸入訓(xùn)練完畢的編碼器,得到所述第i個海上任務(wù)的聯(lián)合狀態(tài);

11、將所述第i個海上任務(wù)的聯(lián)合狀態(tài)分配給所述n個智能體,進行所述第一階段的深度強化學(xué)習(xí)。

12、可選地,所述編碼器通過以下步驟訓(xùn)練得到:

13、基于所述oare模型,將多個時刻的海上態(tài)勢信息表示為多個oare向量;

14、將所述多個oare向量輸入待訓(xùn)練的編碼器,將所述多個oare向量壓縮到指定長度的壓縮oare向量;

15、利用所述壓縮oare向量進行數(shù)據(jù)重構(gòu),得到重構(gòu)oare向量;

16、根據(jù)所述重構(gòu)oare向量和所述多個oare向量,對待訓(xùn)練的編碼器的參數(shù)進行更新,得到所述訓(xùn)練完畢的編碼器。

17、可選地,所述海上任務(wù)集合中的第i個海上任務(wù)為處于上層任務(wù)層中的任一上層任務(wù);

18、所述任一上層任務(wù)由處于底層任務(wù)層中的多個底層任務(wù)組成;

19、所述底層任務(wù)層中的任一底層任務(wù)由處于基礎(chǔ)行動層中的多個基礎(chǔ)行動組成,所述基礎(chǔ)行動層包括以下至少一者:行動距離、行動方向;

20、所述基礎(chǔ)行動層中的任一基礎(chǔ)行動為任一智能體在狀態(tài)s下按照預(yù)測軌跡執(zhí)行的動作a。

21、可選地,所述博弈任務(wù)網(wǎng)絡(luò)通過以下步驟訓(xùn)練得到:

22、將多個歷史樣本海上任務(wù)的樣本聯(lián)合狀態(tài)、樣本聯(lián)合動作以及樣本總回報輸入待訓(xùn)練的博弈任務(wù)網(wǎng)絡(luò),得到下一樣本海上任務(wù)的軌跡預(yù)測信息;

23、基于所述下一樣本海上任務(wù)的軌跡預(yù)測信息,與,所述多個歷史樣本海上任務(wù)后的實際樣本海上任務(wù)的策略,對所述待訓(xùn)練的博弈任務(wù)網(wǎng)絡(luò)的參數(shù)進行更新,得到所述博弈任務(wù)網(wǎng)絡(luò)。

24、可選地,所述基本評價網(wǎng)絡(luò)通過以下步驟訓(xùn)練得到:

25、基于樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作,得到所述樣本海上任務(wù)對應(yīng)的實際q值;所述實際q值表征了針對所述樣本海上任務(wù)的決策水平;

26、將所述樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作輸入待訓(xùn)練的基本評價網(wǎng)絡(luò),得到所述樣本海上任務(wù)對應(yīng)的預(yù)測q值;

27、基于所述預(yù)測q值和所述實際q值,對所述待訓(xùn)練的基本評價網(wǎng)絡(luò)的參數(shù)進行更新,得到所述基本評價網(wǎng)絡(luò)。

28、可選地,所述元評價網(wǎng)絡(luò)通過以下步驟訓(xùn)練得到:

29、基于歷史樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作,得到所述歷史樣本海上任務(wù)對應(yīng)的樣本q值;

30、基于所述歷史樣本海上任務(wù)對應(yīng)的樣本q值和所述歷史樣本海上任務(wù)后的下一歷史樣本海上任務(wù)的軌跡預(yù)測信息,得到所述歷史樣本海上任務(wù)對應(yīng)的實際樣本q值;

31、將所述歷史樣本海上任務(wù)對應(yīng)的樣本q值和所述歷史樣本海上任務(wù)后的下一歷史樣本海上任務(wù)的軌跡預(yù)測信息,輸入待訓(xùn)練的元評價網(wǎng)絡(luò),得到所述歷史樣本海上任務(wù)對應(yīng)的預(yù)測樣本q值;

32、基于所述預(yù)測樣本q值和所述實際樣本q值,對所述待訓(xùn)練的元評價網(wǎng)絡(luò)的參數(shù)進行更新,得到所述元評價網(wǎng)絡(luò)。

33、本發(fā)明實施例第二方面提供了一種基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測裝置,所述裝置包括:

34、深度強化學(xué)習(xí)模塊,用于針對海上任務(wù)集合中的第i個海上任務(wù),n個智能體以最大化總回報r為目標(biāo),基于所述第i個海上任務(wù)的樣本海上態(tài)勢信息,進行第一階段的深度強化學(xué)習(xí),在所述第一階段的深度強化學(xué)習(xí)結(jié)束時,所述n個智能體各自學(xué)習(xí)到針對所述第i個海上任務(wù)的策略,每個智能體針對所述第i個海上任務(wù)的策略為:在狀態(tài)s下按照預(yù)測軌跡執(zhí)行動作a,回報為r;其中,所述總回報r為所述n個智能體各自的回報r之和,所述n個智能體表征n個船舶;

35、任務(wù)決策模塊,用于將歷史已執(zhí)行的各個海上任務(wù)的聯(lián)合狀態(tài)、聯(lián)合動作以及總回報輸入博弈任務(wù)網(wǎng)絡(luò),得到下一海上任務(wù)的軌跡預(yù)測信息;所述聯(lián)合動作為所述n個智能體各自執(zhí)行的動作a之和,所述聯(lián)合狀態(tài)為所述n個智能體各自對應(yīng)的狀態(tài)s之和;

36、基礎(chǔ)評價模塊,用于將當(dāng)前海上態(tài)勢信息輸入經(jīng)過所述第一階段的深度強化學(xué)習(xí)的n個智能體,得到當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作,將所述當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作輸入基本評價網(wǎng)絡(luò),得到當(dāng)前海上任務(wù)的q值;

37、元評價模塊,用于將所述下一海上任務(wù)的軌跡預(yù)測信息和所述當(dāng)前海上任務(wù)的q值輸入元評價網(wǎng)絡(luò),得到所述海上任務(wù)集合中的每個海上任務(wù)的新的聯(lián)合動作;所述新的聯(lián)合動作為所述n個智能體各自按照新的預(yù)測軌跡執(zhí)行新的動作a之和;

38、海上動作執(zhí)行模塊,用于基于所述當(dāng)前海上任務(wù)的新的聯(lián)合動作,所述n個智能體各自按照所述新的預(yù)測軌跡執(zhí)行各自的新的動作。

39、可選地,所述深度強化學(xué)習(xí)模塊,包括:

40、oare表示模塊,用于基于oare模型,將所述第i個海上任務(wù)的樣本海上態(tài)勢信息表示為樣本oare向量;

41、編碼模塊,用于將所述樣本oare向量輸入訓(xùn)練完畢的編碼器,得到所述第i個海上任務(wù)的聯(lián)合狀態(tài);

42、狀態(tài)分配模塊,用于將所述第i個海上任務(wù)的聯(lián)合狀態(tài)分配給所述n個智能體,進行所述第一階段的深度強化學(xué)習(xí)。

43、可選地,所述裝置還包括:編碼器訓(xùn)練模塊,用于進行所述編碼器的訓(xùn)練,所述編碼器訓(xùn)練模塊,包括:

44、樣本oare表示模塊,用于基于所述oare模型,將多個時刻的海上態(tài)勢信息表示為多個oare向量;

45、壓縮模塊,用于將所述多個oare向量輸入待訓(xùn)練的編碼器,將所述多個oare向量壓縮到指定長度的壓縮oare向量;

46、重構(gòu)模塊,用于利用所述壓縮oare向量進行數(shù)據(jù)重構(gòu),得到重構(gòu)oare向量;

47、編碼訓(xùn)練模塊,用于根據(jù)所述重構(gòu)oare向量和所述多個oare向量,對待訓(xùn)練的編碼器的參數(shù)進行更新,得到所述訓(xùn)練完畢的編碼器。

48、可選地,所述海上任務(wù)集合中的第i個海上任務(wù)為處于上層任務(wù)層中的任一上層任務(wù);

49、所述任一上層任務(wù)由處于底層任務(wù)層中的多個底層任務(wù)組成;

50、所述底層任務(wù)層中的任一底層任務(wù)由處于基礎(chǔ)行動層中的多個基礎(chǔ)行動組成,所述基礎(chǔ)行動層包括以下至少一者:行動距離、行動方向;

51、所述基礎(chǔ)行動層中的任一基礎(chǔ)行動為任一智能體在狀態(tài)s下按照預(yù)測軌跡執(zhí)行的動作a。

52、可選地,所述裝置還包括:博弈任務(wù)訓(xùn)練模塊,用于進行所述博弈任務(wù)網(wǎng)絡(luò)的訓(xùn)練,所述博弈任務(wù)訓(xùn)練模塊,包括:

53、樣本任務(wù)決策模塊,用于將多個歷史樣本海上任務(wù)的樣本聯(lián)合狀態(tài)、樣本聯(lián)合動作以及樣本總回報輸入待訓(xùn)練的博弈任務(wù)網(wǎng)絡(luò),得到下一樣本海上任務(wù)的軌跡預(yù)測信息;

54、博弈任務(wù)網(wǎng)絡(luò)訓(xùn)練模塊,用于基于所述下一樣本海上任務(wù)的軌跡預(yù)測信息,與,所述多個歷史樣本海上任務(wù)后的實際樣本海上任務(wù)的策略,對所述待訓(xùn)練的博弈任務(wù)網(wǎng)絡(luò)的參數(shù)進行更新,得到所述博弈任務(wù)網(wǎng)絡(luò)。

55、可選地,所述裝置還包括:基礎(chǔ)評價訓(xùn)練模塊,用于進行所述基礎(chǔ)評價網(wǎng)絡(luò)的訓(xùn)練,所述基礎(chǔ)評價訓(xùn)練模塊,包括:

56、第一確定模塊,用于基于樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作,得到所述樣本海上任務(wù)對應(yīng)的實際q值;所述實際q值表征了針對所述樣本海上任務(wù)的決策水平;

57、第一預(yù)測模塊,用于將所述樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作輸入待訓(xùn)練的基本評價網(wǎng)絡(luò),得到所述樣本海上任務(wù)對應(yīng)的預(yù)測q值;

58、基礎(chǔ)評價網(wǎng)絡(luò)訓(xùn)練模塊,用于基于所述預(yù)測q值和所述實際q值,對所述待訓(xùn)練的基本評價網(wǎng)絡(luò)的參數(shù)進行更新,得到所述基本評價網(wǎng)絡(luò)。

59、可選地,所述裝置還包括:元評價訓(xùn)練模塊,用于進行所述元評價網(wǎng)絡(luò)的訓(xùn)練,所述元評價訓(xùn)練模塊,包括:

60、第二確定模塊,用于基于歷史樣本海上任務(wù)的樣本聯(lián)合狀態(tài)和樣本聯(lián)合動作,得到所述歷史樣本海上任務(wù)對應(yīng)的樣本q值;

61、第三確定模塊,用于基于所述歷史樣本海上任務(wù)對應(yīng)的樣本q值和所述歷史樣本海上任務(wù)后的下一歷史樣本海上任務(wù)的軌跡預(yù)測信息,得到所述歷史樣本海上任務(wù)對應(yīng)的實際樣本q值;

62、第二預(yù)測模塊,用于將所述歷史樣本海上任務(wù)對應(yīng)的樣本q值和所述歷史樣本海上任務(wù)后的下一歷史樣本海上任務(wù)的軌跡預(yù)測信息,輸入待訓(xùn)練的元評價網(wǎng)絡(luò),得到所述歷史樣本海上任務(wù)對應(yīng)的預(yù)測樣本q值;

63、元評價網(wǎng)絡(luò)訓(xùn)練模塊,用于基于所述預(yù)測樣本q值和所述實際樣本q值,對所述待訓(xùn)練的元評價網(wǎng)絡(luò)的參數(shù)進行更新,得到所述元評價網(wǎng)絡(luò)。

64、本發(fā)明實施例第三方面提供了一種電子設(shè)備,所述電子設(shè)備包括:包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述計算機程序被該處理器執(zhí)行時實現(xiàn)如本發(fā)明實施例第一方面的基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法。

65、本發(fā)明實施例第四方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例第一方面的基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法。

66、通過本發(fā)明實施例的基于深度強化學(xué)習(xí)的層級式船舶軌跡預(yù)測方法,首先,在第一階段以最大化每個海上任務(wù)的總回報為目標(biāo),進行多海上任務(wù)多智能體的深度強化學(xué)習(xí),使得深度強化學(xué)習(xí)結(jié)束時,多個智能體能夠各自學(xué)習(xí)到針對每個海上任務(wù)的策略,其中,每個智能體針對每個海上任務(wù)的策略為:在狀態(tài)s下按照預(yù)測軌跡執(zhí)行動作a,回報為r,n個智能體表征n個船舶;從而學(xué)習(xí)到每個海上任務(wù)對應(yīng)的聯(lián)合狀態(tài)、聯(lián)合動作以及總回報;然后,將歷史已執(zhí)行的、通過第一階段深度強化學(xué)習(xí)的多個智能體得到的各個海上任務(wù)的聯(lián)合狀態(tài)、聯(lián)合動作以及總回報輸入博弈任務(wù)網(wǎng)絡(luò),得到下一海上任務(wù)的軌跡預(yù)測信息;以及,將當(dāng)前海上態(tài)勢信息輸入經(jīng)過第一階段的深度強化學(xué)習(xí)的多個智能體,得到當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作,將當(dāng)前海上任務(wù)的聯(lián)合狀態(tài)和聯(lián)合動作輸入基本評價網(wǎng)絡(luò),得到當(dāng)前海上任務(wù)的q值;最后,將下一海上任務(wù)的軌跡預(yù)測信息和當(dāng)前海上任務(wù)的q值輸入元評價網(wǎng)絡(luò),得到海上任務(wù)集合中的每個海上任務(wù)的新的聯(lián)合動作,n個智能體基于當(dāng)前海上任務(wù)的新的聯(lián)合動作,各自按照新的預(yù)測軌跡執(zhí)行各自的新的動作。

67、在本實施中,通過多任務(wù)多智能體的深度強化學(xué)習(xí),每個船舶表征的智能體有多類海上任務(wù)需要處理,從而學(xué)習(xí)到單個海上任務(wù)的策略,再基于歷史多個海上任務(wù)的策略和當(dāng)前海上任務(wù)的策略q值,通過元評價網(wǎng)絡(luò)的多任務(wù)元學(xué)習(xí)整合學(xué)習(xí)出通用策略,學(xué)習(xí)得到每個海上任務(wù)的新的聯(lián)合動作,完成海上船舶軌跡的預(yù)測,每個智能體基于新的聯(lián)合動作,各自按照新的預(yù)測軌跡執(zhí)行各自的新的動作,從而不僅提升了海上策略在不同海上局勢下的通用性,還提升了海上決策模型的魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1