日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法與流程

文檔序號:39710622發(fā)布日期:2024-10-22 12:56閱讀:來源:國知局

技術(shù)特征:

1.基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,包括如下步驟:

2.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟1的具體過程為:采用cgan創(chuàng)建環(huán)境模型,cgan是在生成器g與判別器d的輸入項中增加了一個約束條件變量y,y可以是類別標(biāo)簽、文本描述、圖像等;

3.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟2的具體過程為:已知在用mfc化簡的多智能體系統(tǒng)中,將環(huán)境模型表示為p(st+1|st,at,μt),其表示著智能體在當(dāng)前的狀態(tài)st與平均場狀態(tài)μt下,在當(dāng)前策略執(zhí)行動作at后進(jìn)入下一狀態(tài)st+1的概率,可以將其看作為一個條件概率密度模型;而在cgan中,生成器g是對隨機(jī)變量z進(jìn)行映射,同時在約束條件變量y的指導(dǎo)下生成偽造數(shù)據(jù)即偽造數(shù)據(jù)服從一個條件概率密度函數(shù)因此,可將兩者進(jìn)行結(jié)合,在用mfc化簡的多智能體系統(tǒng)中,將當(dāng)前平均場μt中狀態(tài)為st并執(zhí)行動作at作為限定條件,用來指導(dǎo)cgan生成代表智能體的下一狀態(tài)st+1,最終cgan可以學(xué)習(xí)到強(qiáng)化學(xué)習(xí)中狀態(tài)轉(zhuǎn)移函數(shù)模型p(st+1|st,at,μt)。

4.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟3的具體過程為:cgan中的生成器g負(fù)責(zé)捕捉真實數(shù)據(jù)的分布,學(xué)習(xí)環(huán)境模型,其輸入為隨機(jī)變量z與約束條件變量y,其中y由當(dāng)前平均場μt、狀態(tài)st、動作at組成;輸出是在當(dāng)前條件y下對下一狀態(tài)的預(yù)測判別器d負(fù)責(zé)判斷輸入的樣本是真實的數(shù)據(jù)st+1還是由g生成的數(shù)據(jù)同時判斷輸入樣本是否符合條件變量y;輸入為g生成的預(yù)測狀態(tài)與真實狀態(tài)st+1,以及與g相同的約束條件變量y;輸出是對輸入樣本真?zhèn)蔚母怕?;g與d通過對抗訓(xùn)練相互競爭,逐漸達(dá)到納什均衡,此時,智能體可直接與該模型進(jìn)行交互生成大量軌跡,來用于后續(xù)的策略學(xué)習(xí),其目標(biāo)函數(shù)表示如下:

5.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟4的具體過程為:將采用cgan訓(xùn)練穩(wěn)定后的環(huán)境模型記為fψ,在每個回合t,代表智能體根據(jù)當(dāng)前可行策略πt=(πt,0,πt,1,...,πt,h-1)直接與建立好的環(huán)境模型fψ交互,對狀態(tài)軌跡進(jìn)行前向模擬;同時根據(jù)平均場流動特性對系統(tǒng)的平均場軌跡進(jìn)行前向模擬,在此期間獲得虛擬樣本數(shù)據(jù)用來對策略進(jìn)行學(xué)習(xí),在每個訓(xùn)練回合t,代表智能體對策略優(yōu)化表示如下:


技術(shù)總結(jié)
本發(fā)明提出了基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,涉及人工智能技術(shù)領(lǐng)域,其包括如下步驟:1:對未知的動態(tài)環(huán)境進(jìn)行建模,智能體采取回合制來執(zhí)行任務(wù),在每個訓(xùn)練回合t中,將智能體與真實環(huán)境交互的數(shù)據(jù)收集到數(shù)據(jù)集D<subgt;t</subgt;={((s<subgt;i,h</subgt;,a<subgt;i,h</subgt;,μ<subgt;i,h</subgt;),s<subgt;i,h+1</subgt;)},h=0,1,...,H?1,i=1,2,...,t中;2:利用CGAN對狀態(tài)轉(zhuǎn)移函數(shù)P(s<subgt;t+1</subgt;|s<subgt;t</subgt;,a<subgt;t</subgt;,μ<subgt;t</subgt;)建模,并用數(shù)據(jù)集D<subgt;t</subgt;中的數(shù)據(jù)對環(huán)境模型進(jìn)行訓(xùn)練,直到環(huán)境模型收斂;3:讓MFC中的代表智能體直接與穩(wěn)定后的環(huán)境模型P(s<subgt;t+1</subgt;|s<subgt;t</subgt;,a<subgt;t</subgt;,μ<subgt;t</subgt;)進(jìn)行交互,獲得大量的樣本序列;4:利用第三步中交互獲得的數(shù)據(jù)對策略參數(shù)進(jìn)行優(yōu)化,直到學(xué)習(xí)到最優(yōu)策略π<supgt;*</supgt;。經(jīng)過仿真實驗驗證,本發(fā)明有效提高了環(huán)境動力學(xué)模型的準(zhǔn)確度,同時生成的樣本數(shù)據(jù)能夠很好地用于策略學(xué)習(xí),使得智能體在任務(wù)中獲得更高的期望累積獎勵值。

技術(shù)研發(fā)人員:李洪星,付長宇,孫文綺,李大鵬
受保護(hù)的技術(shù)使用者:葳迪易(蘇州)信息科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1