1.基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟1的具體過程為:采用cgan創(chuàng)建環(huán)境模型,cgan是在生成器g與判別器d的輸入項中增加了一個約束條件變量y,y可以是類別標(biāo)簽、文本描述、圖像等;
3.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟2的具體過程為:已知在用mfc化簡的多智能體系統(tǒng)中,將環(huán)境模型表示為p(st+1|st,at,μt),其表示著智能體在當(dāng)前的狀態(tài)st與平均場狀態(tài)μt下,在當(dāng)前策略執(zhí)行動作at后進(jìn)入下一狀態(tài)st+1的概率,可以將其看作為一個條件概率密度模型;而在cgan中,生成器g是對隨機(jī)變量z進(jìn)行映射,同時在約束條件變量y的指導(dǎo)下生成偽造數(shù)據(jù)即偽造數(shù)據(jù)服從一個條件概率密度函數(shù)因此,可將兩者進(jìn)行結(jié)合,在用mfc化簡的多智能體系統(tǒng)中,將當(dāng)前平均場μt中狀態(tài)為st并執(zhí)行動作at作為限定條件,用來指導(dǎo)cgan生成代表智能體的下一狀態(tài)st+1,最終cgan可以學(xué)習(xí)到強(qiáng)化學(xué)習(xí)中狀態(tài)轉(zhuǎn)移函數(shù)模型p(st+1|st,at,μt)。
4.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟3的具體過程為:cgan中的生成器g負(fù)責(zé)捕捉真實數(shù)據(jù)的分布,學(xué)習(xí)環(huán)境模型,其輸入為隨機(jī)變量z與約束條件變量y,其中y由當(dāng)前平均場μt、狀態(tài)st、動作at組成;輸出是在當(dāng)前條件y下對下一狀態(tài)的預(yù)測判別器d負(fù)責(zé)判斷輸入的樣本是真實的數(shù)據(jù)st+1還是由g生成的數(shù)據(jù)同時判斷輸入樣本是否符合條件變量y;輸入為g生成的預(yù)測狀態(tài)與真實狀態(tài)st+1,以及與g相同的約束條件變量y;輸出是對輸入樣本真?zhèn)蔚母怕?;g與d通過對抗訓(xùn)練相互競爭,逐漸達(dá)到納什均衡,此時,智能體可直接與該模型進(jìn)行交互生成大量軌跡,來用于后續(xù)的策略學(xué)習(xí),其目標(biāo)函數(shù)表示如下:
5.根據(jù)權(quán)利要求1所述的基于條件生成對抗網(wǎng)絡(luò)的平均場多智能體強(qiáng)化學(xué)習(xí)方法,其特征在于,所述步驟4的具體過程為:將采用cgan訓(xùn)練穩(wěn)定后的環(huán)境模型記為fψ,在每個回合t,代表智能體根據(jù)當(dāng)前可行策略πt=(πt,0,πt,1,...,πt,h-1)直接與建立好的環(huán)境模型fψ交互,對狀態(tài)軌跡進(jìn)行前向模擬;同時根據(jù)平均場流動特性對系統(tǒng)的平均場軌跡進(jìn)行前向模擬,在此期間獲得虛擬樣本數(shù)據(jù)用來對策略進(jìn)行學(xué)習(xí),在每個訓(xùn)練回合t,代表智能體對策略優(yōu)化表示如下: