本發(fā)明涉及自動(dòng)駕駛技術(shù),尤其是涉及一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法、裝置及介質(zhì)。
背景技術(shù):
1、自動(dòng)駕駛汽車(chē),又稱無(wú)人駕駛汽車(chē)、電腦駕駛汽車(chē)或輪式移動(dòng)機(jī)器人,它依靠人工智能、視覺(jué)計(jì)算、雷達(dá)、監(jiān)控裝置和全球定位系統(tǒng)協(xié)同合作,讓電腦可以在沒(méi)有人的主動(dòng)操作下實(shí)現(xiàn)車(chē)路協(xié)同,自動(dòng)安全地操作機(jī)動(dòng)車(chē)輛。
2、現(xiàn)有的基于強(qiáng)化學(xué)習(xí)的多無(wú)人車(chē)自動(dòng)駕駛定向規(guī)劃算法通常是獨(dú)立的多智能體強(qiáng)化學(xué)習(xí)算法,無(wú)人駕駛車(chē)輛獨(dú)立訓(xùn)練,這類方法難以兼顧車(chē)輛間的協(xié)作,導(dǎo)致車(chē)輛密度大時(shí)通過(guò)路口的效率降低。同時(shí)當(dāng)前多無(wú)人車(chē)自動(dòng)駕駛定向規(guī)劃應(yīng)用的基于dqn的強(qiáng)化學(xué)習(xí)算法只能輸出一個(gè)方向盤(pán)和油門(mén)的耦合動(dòng)作,導(dǎo)致預(yù)測(cè)精度較低,控制不穩(wěn)定。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的預(yù)測(cè)精度低,通過(guò)效率低的缺陷而提供一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法、裝置及介質(zhì)。
2、本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
3、一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,包括以下步驟:
4、s1:將車(chē)隊(duì)按次序排列,第一輛車(chē)設(shè)置為領(lǐng)導(dǎo)者,將后續(xù)車(chē)輛均設(shè)置為跟隨者;
5、s2:將環(huán)境狀態(tài)信息和車(chē)輛間的位置信息作為狀態(tài)量輸入設(shè)計(jì)的模糊深度網(wǎng)絡(luò);
6、s3:通過(guò)模糊深度網(wǎng)絡(luò),根據(jù)環(huán)境狀態(tài)和貪心策略選擇領(lǐng)導(dǎo)者的最優(yōu)動(dòng)作,根據(jù)領(lǐng)導(dǎo)者、環(huán)境狀態(tài)和前序的跟隨者依次選擇各個(gè)跟隨者的最優(yōu)動(dòng)作,得到聯(lián)合狀態(tài)動(dòng)作,計(jì)算此時(shí)的stackelberg均衡下的累計(jì)獎(jiǎng)勵(lì)值,根據(jù)累計(jì)獎(jiǎng)勵(lì)值更新模糊深度網(wǎng)絡(luò)的參數(shù);
7、s4:車(chē)隊(duì)按照聯(lián)合狀態(tài)動(dòng)作前進(jìn),并轉(zhuǎn)移到下一時(shí)刻的狀態(tài),重復(fù)迭代s2-s3,直到車(chē)隊(duì)通過(guò)路口。
8、進(jìn)一步地,stackelberg均衡的博弈公式為:
9、
10、式中,σi(·)為無(wú)人車(chē)i的策略,為其余無(wú)人車(chē)的策略,gi(·)為無(wú)人車(chē)i隨時(shí)間的累積效用,s0為初始狀態(tài)。
11、進(jìn)一步地,stackelberg均衡的的均衡條件為:
12、
13、式中,mk(·)表示智能體k在聯(lián)合動(dòng)作下的回報(bào)函數(shù)。
14、進(jìn)一步地,獎(jiǎng)勵(lì)值為當(dāng)所有車(chē)輛采取stackelberg均衡解時(shí)的累積獎(jiǎng)勵(lì)之和,計(jì)算表達(dá)式為:
15、
16、式中,(σ1,...,σn)表示stackelberg均衡策略,ri(s,a1,...,an)是狀態(tài)s下采取聯(lián)合動(dòng)作(a1,...,an)的獎(jiǎng)勵(lì),vi(s',σ1,...,σn)表示在區(qū)間內(nèi)每輛車(chē)都服從stackelberg均衡策略所得到的累計(jì)獎(jiǎng)勵(lì)和。
17、進(jìn)一步地,迭代過(guò)程中,獎(jiǎng)勵(lì)值的計(jì)算表達(dá)式為:
18、
19、式中,α為學(xué)習(xí)率,γ為衰減率,是在狀態(tài)s'下所得到的stackelberg均衡值。
20、進(jìn)一步地,聯(lián)合動(dòng)作的獎(jiǎng)勵(lì)計(jì)算表達(dá)式為:
21、
22、式中,rt為時(shí)間步長(zhǎng)t的積分獎(jiǎng)勵(lì),ξ∈[0,1]是平衡rt2和rt3比例的參數(shù),rt2和rt3分別代表水平方向的獎(jiǎng)勵(lì)和豎直方向的懲罰,d為車(chē)輛中心與上一目標(biāo)點(diǎn)的距離,d0為相鄰兩目標(biāo)點(diǎn)間的距離,t為相鄰兩車(chē)中心點(diǎn)的距離,t0為相鄰兩車(chē)中心點(diǎn)的期望距離。
23、進(jìn)一步地,最優(yōu)動(dòng)作包括轉(zhuǎn)向角動(dòng)作空間和油門(mén)動(dòng)作空間。
24、進(jìn)一步地,模糊深度網(wǎng)絡(luò)的輸出為模糊變量,計(jì)算模糊變量的平均值,得到轉(zhuǎn)向角動(dòng)作空間和油門(mén)動(dòng)作空間的數(shù)值,表達(dá)式為:
25、
26、式中,和分別為時(shí)間步長(zhǎng)為t的轉(zhuǎn)角和油門(mén)的最終輸出值,u(·)表示隸屬度函數(shù),即對(duì)應(yīng)運(yùn)動(dòng)命令的概率,ns和na分別表示舵角和油門(mén)作用的最大隸屬度數(shù)。
27、本發(fā)明的第二方面,一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃裝置,包括存儲(chǔ)器、處理器,以及存儲(chǔ)于存儲(chǔ)器中的程序,其特征在于,處理器執(zhí)行程序時(shí)實(shí)現(xiàn)如上任一的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法。
28、本發(fā)明的第三方面,一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,其特征在于,程序被執(zhí)行時(shí)實(shí)現(xiàn)如上任一的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法。
29、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
30、1)本發(fā)明結(jié)合stakelberg博弈方法,將多無(wú)人車(chē)自動(dòng)駕駛運(yùn)動(dòng)規(guī)劃問(wèn)題建模為stakelberg博弈問(wèn)題,將頭車(chē)作為領(lǐng)導(dǎo)者,其余車(chē)輛作為跟隨者根據(jù)環(huán)境狀態(tài)信息和車(chē)輛間的位置信息依次進(jìn)行決策得到各自的最優(yōu)路徑,其均衡表現(xiàn)為所有無(wú)人車(chē)采取合作策略,按照固定車(chē)距排隊(duì)通過(guò)路口,提高通過(guò)路口的效率。
31、2)本發(fā)明去模糊化的方法引入到方法中,考慮方向角和油門(mén)兩個(gè)控制命令,使用最后全連接層神經(jīng)節(jié)點(diǎn)輸出的五個(gè)模糊變量的平均值作為時(shí)間步長(zhǎng)t的方向盤(pán)角度和油門(mén)的數(shù)值,實(shí)現(xiàn)方向盤(pán)和油門(mén)的獨(dú)立輸出,降低動(dòng)作空間的維度,提高預(yù)測(cè)精度。
32、3)本發(fā)明通過(guò)全局路徑提高訓(xùn)練效率,將無(wú)人車(chē)的路徑劃分為多個(gè)離散的子目標(biāo)點(diǎn),以此來(lái)計(jì)算獎(jiǎng)勵(lì)和更新?tīng)顟B(tài)。當(dāng)車(chē)輛到達(dá)一個(gè)子目標(biāo)點(diǎn)時(shí),更新下一個(gè)子目標(biāo)點(diǎn)作為狀態(tài)量輸入到神經(jīng)網(wǎng)絡(luò)中,提升期望車(chē)道跟蹤的訓(xùn)練效率。
1.一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述stackelberg均衡的博弈公式為:
3.根據(jù)權(quán)利要求2所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述stackelberg均衡的的均衡條件為:
4.根據(jù)權(quán)利要求1所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述獎(jiǎng)勵(lì)值為當(dāng)所有車(chē)輛采取stackelberg均衡解時(shí)的累積獎(jiǎng)勵(lì)之和,計(jì)算表達(dá)式為:
5.根據(jù)權(quán)利要求4所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述迭代過(guò)程中,獎(jiǎng)勵(lì)值的計(jì)算表達(dá)式為:
6.根據(jù)權(quán)利要求4所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述聯(lián)合動(dòng)作的獎(jiǎng)勵(lì)計(jì)算表達(dá)式為:
7.根據(jù)權(quán)利要求1所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述最優(yōu)動(dòng)作包括轉(zhuǎn)向角動(dòng)作空間和油門(mén)動(dòng)作空間。
8.根據(jù)權(quán)利要求7所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法,其特征在于,所述模糊深度網(wǎng)絡(luò)的輸出為模糊變量,計(jì)算模糊變量的平均值,得到轉(zhuǎn)向角動(dòng)作空間和油門(mén)動(dòng)作空間的數(shù)值,表達(dá)式為:
9.一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃裝置,包括存儲(chǔ)器、處理器,以及存儲(chǔ)于所述存儲(chǔ)器中的程序,其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法。
10.一種存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,其特征在于,所述程序被執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-8中任一所述的一種多車(chē)自動(dòng)駕駛博弈協(xié)同定向規(guī)劃方法。