日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于強化學習的微電網(wǎng)電能分配方法與流程

文檔序號:11143808閱讀:786來源:國知局

本發(fā)明涉及微電網(wǎng),尤其是涉及一種基于強化學習的微電網(wǎng)電能分配方法。



背景技術(shù):

微電網(wǎng)的提出是用于整合可再生能源、降低電網(wǎng)成本及提供更好電網(wǎng)質(zhì)量。微電網(wǎng)包括有源負載、可再生能源發(fā)電機及電能存儲設(shè)備,且可以通過變電站與主電網(wǎng)相連。

如果微電網(wǎng)中的本地產(chǎn)能和儲能無法滿足需求時,可以和主電網(wǎng)進行交易,購買電能;反之,當微電網(wǎng)中有多余的電能時,也可以賣給主電網(wǎng)[S.M.Amin and B.F.Wollenberg,“Toward a smart grid:Power delivery for the 21st century,”IEEE Power Energy Mag.,vol.3,no.5,pp.34–41,Sep./Oct.2005.]。[Z.Wang,B.Chen,J.Wang,et al.,“Coordinated energy management of networked microgrids in distribution systems,”IEEE Trans.on Smart Grid,6(1):45-53,2015.]闡述了一種基于分層結(jié)構(gòu)的主電網(wǎng)和微電網(wǎng)之間的互動交易。[W.Saad,Z.Han,H.V.Poor,and T.Basar,“Game-theoretic methods for the smart grid:An overview of microgrid systems,demand-side management,and smart grid communications,”IEEE Signal Process.Mag.,vol.29,no.5,pp.86–105,Sep.2012.]指出主電網(wǎng)與微電網(wǎng)通過變電站進行交易過程中,由于兩者距離較遠,消耗、轉(zhuǎn)換以及運輸成本高,而地理位置臨近的微電網(wǎng)之間的交易可以平衡電能的供需要求,并減少微電網(wǎng)對主電網(wǎng)的依賴,從而降低電網(wǎng)成本。[W.Saad,Z.Han,and H.V.Poor,“Coalitional game theory for cooperative microgrid distribution networks,”in Proc.IEEE Int.Conf.Commun.Workshop(ICC),Kyoto,Japan,Jun.2011,pp.1–5.]將博弈論應(yīng)用于微電網(wǎng)之間的交易,通過合作減少損失從而達到全局成本最小化。[Pipattanasomporn M,Feroze H,Rahman S.Multi-agent systems in a distributed smart grid:Design and implementation[C]//Power Systems Conference and Exposition,2009.PSCE'09.IEEE/PES.IEEE,2009:1-8.]用拍賣算法模擬微電網(wǎng)的交易,即微電網(wǎng)之間通過多次的相互協(xié)商,找到雙方都可接受的交易價格。[L.Xiao,N.B.Mandayam,and H.V.Poor,"Prospect Theoretic Analysis of Energy Exchange Among Microgrids,"IEEE Trans.Smart Grids,vol.6,no.1,pp.63-72,Jan.2015.]將前景理論用于微電網(wǎng)的能量交換,每個微電網(wǎng)應(yīng)該考慮自己的利益,即每個交易者都是主觀的,在電能低時不會冒險賣出或在電價高時不會買入。

在電能交易中,存在一些變量,包括可再生能源的產(chǎn)量、本地需求量等。[M.Fathi and H.Bevrani,“Adaptive energy consumption scheduling for connected microgrids under demand uncertainty,”IEEE Trans.on Power Delivery,28(3):1576-1583,2013.]提出采用自適應(yīng)的能量消費計劃解決不確定的能量需求,用在線隨機迭代方式來模擬需求的隨機性。由于可再生能源(風能)的產(chǎn)能與天氣有關(guān),產(chǎn)能不會發(fā)生驟變,即相鄰時隙的產(chǎn)能有一定的關(guān)系,[Kuznetsova E,Li Y F,Ruiz C,et al.Reinforcement learning for microgrid energy management[J].Energy,2013,59:133-146.]將可再生能源(風能)的產(chǎn)量模擬為馬爾可夫過程。



技術(shù)實現(xiàn)要素:

本發(fā)明目的為了解決微電網(wǎng)電能交易控制的問題,提供一種基于強化學習的微電網(wǎng)電能分配方法。

本發(fā)明包括以下步驟:

1)設(shè)置:

N個微電網(wǎng)用戶MG和一個發(fā)電廠PP;

微電網(wǎng)用戶之間的交易價格ρ-(買的價格)、ρ+(賣的價格)以及微電網(wǎng)用戶和發(fā)電廠PP之間的交易價格ρp-(買的價格)、ρp+(賣的價格);

微電網(wǎng)用戶MG最大儲能值E和一次交易的最大交易值M;

微電網(wǎng)各電能值的增益g;

2)微電網(wǎng)用戶MGx初始化學習因子γ、折扣因子β和最大時隙m,選擇最優(yōu)動作的概率p,設(shè)置Q值表、V值表值為0;

3)微電網(wǎng)用戶MGx在k時隙的狀態(tài)s,并根據(jù)Q值表,選擇最優(yōu)行為ax;

4)微電網(wǎng)用戶MGy在k時隙的狀態(tài)s,根據(jù)greedy策略選擇可行交易行為下所能達到最大效益值的行為ay;

5)微電網(wǎng)用戶MGx觀察其他微電網(wǎng)用戶當前時隙所采用行為ay,結(jié)合自身的行為ax與MGy進行交易,并計算本次信息傳輸?shù)募磿r回報ux

6)更新微電網(wǎng)用戶MGx的狀態(tài)以及強化學習下Q學習算法的Q值表、V值表;

7)微電網(wǎng)用戶MGx重復(fù)步驟3)-6),直到找到最優(yōu)策略。

在步驟1)中,所述N可為3,3個微電網(wǎng)用戶分兩類:采用強化學習下Q學習方法的微電網(wǎng)用戶MGx和其他2個用戶(統(tǒng)稱為用戶MGy),發(fā)電廠PP無論何時都可與微電網(wǎng)進行交易,為促進微電網(wǎng)用戶MG之間進行交易,設(shè)置即能保證優(yōu)先與MGy進行交易,在MGy不可用情況下與PP交易;所述微電網(wǎng)用戶MG最大儲能值E和最大交易值M分別為E=10,M=2,各個電量值增益g=[1,2.25,4,4.15,4.25,4.35,4.45,4.55,5.26,6.65]表示電量值變化,采取的交易值a具體含義如下公式所示:

在步驟2)中,所述Q值表是一個二維矩陣Q(Sx,Ax),其中Sx是一個非空集合,表示微電網(wǎng)用戶MGx的所有可能狀態(tài)集合,Ax表示MGx所有可能行為的集合;所述V值表是一個一維向量,表示在每個狀態(tài)sx∈S下的最大Q值,即

在步驟3)中,所述狀態(tài)sx包括MGx當前電量值以及觀察到MGy采取的動作ay,即微電網(wǎng)MGx的狀態(tài)sx=(Storex,ay),Storex∈Store={1,...,E},采取的動作即交易值ay∈Ay,Ay表示MGy所有可能行為的集合;所述最優(yōu)行為表示的是在當前狀態(tài)sx下,按照使得值函數(shù)Q(sx,ax)最大的行為ax,即ax∈Ax。

在步驟4)中,所述可行交易行為是指當前狀態(tài)下MGy根據(jù)greedy策略和最優(yōu)選擇概率p選擇所有可行動作值中所達到最大效益值的動作ay。

在步驟5)中,所述即時回報ux包括MG之間或者MG與PP之間的交易獲益Ct、MGx一次交易的增益差值Δg以及是否滿足正常供電要求的獎懲Cn,如下公式所示:

ux(ax,ay)=Δg+Ct+Cn,其中Δg=g(sx+ax)-g(sx)

上式中Stemp表示微電網(wǎng)MG當前的存儲的電量值,Use_need表示每時隙正常需求量,能夠滿足則給獎勵,否則進行懲罰。

在步驟6)中,Q學習算法的Q值表、V值表更新算法表示如下:

Q(Sxk,Axk)=(1-γ)Q(Sxk,Axk)+γ(ux+βV(Sxk+1))

在步驟7)中,所述最優(yōu)策略指的是每個狀態(tài)下,使得累計回報函數(shù)最大化。

與已有的微電網(wǎng)交易方法不同,本發(fā)明基于強化學習實現(xiàn)交易控制,從而達到電能交換的目的。該方法中微電網(wǎng)通過不斷學習環(huán)境,決定是否與其他微電網(wǎng)交易及交易量,隨著迭代學習的延續(xù),最終使得自身的收益最大化。

與現(xiàn)有的方法(指背景技術(shù)中所述方法)不同,本發(fā)明的目的在于解決微電網(wǎng)電能交易控制的問題,提供一種基于強化學習的微電網(wǎng)電能交易系統(tǒng)。根據(jù)其他微電網(wǎng)和發(fā)電廠的電能交易值以及自身的儲電量等信息,采用強化學習算法,選擇每次交易的最優(yōu)電能值。微電網(wǎng)根據(jù)每次交易的即時回報進行信息更新,并對下一次交易策略做出不同的調(diào)整。該方法不需預(yù)測周邊各微電網(wǎng)的耗電模型和產(chǎn)電模式,可適應(yīng)動態(tài)智能電網(wǎng)場景,通過智能學習獲取最優(yōu)的電量買賣值,從而提高微電網(wǎng)整體效益和電能利用率,并降低對電廠總體電能需求。

具體實施方式

1)設(shè)置3個微電網(wǎng)用戶MG,一個發(fā)電廠PP,微電網(wǎng)用戶之間的交易價格ρ-(買的價格)、ρ+(賣的價格)以及微電網(wǎng)用戶和發(fā)電廠PP之間的交易價格(買的價格)、(賣的價格),設(shè)置微電網(wǎng)用戶MG最大儲能值E和一次交易的最大交易值M,微電網(wǎng)各電能值的增益g;

2)微電網(wǎng)用戶MGx初始化學習因子γ、折扣因子β和最大時隙m,選擇最優(yōu)動作的概率p,設(shè)置Q值表、V值表值為0;

3)微電網(wǎng)用戶MGy在k時隙的狀態(tài)根據(jù)greedy策略選擇可行交易行為下所能達到最大效益值的行為ay

4)微電網(wǎng)用戶MGx在k時隙觀察當前狀態(tài)并根據(jù)Q值表,選擇此狀態(tài)下最優(yōu)行為ax;

5)微電網(wǎng)用戶MGx觀察其他微電網(wǎng)用戶當前時隙所采用行為ay,結(jié)合自身的行為ax與MGy進行交易,并計算交易之后的即時回報ux:ux(ax,ay)=Δg+Ct+Cn;

6)微電網(wǎng)用戶MGx觀察下一個時隙狀態(tài)sxk+1;

7)微電網(wǎng)用戶更新Q值表和V值表:

8)當前時隙k=k+1;

9)判斷當前時隙k是否已是Q學習的最大時隙m,若是,則結(jié)束學習,否則重復(fù)2)-9)。

本發(fā)明涉及微電網(wǎng)電能交易系統(tǒng),屬于智能電網(wǎng)領(lǐng)域。本發(fā)明目的在于解決微電網(wǎng)電能交易控制的問題,提供一種基于強化學習的微電網(wǎng)電能交易系統(tǒng)。根據(jù)其他微電網(wǎng)和發(fā)電廠的電能交易值以及自身的儲電量等信息,采用強化學習算法,選擇每次交易的最優(yōu)電能值。微電網(wǎng)根據(jù)每次交易的即時回報進行信息更新,并對下一次交易策略做出不同的調(diào)整。該方法不需預(yù)測周邊各微電網(wǎng)的耗電模型和產(chǎn)電模式,可適應(yīng)動態(tài)智能電網(wǎng)場景,通過智能學習獲取最優(yōu)的電量買賣值,從而提高微電網(wǎng)整體效益和電能利用率,并降低對電廠總體電能需求。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1