日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法及系統(tǒng)

文檔序號(hào):39726636發(fā)布日期:2024-10-22 13:26閱讀:2來源:國知局
基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法及系統(tǒng)

本發(fā)明屬于煤礦工作面數(shù)據(jù)處理領(lǐng)域,具體涉及一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法及系統(tǒng)。


背景技術(shù):

1、隨著礦井開采向深部發(fā)展,煤層甲烷含量逐漸增大,使得工作面甲烷涌出量增大。特別是回采期間多源甲烷大量涌入,給工作面甲烷治理帶來重大難題。大量文獻(xiàn)研究表明,對(duì)甲烷濃度高精度感知,掌握工作面回采期間甲烷運(yùn)移與分布規(guī)律,能夠?yàn)榫C采工作面甲烷治理提供依據(jù),具有重要工程實(shí)際意義。

2、現(xiàn)階段,煤礦對(duì)甲烷濃度的感知主要通過固定傳感器采集和人工巡檢兩種方式來實(shí)現(xiàn)。以安全監(jiān)控系統(tǒng)為主的甲烷濃度實(shí)時(shí)監(jiān)測(cè)體系通過在上隅角、工作面和回風(fēng)巷布置固定甲烷傳感器,實(shí)現(xiàn)了回風(fēng)側(cè)的甲烷濃度實(shí)時(shí)監(jiān)測(cè),采集周期一般不超過30s,數(shù)據(jù)采集的實(shí)時(shí)性好。但是,對(duì)工作面的采煤機(jī)、支架和刮板機(jī)作業(yè)的重點(diǎn)區(qū)域,甲烷濃度無法進(jìn)行監(jiān)測(cè),監(jiān)測(cè)覆蓋范圍不足。

3、傳統(tǒng)的甲烷安全區(qū)域判斷方法是通過固定點(diǎn)甲烷傳感器監(jiān)測(cè)配合瓦檢員手持設(shè)備記錄甲烷濃度。受現(xiàn)場(chǎng)空間和成本限制,煤礦綜采工作面區(qū)域難以安裝過多的固定傳感器,一般僅在上隅角和工作面下端頭位置布置固定甲烷傳感器。人工巡檢工作量較重,對(duì)不同區(qū)域逐一檢查,需要瓦檢員數(shù)量也較多,且無法保證大范圍長(zhǎng)期性的檢測(cè),導(dǎo)致工作面區(qū)域難以實(shí)現(xiàn)高覆蓋監(jiān)測(cè)。


技術(shù)實(shí)現(xiàn)思路

1、為了解決現(xiàn)有技術(shù)中存在的上述問題,本發(fā)明提供了一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法及系統(tǒng)。本發(fā)明要解決的技術(shù)問題通過以下技術(shù)方案實(shí)現(xiàn):

2、一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法,包括:

3、將綜采工作面劃分為第一數(shù)量的橫向區(qū)域和第二數(shù)量的縱向區(qū)域,使得通過橫向區(qū)域和縱向區(qū)域形成若干子區(qū)域,其中,所述橫向區(qū)域根據(jù)甲烷來源確定,所述縱向區(qū)域根據(jù)風(fēng)流特征確定;

4、基于所述子區(qū)域的劃分,對(duì)每個(gè)子區(qū)域進(jìn)行編號(hào)后,采集相應(yīng)子區(qū)域的甲烷濃度信息;

5、設(shè)置狀態(tài)參數(shù)和動(dòng)作參數(shù)作為預(yù)設(shè)深度遞歸神經(jīng)網(wǎng)絡(luò)模型輸入,以根據(jù)所述狀態(tài)參數(shù)和動(dòng)作參數(shù)確定每個(gè)子區(qū)域的獎(jiǎng)勵(lì)參數(shù),所述狀態(tài)參數(shù)包括編碼選擇矩陣和時(shí)間戳,其中,所述預(yù)設(shè)深度遞歸神經(jīng)網(wǎng)絡(luò)模型包括自注意力特征層,所述編碼選擇矩陣包括甲烷濃度信息;

6、對(duì)所述獎(jiǎng)勵(lì)參數(shù)進(jìn)行迭代更新,以使損失函數(shù)滿足預(yù)設(shè)條件時(shí),得到符合條件的若干子區(qū)域編號(hào),以根據(jù)該若干子區(qū)域編號(hào)對(duì)應(yīng)的位置確定傳感器布設(shè)位置。

7、在一個(gè)具體實(shí)施方式中,所述獎(jiǎng)勵(lì)參數(shù)更新公式為:

8、q[st,at]=(1-α)q[st,at]+α(rt+γv(st+1)),

9、其中,st為當(dāng)前狀態(tài),v(st+1)表示在學(xué)習(xí)率α∈(0,1]和折扣率γ∈(0,1]情況下迭代的將來獎(jiǎng)勵(lì)。q[st,at]為狀態(tài)st下采取動(dòng)作at的累計(jì)獎(jiǎng)勵(lì)值(q值),α∈(0,1]決定了新信息在更新q值時(shí)的重要性,γ∈(0,1]用來權(quán)衡未來獎(jiǎng)勵(lì)的重要性,rt為狀態(tài)st下執(zhí)行動(dòng)作at后獲得的直接獎(jiǎng)勵(lì),為下一個(gè)狀態(tài)st+1下所有可能動(dòng)作的q值中的最大值。

10、在一個(gè)具體實(shí)施方式中,所述深度遞歸模型的損失函數(shù)為:

11、

12、其中,l(θt)為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),表示利用經(jīng)驗(yàn)組進(jìn)行神經(jīng)網(wǎng)絡(luò),r為在狀態(tài)s下執(zhí)行動(dòng)作a后立即獲得的獎(jiǎng)勵(lì),γ為折扣因子,γ∈(0,1]表示未來獎(jiǎng)勵(lì)的重要程度,maxa′q(s′,a′)為新的狀態(tài)s′下選擇使q值最大的動(dòng)作a′對(duì)應(yīng)的q值,為狀態(tài)s下采用當(dāng)前神經(jīng)網(wǎng)絡(luò)參數(shù)θt估計(jì)的q值,為損失函數(shù)l(θt)對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)θt的梯度,表示了損失函數(shù)對(duì)參數(shù)變化的敏感度。

13、在一個(gè)具體實(shí)施方式中,自注意力特征層的輸出矩陣為:

14、其中,wd為分布加權(quán)矩陣,qd為查詢向量,kd為鍵向量,vd為值向量,dk為kd向量的長(zhǎng)度。

15、本發(fā)明同時(shí)提供一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇系統(tǒng),包括:

16、工作面劃分模塊,用于將綜采工作面劃分為第一數(shù)量的橫向區(qū)域和第二數(shù)量的縱向區(qū)域,使得通過橫向區(qū)域和縱向區(qū)域形成若干子區(qū)域,其中,所述橫向區(qū)域根據(jù)甲烷來源確定,所述縱向區(qū)域根據(jù)風(fēng)流特征確定;

17、濃度采集模塊,用于基于所述子區(qū)域的劃分,對(duì)每個(gè)子區(qū)域進(jìn)行編號(hào)后,采集相應(yīng)子區(qū)域的甲烷濃度信息;

18、參數(shù)設(shè)置模塊,用于設(shè)置狀態(tài)參數(shù)和動(dòng)作參數(shù)作為預(yù)設(shè)深度遞歸神經(jīng)網(wǎng)絡(luò)模型輸入,以根據(jù)所述狀態(tài)參數(shù)和動(dòng)作參數(shù)確定每個(gè)子區(qū)域的獎(jiǎng)勵(lì)參數(shù),所述狀態(tài)參數(shù)包括編碼選擇矩陣和時(shí)間戳,其中,所述預(yù)設(shè)深度遞歸神經(jīng)網(wǎng)絡(luò)模型包括自注意力特征層,所述編碼選擇矩陣包括甲烷濃度信息;

19、迭代更新模塊,用于對(duì)所述獎(jiǎng)勵(lì)參數(shù)進(jìn)行迭代更新,以使損失函數(shù)滿足預(yù)設(shè)條件時(shí),得到符合條件的若干子區(qū)域編號(hào),以根據(jù)該若干子區(qū)域編號(hào)對(duì)應(yīng)的位置確定傳感器布設(shè)位置。

20、在一個(gè)具體實(shí)施方式中,所述獎(jiǎng)勵(lì)參數(shù)更新公式為:

21、q[st,at]=(1-α)q[st,at]+α(rt+γv(st+1)),

22、其中,st為當(dāng)前狀態(tài),v(st+1)表示在學(xué)習(xí)率α∈(0,1]和折扣率γ∈(0,1]情況下迭代的將來獎(jiǎng)勵(lì)。q[st,at]為狀態(tài)st下采取動(dòng)作at的累計(jì)獎(jiǎng)勵(lì)值(q值),α∈(0,1]決定了新信息在更新q值時(shí)的重要性,γ∈(0,1]用來權(quán)衡未來獎(jiǎng)勵(lì)的重要性,rt為狀態(tài)st下執(zhí)行動(dòng)作at后獲得的直接獎(jiǎng)勵(lì),為下一個(gè)狀態(tài)st+1下所有可能動(dòng)作的q值中的最大值。

23、在一個(gè)具體實(shí)施方式中,所述深度遞歸模型的損失函數(shù)為:

24、

25、其中,l(θt)為神經(jīng)網(wǎng)絡(luò)的損失函數(shù),表示利用經(jīng)驗(yàn)組進(jìn)行神經(jīng)網(wǎng)絡(luò),r為在狀態(tài)s下執(zhí)行動(dòng)作a后立即獲得的獎(jiǎng)勵(lì),γ為折扣因子,γ∈(0,1]表示未來獎(jiǎng)勵(lì)的重要程度,maxa′q(s′,a′)為新的狀態(tài)s′下選擇使q值最大的動(dòng)作a′對(duì)應(yīng)的q值,為狀態(tài)s下采用當(dāng)前神經(jīng)網(wǎng)絡(luò)參數(shù)θt估計(jì)的q值,為損失函數(shù)l(θt)對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)θt的梯度,表示了損失函數(shù)對(duì)參數(shù)變化的敏感度。

26、在一個(gè)具體實(shí)施方式中,自注意力特征層的輸出矩陣為:

27、其中,wd為分布加權(quán)矩陣,qd為查詢向量,kd為鍵向量,vd為值向量,dk為kd向量的長(zhǎng)度。

28、本發(fā)明的有益效果:

29、本發(fā)明的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法結(jié)合甲烷來源分布與工作面風(fēng)流特征指導(dǎo)子區(qū)域劃分,根據(jù)甲烷來源位置分布特征將工作面橫向分成三個(gè)區(qū)間,再利用工作面風(fēng)流特征將工作面縱向分成四個(gè)區(qū)間,以高效構(gòu)建甲烷濃度感知子區(qū)域。此外,在深度遞歸神經(jīng)網(wǎng)絡(luò)模型中引入自注意力特征層,可以使得模型能夠更有效地捕捉狀態(tài)中不同區(qū)域之間的依賴關(guān)系,自動(dòng)學(xué)習(xí)到哪些狀態(tài)對(duì)于計(jì)算當(dāng)前狀態(tài)的表示是重要的,從而更好地捕捉到序列中的關(guān)鍵信息,以對(duì)深度遞歸神經(jīng)網(wǎng)絡(luò)模型進(jìn)行輔助優(yōu)化。

30、以下將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步詳細(xì)說明。



技術(shù)特征:

1.一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法,其特征在于,所述獎(jiǎng)勵(lì)參數(shù)更新公式為:

3.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法,其特征在于,所述深度遞歸模型的損失函數(shù)為:

4.根據(jù)權(quán)利要求1所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法,其特征在于,自注意力特征層的輸出矩陣為:

5.一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇系統(tǒng),其特征在于,包括:

6.根據(jù)權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇系統(tǒng),其特征在于,所述獎(jiǎng)勵(lì)參數(shù)更新公式為:

7.根據(jù)權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇系統(tǒng),其特征在于,所述深度遞歸模型的損失函數(shù)為:

8.根據(jù)權(quán)利要求5所述的基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇系統(tǒng),其特征在于,自注意力特征層的輸出矩陣為:


技術(shù)總結(jié)
本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的煤礦綜采工作面感知區(qū)域選擇方法及系統(tǒng),該方法包括:將綜采工作面劃分為第一數(shù)量的橫向區(qū)域和第二數(shù)量的縱向區(qū)域,使得通過橫向區(qū)域和縱向區(qū)域形成若干子區(qū)域;基于所述子區(qū)域的劃分,對(duì)每個(gè)子區(qū)域進(jìn)行編號(hào)后,采集相應(yīng)子區(qū)域的甲烷濃度信息;設(shè)置狀態(tài)參數(shù)和動(dòng)作參數(shù)作為預(yù)設(shè)深度遞歸神經(jīng)網(wǎng)絡(luò)模型輸入,以根據(jù)所述狀態(tài)參數(shù)和動(dòng)作參數(shù)確定每個(gè)子區(qū)域的獎(jiǎng)勵(lì)參數(shù),所述狀態(tài)參數(shù)包括編碼選擇矩陣和時(shí)間戳;對(duì)所述獎(jiǎng)勵(lì)參數(shù)進(jìn)行迭代更新,以使損失函數(shù)滿足預(yù)設(shè)條件時(shí),得到符合條件的若干子區(qū)域編號(hào),以根據(jù)該若干子區(qū)域編號(hào)對(duì)應(yīng)的位置確定傳感器布設(shè)位置。本發(fā)明可以高效構(gòu)建甲烷濃度感知子區(qū)域,提高檢測(cè)準(zhǔn)確度。

技術(shù)研發(fā)人員:張婧,滕琦昊,李洪安
受保護(hù)的技術(shù)使用者:西安科技大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1