本發(fā)明涉及無線網絡,尤其涉及一種針對智能工廠毫米波網絡平均信息年齡的優(yōu)化調度方法。
背景技術:
1、毫米波網絡憑借其超高速率、低延遲和高容量的特性,能夠顯著提升工業(yè)自動化和智能制造的效率,同時毫米波通信技術也是下一代6g網絡技術的研究重點。毫米波通信可以支持高精度的實時數(shù)據(jù)傳輸。此外,毫米波網絡還能夠支持大量工業(yè)物聯(lián)網設備的接入和數(shù)據(jù)交換,促進工廠全面數(shù)字化和智能化轉型。毫米波網絡利用先進的波束成形(beamforming)技術,通過定向傳輸將信號聚焦在特定方向上,從而提高信號質量和覆蓋范圍。這種定向傳輸技術能夠有效減少干擾和能量損失,使得信號能夠在高密度和復雜環(huán)境中穩(wěn)定傳輸。波束成形技術可以確保接入網內的設備和傳感器始終保持高效、可靠的通信,支持實時數(shù)據(jù)傳輸和精準控制,提升智能制造系統(tǒng)的整體性能和靈活性。
2、為了有效優(yōu)化工業(yè)毫米波網絡中的信息傳輸效率,現(xiàn)有研究主要集中于延遲最小化和帶寬分配。然而,這些方法通常沒有充分考慮信息的實時性和更新頻率,導致在實際應用中信息年齡(age?of?information,aoi)較高,無法滿足工業(yè)4.0對實時性和精確控制的需求。此外,傳統(tǒng)優(yōu)化方法在面對高動態(tài)和復雜環(huán)境時,往往因動作空間指數(shù)爆炸問題而無法實現(xiàn)有效的調度。深度強化學習因其強大的決策能力和自適應性,成為解決此類問題的理想選擇。深度強化學習能夠通過不斷迭代學習,找到最優(yōu)的調度策略,從而有效應對大規(guī)模和高復雜度的工業(yè)環(huán)境,最終實現(xiàn)系統(tǒng)加權平均信息年齡的最小化。
技術實現(xiàn)思路
1、為解決上述技術問題,本發(fā)明提出了針對智能工廠毫米波網絡平均信息年齡的優(yōu)化調度方法,采用基于深度強化學習的算法,將系統(tǒng)模型建模為馬爾可夫決策過程,從而求解長期加權平均信息年齡波束調度優(yōu)化問題,通過多次訓練迭代,找到最優(yōu)的調度策略,可以實現(xiàn)高效實時的數(shù)據(jù)傳輸。
2、為實現(xiàn)上述目的,本發(fā)明提供了針對智能工廠毫米波網絡平均信息年齡的優(yōu)化調度方法,包括:
3、構建使用定向傳輸天線的智能工廠毫米波網絡模型以及傳輸模型系統(tǒng);
4、定義最小化系統(tǒng)的長期加權平均信息年齡波束調度優(yōu)化問題;
5、將所述智能工廠毫米波網絡模型以及傳輸模型系統(tǒng)建模為馬爾可夫決策過程,確定系統(tǒng)所處馬爾可夫過程的狀態(tài)空間、動作空間以及獎勵函數(shù);
6、采集智能工廠毫米波網絡整個系統(tǒng)內t個時隙的參數(shù)信息,構建基于神經網絡的智能調度網絡,通過與環(huán)境進行交互,調整所述智能調度網絡的網絡參數(shù);
7、訓練所述智能調度網絡,直至達到性能要求,根據(jù)訓練好的智能調度網絡,采集節(jié)點的系統(tǒng)狀態(tài),選擇最優(yōu)策略進行調度。
8、優(yōu)選地,所述智能工廠毫米波網絡模型包括基站及若干接收節(jié)點,所述基站用于向信號范圍內的接收節(jié)點傳輸數(shù)據(jù)文件,所述基站側面裝配有定向天線,所述定向天線用于將數(shù)據(jù)文件傳輸給信號范圍內的接收節(jié)點;所述傳輸模型為扇形天線模型,所述扇形天線模型的發(fā)射天線采用單個射頻鏈的模擬波束成形技術,以集中發(fā)射信號的強度,在任意方向上調整波束寬度和波束長度,用于將波束覆蓋一個節(jié)點子集。
9、優(yōu)選地,定義最小化所述系統(tǒng)的長期加權平均信息年齡波束調度優(yōu)化問題,包括:
10、分別定義單個節(jié)點信息年齡的更新方式、整個系統(tǒng)的長期加權平均信息年齡,獲得所述優(yōu)化問題;
11、其中,定義所述單個節(jié)點信息年齡的更新方式的方法為:
12、
13、式中,表示波束組在t時隙開始傳輸,為指示變量表示節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在時隙t+1的信息年齡值,為傳輸波束組所需要的時隙數(shù),表示節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在時隙t的信息年齡值,為被選定傳輸?shù)牟ㄊM;
14、定義所述整個系統(tǒng)的長期加權平均信息年齡的方法為:
15、
16、式中,為各個節(jié)點的權重參數(shù),為整個系統(tǒng)的長期加權平均信息年齡,為時間段的總長度,為節(jié)點總數(shù),i為接收節(jié)點。
17、優(yōu)選地,所述優(yōu)化問題表示為:
18、
19、式中,表示可選波束組的總個數(shù),j為波束組的索引;
20、在每個時隙做出決策,目標為最小化長期加權平均信息年齡,其中約束1表示每個時隙中只能有一個波束組進行傳輸,約束2表示如果波束組在時隙進行傳輸,則波束組內的所有節(jié)點在該時隙內必須沒有剩余時隙需要傳輸。
21、優(yōu)選地,將系統(tǒng)模型建模為馬爾可夫決策過程,確定系統(tǒng)所處馬爾可夫過程的狀態(tài)空間、動作空間以及獎勵函數(shù),包括:
22、確認包含各節(jié)點在時隙t時的信息年齡,以及各節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),定義所述馬爾可夫過程的狀態(tài)空間為二元組;
23、將所述馬爾可夫過程的動作空間表示在時隙t調度傳輸波束組或者等待其他波束組傳輸完成;
24、將所述馬爾可夫過程的獎勵函數(shù)定義為時隙t中所有節(jié)點加權信息年齡之和的負值。
25、優(yōu)選地,所述狀態(tài)空間為:
26、
27、式中,為狀態(tài)空間,為指示變量表示接收節(jié)點在時隙所要傳輸?shù)氖S鄷r隙數(shù),為節(jié)點i在t時隙的信息年齡,i為接收節(jié)點;
28、所述動作空間為:
29、
30、其中,表示波束組在t時隙開始傳輸,特別地,當時,對應的表示不傳輸波束,為動作空間,表示可選波束組的總個數(shù),j為波束組的索引;
31、所述獎勵函數(shù)包括瞬時獎勵和累積獎勵,其中,所述瞬時獎勵為:
32、
33、式中,為t時隙的瞬時獎勵,為節(jié)點的總個數(shù),為各個接收節(jié)點的權重參數(shù),為節(jié)點i在時隙t的信息年齡值;
34、所述累積獎勵為:
35、
36、式中,為從0時隙直至t時隙的累積獎勵,t為整個時間段的長度,l為時隙的索引,為累積折扣因子,為第l時隙的即時獎勵。
37、優(yōu)選地,所述智能調度網絡包括actor子網絡和critic子網絡,所述actor子網絡和critic子網絡采用相同的狀態(tài)輸入層,若干全連接層作為隱藏層,并使用relu函數(shù)作為激活函數(shù);其中,所述actor子網絡輸出表示策略的概率值向量,記為,actor子網絡用于擬合狀態(tài)到動作的映射,即策略,對應actor子網絡根據(jù)不同系統(tǒng)狀態(tài)做出策略的過程,其維度與動作空間的大小相等;所述critic子網絡輸出為當前狀態(tài)值函數(shù)的估計值,用于評估從當前狀態(tài)執(zhí)行動作得到的預期回報;
38、在所述actor子網絡后連接有掩碼mask模塊,所述掩碼mask模塊用于保證選取的動作都為合法,將actor的概率結果乘以一個用于約束的掩碼向量,獲得概率向量,所述概率向量經過約束處理后保留下合法動作的概率值,約束條件為:如果當前時隙有波束組未傳輸完畢占據(jù)信道,則同一時隙內不能調度傳輸其他波束組。
39、優(yōu)選地,調整所述智能調度網絡的網絡參數(shù),包括:
40、在每個時隙t的開始,將系統(tǒng)狀態(tài)輸入所述actor子網絡得到約束后的概率值向量,并通過采樣選取一個動作;
41、環(huán)境在時隙t采取決策并得到瞬時獎勵,根據(jù)t時隙的系統(tǒng)狀態(tài)和采取的動作,依據(jù)狀態(tài)轉移概率得到下一個系統(tǒng)狀態(tài);
42、然后將所述系統(tǒng)狀態(tài)輸入所述critic子網絡獲得狀態(tài)值函數(shù)的估計值;將時隙t的五元組<?>作為一條經驗存入經驗回放緩存,用于后續(xù)網絡的訓練;
43、處理完成后步入下個時隙,重復此過程,直至達到最大時隙數(shù)t;
44、完成一輪交互后,計算優(yōu)勢函數(shù),并且分別計算actor子網絡和critic子網絡的損失函數(shù),并且更新網絡參數(shù)。
45、優(yōu)選地,通過反向傳播方法分別計算所述actor子網絡和critic子網絡的梯度,更新所述網絡參數(shù),具體為:
46、
47、其中,和分別為actor子網絡的學習率和critic子網絡的學習率,和分別為actor子網絡損失函數(shù)關于網絡參數(shù)的梯度和critic子網絡損失函數(shù)關于網絡參數(shù)的梯度,為actor網絡的參數(shù),為critic網絡的參數(shù)。
48、優(yōu)選地,選擇所述最優(yōu)策略進行調度的方法為:
49、
50、式中,為基于訓練好的參數(shù)的策略,表示在時隙選擇的最優(yōu)波束組調度策略,為選取出t時刻使得策略值最大的值,表示波束組在t時隙開始傳輸。
51、與現(xiàn)有技術相比,本發(fā)明具有如下優(yōu)點和技術效果:
52、(1)本發(fā)明針對智能工廠毫米波網絡的實時性通信需求,通過預先處理優(yōu)化的波束降低調度的復雜度,并進一步使用基于深度強化學習的方法以應對算法調度的動作空間指數(shù)增長的問題,保證了高實時的數(shù)據(jù)有效傳輸。
53、(2)本發(fā)明具有較強的通用性和實用性,可以自適應地應對智能工廠毫米波網絡的動態(tài)系統(tǒng)狀態(tài),實現(xiàn)數(shù)據(jù)的實時穩(wěn)定傳輸,提高系統(tǒng)的安全性和穩(wěn)定性。