本發(fā)明涉及人工智能,尤其涉及模型分布式遷移代碼生成方法、裝置、設(shè)備及介質(zhì)。
背景技術(shù):
1、大模型指具有非常高的參數(shù)量和計算能力的人工智能模型,大模型具有很強(qiáng)的泛化能力,相比于常規(guī)的模型,大模型能夠提高模型的性能和準(zhǔn)確性。但是由于大模型的參數(shù)量非常龐大,一般的顯卡無法容納,需要多臺ai服務(wù)器進(jìn)行并行計算。
2、并行計算是指在同一時間內(nèi),利用多個處理器或多個計算核心來同時執(zhí)行一個計算任務(wù)或多個相關(guān)的計算任務(wù),目前主要依賴于分布式框架實現(xiàn)。但是在現(xiàn)有技術(shù)匯總,將模型遷移到分布式框架下往往需要繁瑣的手動遷移,效率低。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供模型分布式遷移代碼生成方法、裝置、設(shè)備及介質(zhì),用以解決現(xiàn)有技術(shù)中需要手動將模型遷移到分布式框架的缺陷,實現(xiàn)提高模型到分布式框架的遷移效率。
2、本發(fā)明提供一種模型分布式遷移代碼生成方法,包括:
3、獲取配置文件,基于所述配置文件確定目標(biāo)操作模式;
4、當(dāng)所述目標(biāo)操作模式為模型訓(xùn)練模式時,對所述配置文件進(jìn)行解析,得到第一模型遷移配置參數(shù);
5、讀取待遷移模型的訓(xùn)練源代碼,基于所述第一模型遷移配置參數(shù)和所述訓(xùn)練源代碼,生成所述待遷移模型的分布式訓(xùn)練程序代碼。
6、根據(jù)本發(fā)明提供的一種模型分布式遷移代碼生成方法,所述第一模型遷移配置參數(shù)包括分布式訓(xùn)練框架類型、框架內(nèi)并行策略、參數(shù)精度、內(nèi)存優(yōu)化參數(shù)以及學(xué)習(xí)率中的至少一種。
7、根據(jù)本發(fā)明提供的一種模型分布式遷移代碼生成方法,所述基于所述第一模型遷移配置參數(shù)和所述訓(xùn)練源代碼,生成所述待遷移模型的分布式訓(xùn)練程序代碼,包括:
8、將所述訓(xùn)練源代碼轉(zhuǎn)化為抽象語法樹;
9、基于所述第一模型遷移配置參數(shù)對所述抽象語法樹進(jìn)行修改,得到所述分布式訓(xùn)練程序代碼。
10、根據(jù)本發(fā)明提供的一種模型分布式遷移代碼生成方法,所述基于所述配置文件確定目標(biāo)操作模式之后,還包括:
11、當(dāng)所述目標(biāo)操作模式為模型部署模式時,對所述配置文件進(jìn)行解析,得到第二模型遷移配置參數(shù);
12、讀取所述待遷移模型的運(yùn)行源代碼,基于所述第二模型遷移配置參數(shù)和所述運(yùn)行源代碼,生成所述待遷移模型的分布式運(yùn)行程序代碼。
13、根據(jù)本發(fā)明提供的一種模型分布式遷移代碼生成方法,所述第二模型遷移配置參數(shù)包括模型導(dǎo)出方式、輸入張量參數(shù)、算子集版本、代碼文件名、輸出張量參數(shù)、動態(tài)維度索引參數(shù)中的至少一種。
14、根據(jù)本發(fā)明提供的一種模型分布式遷移代碼生成方法,所述對所述配置文件進(jìn)行解析之后,還包括:
15、當(dāng)存在未解析到的第一模型遷移配置參數(shù)時,獲取可用算力資源數(shù)據(jù);
16、基于所述可用算力資源數(shù)據(jù)確定默認(rèn)配置參數(shù),基于所述默認(rèn)配置參數(shù)和所述訓(xùn)練源代碼,生成所述待遷移模型的分布式訓(xùn)練程序代碼。
17、本發(fā)明還提供一種模型分布式遷移代碼生成裝置,包括:
18、模式確定模塊,用于獲取配置文件,基于所述配置文件確定目標(biāo)操作模式;
19、配置解析模塊,用于當(dāng)所述目標(biāo)操作模式為模型訓(xùn)練模式時,對所述配置文件進(jìn)行解析,得到第一模型遷移配置參數(shù);
20、代碼生成模塊,用于讀取待遷移模型的訓(xùn)練源代碼,基于所述第一模型遷移配置參數(shù)和所述訓(xùn)練源代碼,生成所述待遷移模型的分布式訓(xùn)練程序代碼。
21、本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述模型分布式遷移代碼生成方法。
22、本發(fā)明還提供一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,該計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述模型分布式遷移代碼生成方法。
23、本發(fā)明還提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述模型分布式遷移代碼生成方法。
24、本發(fā)明提供的模型分布式遷移代碼生成方法,通過對預(yù)先編寫的配置文件進(jìn)行解析,得到第一模型遷移配置參數(shù),基于第一模型遷移配置參數(shù)和待遷移模型的訓(xùn)練源代碼,生成待遷移模型的分布式訓(xùn)練程序代碼,可以實現(xiàn)只需要輸入配置文件和訓(xùn)練源代碼,就可以自動生成大模型遷移至分布式框架下訓(xùn)練的代碼,提高模型遷移到分布式框架的效率。
1.一種模型分布式遷移代碼生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的模型分布式遷移代碼生成方法,其特征在于,所述第一模型遷移配置參數(shù)包括分布式訓(xùn)練框架類型、框架內(nèi)并行策略、參數(shù)精度、內(nèi)存優(yōu)化參數(shù)以及學(xué)習(xí)率中的至少一種。
3.根據(jù)權(quán)利要求1所述的模型分布式遷移代碼生成方法,其特征在于,所述基于所述第一模型遷移配置參數(shù)和所述訓(xùn)練源代碼,生成所述待遷移模型的分布式訓(xùn)練程序代碼,包括:
4.根據(jù)權(quán)利要求1所述的模型分布式遷移代碼生成方法,其特征在于,所述基于所述配置文件確定目標(biāo)操作模式之后,還包括:
5.根據(jù)權(quán)利要求3所述的模型分布式遷移代碼生成方法,其特征在于,所述第二模型遷移配置參數(shù)包括模型導(dǎo)出方式、輸入張量參數(shù)、算子集版本、代碼文件名、輸出張量參數(shù)、動態(tài)維度索引參數(shù)中的至少一種。
6.根據(jù)權(quán)利要求1所述的模型分布式遷移代碼生成方法,其特征在于,所述對所述配置文件進(jìn)行解析之后,還包括:
7.一種模型分布式遷移代碼生成裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述模型分布式遷移代碼生成方法。
9.一種非暫態(tài)計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述模型分布式遷移代碼生成方法。
10.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述模型分布式遷移代碼生成方法。