日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲方法與流程

文檔序號:39729605發(fā)布日期:2024-10-22 13:34閱讀:7來源:國知局
用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲方法與流程

本說明書一個或多個實施例涉及人工智能和存儲,尤其涉及一種用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲方法。


背景技術(shù):

1、人工智能(artificial?intelligence,ai)模型正逐漸成為推動科技進步的關(guān)鍵力量。ai模型,尤其是深度學(xué)習(xí)模型,通過模仿人腦神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與功能,能夠在大量數(shù)據(jù)中自動提取特征,實現(xiàn)對復(fù)雜模式的學(xué)習(xí)與預(yù)測。從語音識別到圖像分析,再到自然語言處理,ai模型的應(yīng)用范圍廣泛,極大地提升了自動化水平與效率,成為各行業(yè)創(chuàng)新的核心驅(qū)動力。

2、在相關(guān)技術(shù)中,通過在站點內(nèi)部署計算節(jié)點和緩存節(jié)點,緩存節(jié)點可以為計算節(jié)點提供高效的緩存服務(wù)。具體地,緩存節(jié)點可以將訓(xùn)練所需的數(shù)據(jù)集寫入本地,以供計算節(jié)點進行讀取和使用。以及,計算節(jié)點在ai模型的訓(xùn)練過程中會生成checkpoint(檢查點),并將其寫入緩存節(jié)點。相比于直接與遠程存儲系統(tǒng)進行數(shù)據(jù)交互,計算節(jié)點在與同站點內(nèi)的緩存節(jié)點進行數(shù)據(jù)交互,能夠極大地提升io效率。

3、然而,相關(guān)技術(shù)中的緩存節(jié)點對于checkpoint文件的寫入耗時過長。


技術(shù)實現(xiàn)思路

1、有鑒于此,本說明書一個或多個實施例提供技術(shù)方案如下:

2、根據(jù)本說明書一個或多個實施例的第一方面,提出了一種用于人工智能模型訓(xùn)練的系統(tǒng),包括:模型訓(xùn)練模塊和第一緩存模塊;

3、所述模型訓(xùn)練模塊,用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),所述訓(xùn)練任務(wù)的計算由gpu芯片執(zhí)行;以及,在執(zhí)行所述訓(xùn)練任務(wù)的過程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;

4、所述第一緩存模塊,對獲取的待存儲數(shù)據(jù)進行類型識別,其中:若所述待存儲數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;若所述待存儲數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲數(shù)據(jù)存入所述本地硬盤。

5、根據(jù)本說明書一個或多個實施例的第二方面,提出了一種模型訓(xùn)練場景下的checkpoint文件存儲方法,包括:應(yīng)用于系統(tǒng)中的第一緩存模塊,還系統(tǒng)內(nèi)還部署有模型訓(xùn)練模塊,該模型訓(xùn)練模塊用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),該訓(xùn)練任務(wù)的計算由gpu芯片執(zhí)行,以及在執(zhí)行所述訓(xùn)練任務(wù)的過程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述方法包括:

6、對獲取的待存儲數(shù)據(jù)進行類型識別;

7、若所述待存儲數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;

8、若所述待存儲數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲數(shù)據(jù)存入所述本地硬盤。

9、根據(jù)本說明書一個或多個實施例的第三方面,提出了一種電子設(shè)備,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器通過運行所述可執(zhí)行指令以實現(xiàn)如第二方面所述方法的步驟。

10、根據(jù)本說明書一個或多個實施例的第四方面,提出了一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,該指令被處理器執(zhí)行時實現(xiàn)如第二方面所述方法的步驟。

11、根據(jù)本說明書一個或多個實施例的第五方面,提出了一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如第二方面所述方法的步驟。

12、由上述實施例可知,本說明書通過對第一緩存模塊獲取的待存儲數(shù)據(jù)進行類型識別,使得第一緩存模塊可以基于識別結(jié)果自動化地選擇更加恰當(dāng)?shù)拇鎯Σ呗?,以滿足不同類型的數(shù)據(jù)的存儲需求。針對數(shù)據(jù)集類型的待存儲數(shù)據(jù),通過buffer機制進行緩存,可以適應(yīng)于模型訓(xùn)練模塊對數(shù)據(jù)集的頻繁讀取需求,使得模型訓(xùn)練模塊能夠盡量從buffer而非硬盤中讀取數(shù)據(jù)集,以提升針對數(shù)據(jù)集的讀取效率。而針對checkpoint文件類型的待存儲數(shù)據(jù),由于對checkpoint文件的讀取需求極低,故而通過將其直接存入本地硬盤,可以避免buffer管理開銷造成對checkpoint文件的寫入耗時增加,提高checkpoint文件的寫入效率。并且,由于ai模型的訓(xùn)練任務(wù)在checkpoint文件的寫入過程中處于中止?fàn)顟B(tài),故而對checkpoint的快速寫入還有助于盡早恢復(fù)ai模型的訓(xùn)練任務(wù),從而提升ai模型的訓(xùn)練效率,以及提升模型訓(xùn)練模塊的資源利用率。



技術(shù)特征:

1.一種用于人工智能模型訓(xùn)練的系統(tǒng),包括:模型訓(xùn)練模塊和第一緩存模塊;

2.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊對獲取的待存儲數(shù)據(jù)進行類型識別,包括:

3.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊還用于:

4.根據(jù)權(quán)利要求3所述的系統(tǒng),所述第一緩存模塊,還用于:

5.根據(jù)權(quán)利要求1所述的系統(tǒng),所述第一緩存模塊,還用于:

6.根據(jù)權(quán)利要求1所述的系統(tǒng),該系統(tǒng)所含的緩存模塊部署于全閃緩存節(jié)點。

7.一種模型訓(xùn)練場景下的checkpoint文件存儲方法,應(yīng)用于系統(tǒng)中的第一緩存模塊,還系統(tǒng)內(nèi)還部署有模型訓(xùn)練模塊,該模型訓(xùn)練模塊用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),該訓(xùn)練任務(wù)的計算由gpu芯片執(zhí)行,以及在執(zhí)行所述訓(xùn)練任務(wù)的過程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述方法包括:

8.根據(jù)權(quán)利要求7所述的方法,所述對獲取的待存儲數(shù)據(jù)進行類型識別,包括:

9.根據(jù)權(quán)利要求7所述的方法,還包括:

10.根據(jù)權(quán)利要求9所述的方法,還包括:

11.根據(jù)權(quán)利要求7所述的方法,還包括:

12.一種電子設(shè)備,包括:處理器;用于存儲處理器可執(zhí)行指令的存儲器;其中,所述處理器通過運行所述可執(zhí)行指令以實現(xiàn)如權(quán)利要求7-11中任一項所述方法的步驟。

13.一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,該指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求7-11中任一項所述方法的步驟。

14.一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)如權(quán)利要求7-11中任一項所述方法的步驟。


技術(shù)總結(jié)
本說明書一個或多個實施例提供一種用于人工智能模型訓(xùn)練的系統(tǒng)及checkpoint文件存儲方法,該系統(tǒng)包括:模型訓(xùn)練模塊和第一緩存模塊;所述模型訓(xùn)練模塊,用于從所述第一緩存模塊處讀取訓(xùn)練所需的數(shù)據(jù)集,以執(zhí)行人工智能模型的訓(xùn)練任務(wù),所述訓(xùn)練任務(wù)的計算由GPU芯片執(zhí)行;以及,在執(zhí)行所述訓(xùn)練任務(wù)的過程中,生成checkpoint文件并發(fā)送至所述第一緩存模塊;所述第一緩存模塊,對獲取的待存儲數(shù)據(jù)進行類型識別,其中:若所述待存儲數(shù)據(jù)的類型為數(shù)據(jù)集,則先將所述待存儲數(shù)據(jù)寫入本地buffer,然后從本地buffer存入本地硬盤;若所述待存儲數(shù)據(jù)的類型為checkpoint文件,則直接將所述待存儲數(shù)據(jù)存入所述本地硬盤。

技術(shù)研發(fā)人員:劉鍵,顧樹威,詹曉君,阮若夷
受保護的技術(shù)使用者:支付寶(杭州)信息技術(shù)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1