本技術(shù)涉及云計算,具體涉及一種定制化服務(wù)部署方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
1、隨著城市治理、安防監(jiān)控、智慧交通和智慧校園等場景的視覺需求日趨多元化,用戶對于人工智能視覺任務(wù)的定制化需求不斷提升,使用算力網(wǎng)絡(luò)對定制化人工智能任務(wù)進(jìn)行部署來為用戶提供服務(wù),是通過合理調(diào)用整體資源來滿足用戶定制化需求的一種可靠解決方案。在算力網(wǎng)絡(luò)下進(jìn)行定制化人工智能服務(wù)部署為用戶提供算法服務(wù)的特點,是可以通過對整體資源的合理調(diào)度來找到合適的算力節(jié)點,在該算力節(jié)點進(jìn)行定制化人工智能服務(wù)的部署,具有延時低、服務(wù)性能穩(wěn)定等優(yōu)勢。
2、目前,較為流行的在算力網(wǎng)絡(luò)下進(jìn)行定制化人工智能服務(wù)的部署方案包括:1.小模型微調(diào)結(jié)合指定資源池部署方案;2.小模型微調(diào)結(jié)合算力網(wǎng)絡(luò)調(diào)度的部署方案;3.通用大模型結(jié)合算力網(wǎng)絡(luò)調(diào)度提供通用化服務(wù)的部署方案。對于定制化任務(wù),方案1需要開發(fā)人員通過用戶提供的業(yè)務(wù)數(shù)據(jù)進(jìn)行定制化訓(xùn)練微調(diào)得到任務(wù)專有小模型;根據(jù)用戶需求對模型服務(wù)前向推理流程進(jìn)行前后處理的定制化開發(fā);對定制化訓(xùn)練得到的小模型和前后處理整體推理流程通過鏡像的方式進(jìn)行封裝來固定需要的部署軟件環(huán)境;根據(jù)用戶需求將封裝好的服務(wù)鏡像傳送到指定算力集群進(jìn)行部署,以此為用戶提供服務(wù)。方案2同樣需要開發(fā)人員通過用戶提供的業(yè)務(wù)數(shù)據(jù)進(jìn)行定制化訓(xùn)練微調(diào)得到任務(wù)專有小模型;根據(jù)用戶需求對模型服務(wù)前向推理流程進(jìn)行前后處理的定制化開發(fā);對定制化訓(xùn)練得到的小模型和前后處理整體推理流程通過鏡像的方式進(jìn)行封裝來固定需要的部署軟件環(huán)境;算力網(wǎng)絡(luò)根據(jù)用戶需求從空閑資源池調(diào)度算力資源,并將服務(wù)鏡像通過專線傳輸?shù)教囟ㄋ懔哼M(jìn)行部署,以此為用戶提供服務(wù)。方案3需要通過大量業(yè)務(wù)預(yù)訓(xùn)練數(shù)據(jù)訓(xùn)練得到具有強(qiáng)能力的視覺大模型,然后部署于算力網(wǎng)絡(luò)的各個節(jié)點為用戶提供通用服務(wù)。
3、對于現(xiàn)有的針對定制化任務(wù)的部署方案,小模型微調(diào)結(jié)合指定資源池的部署方案和小模型微調(diào)結(jié)合算力網(wǎng)絡(luò)調(diào)度的部署方案,針對不同的定制化服務(wù)需要部署不同的容器鏡像,同時服務(wù)進(jìn)行在算力網(wǎng)絡(luò)之間調(diào)度部署的開銷大,需要將整個服務(wù)鏡像在算力網(wǎng)絡(luò)不同的算力資源池之間進(jìn)行傳輸,傳輸?shù)木W(wǎng)絡(luò)帶寬開銷和時間開銷極大。通用大模型結(jié)合算力網(wǎng)絡(luò)調(diào)度提供通用化服務(wù)的部署方案,視覺大模型的通用能力還不足以覆蓋所有視覺定制化任務(wù),隨著業(yè)務(wù)場景的擴(kuò)充,長尾問題的頻發(fā),模型訓(xùn)練更新的需求會不間斷地產(chǎn)生,模型的版本更新會相對頻繁地進(jìn)行,更新完模型后需要在整個算力網(wǎng)絡(luò)進(jìn)行新模型的部署,在算力網(wǎng)絡(luò)下針對定制化服務(wù)的部署同樣存在資源開銷大的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供一種定制化服務(wù)部署方法、裝置、設(shè)備及存儲介質(zhì),用以解決現(xiàn)有的定制化服務(wù)的部署存在資源開銷大的技術(shù)問題。
2、第一方面,本技術(shù)實施例提供一種定制化服務(wù)部署方法,包括:
3、獲取目標(biāo)用戶針對定制化服務(wù)的服務(wù)生成請求;
4、所述服務(wù)生成請求中攜帶所述目標(biāo)用戶的網(wǎng)絡(luò)位置和定制化請求配置文件,所述定制化請求配置文件包括定制化任務(wù)的任務(wù)向量和多模態(tài)提示,所述多模態(tài)提示用于指示所述定制化任務(wù)輸入的任務(wù)數(shù)據(jù)的數(shù)據(jù)類型,所述任務(wù)向量是對所述任務(wù)數(shù)據(jù)進(jìn)行編碼得到的;
5、根據(jù)所述網(wǎng)絡(luò)位置確定所述定制化任務(wù)在算力網(wǎng)絡(luò)中對應(yīng)的最優(yōu)算力節(jié)點;
6、將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署。
7、在一個實施例中,所述定制化請求配置文件還包括任務(wù)向量索引;所述將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署,包括:
8、從預(yù)設(shè)向量庫的用戶暫存區(qū)中確定所述目標(biāo)用戶對應(yīng)的向量暫存區(qū),并將所述任務(wù)向量緩存至所述向量暫存區(qū)中;所述向量庫設(shè)置在所述算力網(wǎng)絡(luò)的數(shù)據(jù)節(jié)點中;
9、根據(jù)所述任務(wù)向量索引,從所述預(yù)設(shè)向量庫的公共區(qū)中獲取所述定制化任務(wù)對應(yīng)的公共任務(wù)向量;
10、對所述任務(wù)向量與所述公共任務(wù)向量進(jìn)行合并處理,得到所述定制化任務(wù)對應(yīng)的定制化請求向量;
11、將所述定制化請求向量發(fā)送至所述最優(yōu)算力節(jié)點,對所述最優(yōu)算力節(jié)點中預(yù)設(shè)的視覺多模態(tài)模型進(jìn)行定制化服務(wù)部署;所述定制化請求向量用于控制所述視覺多模態(tài)模型針對所述定制化任務(wù)的輸出結(jié)果。
12、在一個實施例中,所述將所述任務(wù)向量緩存至所述向量暫存區(qū)中之后,還包括:
13、當(dāng)檢測到所述目標(biāo)用戶的共享請求時,獲取所述公共區(qū)的任務(wù)向量列表以及所述任務(wù)向量的任務(wù)信息;所述任務(wù)信息包括所述目標(biāo)用戶的用戶信息和所述任務(wù)向量的使用場景信息;
14、基于所述任務(wù)向量列表對所述任務(wù)向量進(jìn)行校驗,確定所述任務(wù)向量是否已保存在所述公共區(qū)中;
15、若否,基于所述任務(wù)信息生成與所述任務(wù)向量綁定的目標(biāo)向量索引,并將所述目標(biāo)向量索引保存至所述任務(wù)向量列表中,以將所述任務(wù)向量保存至所述公共區(qū)中。
16、在一個實施例中,所述將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署之后,還包括:
17、每隔第一預(yù)設(shè)時長對所述算力網(wǎng)絡(luò)中的空閑算力節(jié)點進(jìn)行檢測;
18、當(dāng)檢測到所述空閑算力節(jié)點中存在優(yōu)于所述最優(yōu)算力節(jié)點的目標(biāo)算力節(jié)點時,將所述定制化請求配置文件發(fā)送至目標(biāo)算力節(jié)點,以對所述定制化任務(wù)的服務(wù)部署進(jìn)行遷移;
19、對所述最優(yōu)算力節(jié)點進(jìn)行灰度釋放。
20、在一個實施例中,所述將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署之后,還包括:
21、獲取所述目標(biāo)用戶對所述定制化任務(wù)的業(yè)務(wù)請求量;
22、根據(jù)所述業(yè)務(wù)請求量控制所述最優(yōu)算力節(jié)點的節(jié)點數(shù)量。
23、在一個實施例中,所述根據(jù)所述業(yè)務(wù)請求量控制所述最優(yōu)算力節(jié)點的節(jié)點數(shù)量,包括:
24、根據(jù)所述業(yè)務(wù)請求量確定執(zhí)行所述定制化任務(wù)所需的目標(biāo)節(jié)點數(shù)量,并獲取所述定制化任務(wù)當(dāng)前的第一節(jié)點數(shù)量;
25、若所述第一節(jié)點數(shù)量大于所述目標(biāo)節(jié)點數(shù)量,根據(jù)所述定制化任務(wù)的算力節(jié)點的優(yōu)先級,確定所述最優(yōu)算力節(jié)點中超出所述目標(biāo)節(jié)點數(shù)量的可釋放節(jié)點并進(jìn)行釋放;
26、若所述第一節(jié)點數(shù)量小于所述目標(biāo)節(jié)點數(shù)量,獲取所述算力網(wǎng)絡(luò)中的空閑節(jié)點,并根據(jù)所述空閑節(jié)點的優(yōu)先級確定可調(diào)度節(jié)點,在所述可調(diào)度節(jié)點中進(jìn)行所述定制化任務(wù)的服務(wù)部署;
27、當(dāng)檢測到所述業(yè)務(wù)請求量清零,且清零持續(xù)時長超過第二預(yù)設(shè)時長時,對所述最優(yōu)算力節(jié)點進(jìn)行釋放。
28、在一個實施例中,所述定制化請求配置文件還包括控制閾值和后處理編排流程字典,所述控制閾值用于對所述定制化任務(wù)結(jié)果的置信度進(jìn)行控制;所述將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署之后,還包括:
29、根據(jù)所述后處理編排流程字典生成所述定制化任務(wù)的后處理流程;其中,所述后處理編排流程字典為有序字典,所述有序字典的中的索引鍵表示后處理流程,所述有序字典的鍵值表示所述后處理流量的流程參數(shù)。
30、第二方面,本技術(shù)實施例提供一種定制化服務(wù)部署裝置,包括:
31、定制化請求模塊,用于獲取目標(biāo)用戶針對定制化服務(wù)的服務(wù)生成請求;
32、所述服務(wù)生成請求中攜帶所述目標(biāo)用戶的網(wǎng)絡(luò)位置和定制化請求配置文件,所述定制化請求配置文件包括定制化任務(wù)的任務(wù)向量和多模態(tài)提示,所述多模態(tài)提示用于指示所述定制化任務(wù)輸入的任務(wù)數(shù)據(jù)的數(shù)據(jù)類型,所述任務(wù)向量是對所述任務(wù)數(shù)據(jù)進(jìn)行編碼得到的;
33、節(jié)點分配模塊,用于根據(jù)所述網(wǎng)絡(luò)位置確定所述定制化任務(wù)在算力網(wǎng)絡(luò)中對應(yīng)的最優(yōu)算力節(jié)點;
34、服務(wù)部署模塊,用于將所述定制化請求配置文件發(fā)送至所述最優(yōu)算力節(jié)點進(jìn)行服務(wù)部署。
35、第三方面,本技術(shù)實施例提供一種電子設(shè)備,包括處理器和存儲有計算機(jī)程序的存儲器,所述處理器執(zhí)行所述程序時實現(xiàn)第一方面所述的定制化服務(wù)部署方法的步驟。
36、第四方面,本技術(shù)實施例提供一種非暫態(tài)的計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)第一方面所述的定制化服務(wù)部署方法的步驟。
37、第五方面,本技術(shù)實施例提供一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)第一方面所述的定制化服務(wù)部署方法的步驟。
38、本技術(shù)實施例提供的定制化服務(wù)部署方法、裝置、設(shè)備及存儲介質(zhì),通過定制化請求配置文件,響應(yīng)目標(biāo)用戶的服務(wù)生成請求,在最優(yōu)算力節(jié)點中進(jìn)行服務(wù)部署,用于向目標(biāo)用戶提供定制化服務(wù)。通過定制化請求配置文件中的任務(wù)向量引導(dǎo)定制化任務(wù)的輸出結(jié)果,將定制化請求配置文件在算力網(wǎng)絡(luò)間進(jìn)行傳輸,使得定制化任務(wù)可以在適當(dāng)?shù)乃懔?jié)點中實現(xiàn)低開銷的部署,無需在算力網(wǎng)絡(luò)下對算法模型或服務(wù)鏡像進(jìn)行調(diào)度存儲,同時,可以避免業(yè)務(wù)場景擴(kuò)充和長尾問題頻繁導(dǎo)致的模型版本更新頻繁,解決了定制化服務(wù)部署開銷大的問題。