日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

面向政務(wù)信息的小型語言模型的釋義生成方法、裝置與流程

文檔序號(hào):39720838發(fā)布日期:2024-10-22 13:11閱讀:3來源:國(guó)知局
面向政務(wù)信息的小型語言模型的釋義生成方法、裝置與流程

本申請(qǐng)涉及人工智能技術(shù)和文本生成,例如涉及一種面向政務(wù)信息的小型語言模型的釋義生成方法、裝置。


背景技術(shù):

1、釋義生成技術(shù),作為一種先進(jìn)的自然語言處理手段,其核心在于機(jī)器能夠自動(dòng)產(chǎn)出與輸入句子保持語義一致但表述各異的全新句子。這一技術(shù)廣泛應(yīng)用于多個(gè)領(lǐng)域,如自動(dòng)化生成新聞?wù)?,豐富法律文書的解釋方式以增強(qiáng)理解度,以及在信息檢索中精準(zhǔn)捕捉用戶查詢意圖等。隨著電子政務(wù)體系的蓬勃發(fā)展,對(duì)高效處理海量政務(wù)數(shù)據(jù)的需求愈發(fā)迫切,釋義生成技術(shù)應(yīng)運(yùn)而生,為政務(wù)信息檢索、自動(dòng)分析、政策文件改編及公告內(nèi)容優(yōu)化提供了強(qiáng)有力的支持,顯著提升了處理效率與質(zhì)量。同時(shí),支持多語言的釋義功能促進(jìn)了跨語言交流,進(jìn)一步提升了政務(wù)服務(wù)的國(guó)際化水平和智能化進(jìn)程。

2、然而,盡管大型語言模型憑借海量文本數(shù)據(jù)掌握了豐富的語言知識(shí)和規(guī)律,但其龐大的參數(shù)規(guī)模(動(dòng)輒數(shù)百億)不僅消耗了巨額計(jì)算資源,還限制了其在本地環(huán)境中的部署靈活性。尤為關(guān)鍵的是,政務(wù)信息涉及高度敏感的數(shù)據(jù)隱私與安全性問題,若依賴云端大型模型處理,則面臨數(shù)據(jù)泄露的潛在風(fēng)險(xiǎn)。

3、需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強(qiáng)對(duì)本申請(qǐng)的背景的理解,因此可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。


技術(shù)實(shí)現(xiàn)思路

1、為了對(duì)披露的實(shí)施例的一些方面有基本的理解,下面給出了簡(jiǎn)單的概括。所述概括不是泛泛評(píng)述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍,而是作為后面的詳細(xì)說明的序言。

2、本公開實(shí)施例提供了一種面向政務(wù)信息的小型語言模型的釋義生成方法、裝置,以在資源受限的環(huán)境下高效地處理和理解政務(wù)信息,生成語法正確、句法和詞匯多樣化的釋義詞句,降低運(yùn)算成本并提高響應(yīng)速度。

3、在一些實(shí)施例中,所述方法包括:s1、數(shù)據(jù)集創(chuàng)建:使用多個(gè)數(shù)據(jù)源獲取語義數(shù)據(jù)集中的釋義詞句子對(duì)和官方發(fā)表的政務(wù)相關(guān)信息,處理并制作以句子為單位的政務(wù)信息語句數(shù)據(jù),整理得到完整的政務(wù)信息釋義數(shù)據(jù)集;

4、s2、釋義句生成:利用合適的指令調(diào)用大語言模型服務(wù)的api,輸入s1步驟中獲得的政務(wù)信息語句數(shù)據(jù),生成句法多樣的釋義句子,并通過內(nèi)容審核api標(biāo)記并過濾不適當(dāng)?shù)膬?nèi)容,形成政務(wù)信息釋義句子對(duì);

5、s3、模型選擇與訓(xùn)練:選擇一個(gè)小型開源語言預(yù)訓(xùn)練模型,并采用lora微調(diào)訓(xùn)練法,優(yōu)化模型性能;

6、s4、后處理優(yōu)化:對(duì)s3步驟中訓(xùn)練的模型進(jìn)行推理時(shí),設(shè)置后處理超參數(shù)以優(yōu)化模型表現(xiàn);

7、s5、評(píng)估:通過定量和定性評(píng)估模型在政務(wù)信息測(cè)試集句子上的釋義表現(xiàn),定量評(píng)估包括語義相似性、句法多樣性和詞匯多樣性,定性評(píng)估通過大語言模型服務(wù)進(jìn)行;

8、s6、模型部署:將經(jīng)過評(píng)估的釋義模型部署到本地環(huán)境。

9、可選地,在s1步驟中,政務(wù)信息語句數(shù)據(jù)的處理包括文本合并、分句以及去除冗余信息。

10、可選地,在s2步驟中,加入人工審核;人工審核包括評(píng)估釋義句子的準(zhǔn)確性和恰當(dāng)性,并根據(jù)審核結(jié)果重新生成釋義句子或保留原有釋義句子。

11、可選地,在s3步驟中,選擇一個(gè)參數(shù)量在30億左右或以下的小型開源語言預(yù)訓(xùn)練模型,并在訓(xùn)練時(shí)加入改寫類關(guān)鍵詞作為輸入;采用lora微調(diào)訓(xùn)練法,保留預(yù)訓(xùn)練模型的權(quán)重,在transformer結(jié)構(gòu)的每一層中引入可訓(xùn)練的低秩分解矩陣,并調(diào)整學(xué)習(xí)率、dropout、rank和alpha參數(shù)進(jìn)行訓(xùn)練。

12、可選地,在訓(xùn)練時(shí),僅優(yōu)化低秩矩陣中的參數(shù)。

13、可選地,在s4步驟中,后處理超參數(shù)的設(shè)置包括設(shè)置生成新令牌的最大數(shù)量、啟用提前停止標(biāo)示、限制n-gram重復(fù)令牌配置、設(shè)置溫度以及top-k和top-p參數(shù)。

14、可選地,在s5步驟中,定量評(píng)估中的語義相似性通過詞嵌入模型和余弦相似性方法測(cè)量,句法多樣性通過句法樹編輯距離計(jì)算,詞匯多樣性通過字符多樣性評(píng)估工具計(jì)算。

15、可選地,在s6步驟中,模型部署包括創(chuàng)建一個(gè)服務(wù)接口,該接口接受輸入文本并返回模型生成的釋義句子。

16、在一些實(shí)施例中,所述裝置包括處理器和存儲(chǔ)有程序指令的存儲(chǔ)器,處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行前述的面向政務(wù)信息的小型語言模型的釋義生成的方法。

17、在一些實(shí)施例中,存儲(chǔ)介質(zhì),存儲(chǔ)有程序指令,程序指令在運(yùn)行時(shí),執(zhí)行前述的面向政務(wù)信息的小型語言模型的釋義生成方法。

18、本公開實(shí)施例提供的面向政務(wù)信息的小型語言模型的釋義生成方法、裝置,可以實(shí)現(xiàn)以下技術(shù)效果:

19、本公開利用小型語言模型對(duì)于政務(wù)信息進(jìn)行釋義生成,巧妙運(yùn)用知識(shí)蒸餾技術(shù),將大型模型的卓越性能“壓縮”至小型模型中,實(shí)現(xiàn)了精度與效率的雙重保障。該小型模型不僅易于集成至現(xiàn)有政務(wù)系統(tǒng),還能在資源有限的環(huán)境下高效運(yùn)作,生成語法嚴(yán)謹(jǐn)、句法與詞匯豐富多變的釋義文本,有效降低了運(yùn)行成本,加速了響應(yīng)速度,更為關(guān)鍵的是,它牢固守護(hù)了政務(wù)數(shù)據(jù)的隱私與安全防線,為電子政務(wù)的智能化轉(zhuǎn)型鋪設(shè)了堅(jiān)實(shí)基石。

20、以上的總體描述和下文中的描述僅是示例性和解釋性的,不用于限制本申請(qǐng)。



技術(shù)特征:

1.一種面向政務(wù)信息的小型語言模型的釋義生成方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s1步驟中,政務(wù)信息語句數(shù)據(jù)的處理包括文本合并、分句以及去除冗余信息。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s2步驟中,加入人工審核;

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s3步驟中,

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,在訓(xùn)練時(shí),僅優(yōu)化低秩矩陣中的參數(shù)。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s4步驟中,后處理超參數(shù)的設(shè)置包括設(shè)置生成新令牌的最大數(shù)量、啟用提前停止標(biāo)示、限制n-gram重復(fù)令牌配置、設(shè)置溫度以及top-k和top-p參數(shù)。

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s5步驟中,定量評(píng)估中的語義相似性通過詞嵌入模型和余弦相似性方法測(cè)量,句法多樣性通過句法樹編輯距離計(jì)算,詞匯多樣性通過字符多樣性評(píng)估工具計(jì)算。

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,在s6步驟中,模型部署包括創(chuàng)建一個(gè)服務(wù)接口,該接口接受輸入文本并返回模型生成的釋義句子。

9.一種面向政務(wù)信息的小型語言模型的釋義生成裝置,包括處理器和存儲(chǔ)有程序指令的存儲(chǔ)器,其特征在于,所述處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行如權(quán)利要求1至8任一項(xiàng)所述的面向政務(wù)信息的小型語言模型的釋義生成的方法。

10.一種存儲(chǔ)介質(zhì),存儲(chǔ)有程序指令,其特征在于,所述程序指令在運(yùn)行時(shí),執(zhí)行如權(quán)利要求1至8任一項(xiàng)所述的面向政務(wù)信息的小型語言模型的釋義生成方法。


技術(shù)總結(jié)
本申請(qǐng)涉及人工智能技術(shù)和文本生成技術(shù)領(lǐng)域,公開了一種面向政務(wù)信息的小型語言模型的釋義生成方法、裝置,方法包括:本申請(qǐng)公開面向政務(wù)信息的小型語言模型釋義生成方法,包括數(shù)據(jù)集創(chuàng)建、釋義句生成、模型選擇與訓(xùn)練、后處理優(yōu)化、評(píng)估及模型部署。該方法通過多源數(shù)據(jù)構(gòu)建政務(wù)信息釋義數(shù)據(jù)集,利用大模型生成釋義并審核,選擇小型預(yù)訓(xùn)練模型優(yōu)化訓(xùn)練。采用本發(fā)明的方法能夠有效降低成本,提升響應(yīng)速度,確保隱私安全。

技術(shù)研發(fā)人員:葛君正,陳其賓,姜?jiǎng)P,李銳
受保護(hù)的技術(shù)使用者:山東浪潮科學(xué)研究院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1