日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法與流程

文檔序號:39721034發(fā)布日期:2024-10-22 13:12閱讀:2來源:國知局
一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法與流程

本發(fā)明涉及實(shí)體識別,尤其涉及一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。


背景技術(shù):

1、在全球貿(mào)易中,海關(guān)條例和法規(guī)的復(fù)雜性對海關(guān)管理和合規(guī)檢查提出了巨大的挑戰(zhàn)。傳統(tǒng)的文本處理方法主要依賴于手動標(biāo)注和規(guī)則匹配,不僅耗時耗力,還容易出錯。尤其是在海關(guān)領(lǐng)域,標(biāo)注樣本通常非常有限,這對基于bert等模型的分類任務(wù)提出了更高的要求,因?yàn)檫@些模型通常需要大量的標(biāo)注數(shù)據(jù)來進(jìn)行有效的訓(xùn)練。

2、現(xiàn)有技術(shù)中,bert分類模型在實(shí)體識別任務(wù)中表現(xiàn)出色,但其性能高度依賴于大量高質(zhì)量的標(biāo)注數(shù)據(jù);然而,海關(guān)領(lǐng)域的標(biāo)注數(shù)據(jù)非常稀缺,無法滿足模型訓(xùn)練的需求,導(dǎo)致實(shí)體識別的準(zhǔn)確性和效率大大降低。

3、本發(fā)明通過以下技術(shù)創(chuàng)新解決了這一痛點(diǎn):

4、1、少量標(biāo)注數(shù)據(jù)的高效利用:利用大規(guī)模預(yù)訓(xùn)練語言模型,通過少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),使模型能夠在數(shù)據(jù)稀缺的情況下仍能準(zhǔn)確識別海關(guān)文本中的實(shí)體;

5、2、自動化實(shí)體識別:從大量未標(biāo)注的海關(guān)條例和法規(guī)文本中自動抽取實(shí)體,大幅減少了對手動標(biāo)注的依賴;

6、3、適應(yīng)性強(qiáng):模型能夠快速適應(yīng)不同文本格式和法規(guī)的變化,保持高效和準(zhǔn)確。


技術(shù)實(shí)現(xiàn)思路

1、針對現(xiàn)有方法的不足,本發(fā)明顯著降低了標(biāo)注數(shù)據(jù)的需求,提高了實(shí)體識別的效率和準(zhǔn)確性,為海關(guān)管理部門提供了一個高效、可靠的文本處理工具。

2、本發(fā)明所采用的技術(shù)方案是:一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法包括以下步驟:

3、步驟一、采集海關(guān)法規(guī)和稅則文本,并對文本進(jìn)行預(yù)處理,得到文本庫;

4、作為本發(fā)明的一種優(yōu)選實(shí)施方式,預(yù)處理包括:pdf文件的文本轉(zhuǎn)換、excel文件的加載、正則表達(dá)式和labelstudio對文本進(jìn)行實(shí)體標(biāo)注。

5、步驟二、按照提示詞模版將標(biāo)注文本構(gòu)建為alpaca格式,得到文本數(shù)據(jù)集;

6、作為本發(fā)明的一種優(yōu)選實(shí)施方式,構(gòu)建為alpaca格式包括:將標(biāo)注文本和實(shí)體類型存儲為input字段,標(biāo)注的實(shí)體存儲為output字段。

7、步驟三、將文本數(shù)據(jù)集輸入transformer?encoder模型,利用自注意力機(jī)制計(jì)算輸入序列中每個詞對其他詞的注意力權(quán)重,捕捉上下文信息;利用前饋神經(jīng)網(wǎng)絡(luò)對自注意力機(jī)制的輸出進(jìn)行處理,對每層進(jìn)行歸一化,并利用殘差連接將每一層的輸入和輸出相加,得到文本數(shù)據(jù)的嵌入向量;

8、作為本發(fā)明的一種優(yōu)選實(shí)施方式,transformer?encoder模型包括12個transformer?encoder層。

9、作為本發(fā)明的一種優(yōu)選實(shí)施方式,transformer?encoder層包括:

10、首先,將輸入的文本數(shù)據(jù)轉(zhuǎn)化為詞向量序列,利用位置嵌入層給詞向量序列添加位置向量;

11、其次,通過多頭自注意力機(jī)制處理向量,計(jì)算詞之間的關(guān)系,通過不同的注意力頭并行計(jì)算注意力分布;

12、再其次,將多個注意力頭的輸出拼接在一起,并進(jìn)行線性變換;

13、再其次,將自注意力機(jī)制處理的向量傳遞給前饋神經(jīng)網(wǎng)絡(luò);

14、再其次,進(jìn)行層歸一化;

15、最后,在自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的每個子層后,通過殘差連接將輸入和輸出相加。

16、步驟四、將嵌入向量使用lora對llama3預(yù)訓(xùn)練模型中注意力機(jī)制中的查詢投影矩陣、鍵投影矩陣、值投影矩陣和輸出投影矩陣進(jìn)行增量訓(xùn)練,并在attention的每一層結(jié)構(gòu)中插入低秩矩陣,通過損失函數(shù)進(jìn)行梯度下降訓(xùn)練,得到參數(shù)增量;

17、作為本發(fā)明的一種優(yōu)選實(shí)施方式,步驟四具體包括:

18、步驟41、加載llama3預(yù)訓(xùn)練模型,獲取預(yù)訓(xùn)練參數(shù)wo;

19、步驟42、計(jì)算查詢投影矩陣、鍵投影矩陣、值投影矩陣和輸出投影矩陣的向量;

20、步驟43、利用投影矩陣向量得到注意力頭的輸出;

21、步驟44、利用前饋神經(jīng)網(wǎng)絡(luò)層對注意力頭的輸出進(jìn)行線性變換;

22、步驟45、并進(jìn)行層間歸一化處理和殘差連接。

23、作為本發(fā)明的一種優(yōu)選實(shí)施方式,損失函數(shù)為交叉熵?fù)p失。

24、步驟五、使用huggingface的transformers包將低秩矩陣與llama3預(yù)訓(xùn)練模型的權(quán)重增量進(jìn)行合并,得到llama-ner模型;

25、作為本發(fā)明的一種優(yōu)選實(shí)施方式,利用選取精度、召回率和f1評分對llama-ner模型進(jìn)行評價。

26、作為本發(fā)明的一種優(yōu)選實(shí)施方式,基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別系統(tǒng),包括:存儲器,用于存儲可由處理器執(zhí)行的指令;處理器,用于執(zhí)行指令以實(shí)現(xiàn)基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。

27、作為本發(fā)明的一種優(yōu)選實(shí)施方式,存儲有計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀介質(zhì),計(jì)算機(jī)程序代碼在由處理器執(zhí)行時實(shí)現(xiàn)基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。

28、本發(fā)明的有益效果:

29、1、降低數(shù)據(jù)依賴性,在海關(guān)等專業(yè)領(lǐng)域,高質(zhì)量的標(biāo)注數(shù)據(jù)往往難以獲得,本發(fā)明利用大語言模型的強(qiáng)大語言理解能力,在標(biāo)注數(shù)據(jù)稀缺的情況下,依然保持較高的實(shí)體識別準(zhǔn)確率;

30、2、自動化程度高,本發(fā)明通過自動化的方式從大量未標(biāo)注的海關(guān)條例和法規(guī)文本中抽取實(shí)體,減少了人工干預(yù),提高了處理速度和效率;

31、3、適應(yīng)性強(qiáng),海關(guān)條例和法規(guī)經(jīng)常更新變化,本發(fā)明能夠快速適應(yīng)這些變化,保持模型的有效性和準(zhǔn)確性;

32、4、提升海關(guān)管理效率,通過自動化的實(shí)體識別,海關(guān)管理部門能夠更快速地處理大量文本數(shù)據(jù),提高了工作效率和法規(guī)遵從性;

33、5、減少錯誤率,相較于傳統(tǒng)的人工處理方法,本發(fā)明利用先進(jìn)的自然語言處理技術(shù),能夠顯著降低在海關(guān)文本處理中的錯誤率。



技術(shù)特征:

1.一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,transformer?encoder模型包括12個transformer?encoder層。

3.根據(jù)權(quán)利要求2所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,transformer?encoder層包括:

4.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,步驟四具體包括:

5.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,損失函數(shù)為交叉熵?fù)p失。

6.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,利用選取精度、召回率和f1評分對llama-ner模型進(jìn)行評價。

7.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,預(yù)處理包括:pdf文件的文本轉(zhuǎn)換、excel文件的加載、正則表達(dá)式和labelstudio對文本進(jìn)行實(shí)體標(biāo)注。

8.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,構(gòu)建為alpaca格式包括:將標(biāo)注文本和實(shí)體類型存儲為input字段,標(biāo)注的實(shí)體存儲為output字段。

9.基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別系統(tǒng),其特征在于,包括:存儲器,用于存儲可由處理器執(zhí)行的指令;處理器,用于執(zhí)行指令以實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。

10.存儲有計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀介質(zhì),其特征在于,計(jì)算機(jī)程序代碼在由處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。


技術(shù)總結(jié)
本發(fā)明涉及實(shí)體識別技術(shù)領(lǐng)域,尤其涉及一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,包括采集海關(guān)法規(guī)和稅則文本;按照提示詞模版將標(biāo)注文本構(gòu)建為Alpaca格式;利用自注意力機(jī)制計(jì)算輸入序列中每個詞對其他詞的注意力權(quán)重;利用前饋神經(jīng)網(wǎng)絡(luò)對自注意力機(jī)制的輸出進(jìn)行處理,得到文本數(shù)據(jù)的嵌入向量;將嵌入向量使用LoRA對Llama3預(yù)訓(xùn)練模型進(jìn)行增量訓(xùn)練,并插入低秩矩陣,通過損失函數(shù)進(jìn)行梯度下降訓(xùn)練;將低秩矩陣與Llama3預(yù)訓(xùn)練模型的權(quán)重增量進(jìn)行合并。本發(fā)明明顯著降低了標(biāo)注數(shù)據(jù)的需求,提高了實(shí)體識別的效率和準(zhǔn)確性,為海關(guān)管理部門提供了一個高效、可靠的文本處理工具。

技術(shù)研發(fā)人員:孫莉,楊燁,孔令濤,鄭培清,霍文俊,李米娜
受保護(hù)的技術(shù)使用者:江蘇思遠(yuǎn)集成電路與智能技術(shù)研究院有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/10/21
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1