本發(fā)明涉及實(shí)體識別,尤其涉及一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。
背景技術(shù):
1、在全球貿(mào)易中,海關(guān)條例和法規(guī)的復(fù)雜性對海關(guān)管理和合規(guī)檢查提出了巨大的挑戰(zhàn)。傳統(tǒng)的文本處理方法主要依賴于手動標(biāo)注和規(guī)則匹配,不僅耗時耗力,還容易出錯。尤其是在海關(guān)領(lǐng)域,標(biāo)注樣本通常非常有限,這對基于bert等模型的分類任務(wù)提出了更高的要求,因?yàn)檫@些模型通常需要大量的標(biāo)注數(shù)據(jù)來進(jìn)行有效的訓(xùn)練。
2、現(xiàn)有技術(shù)中,bert分類模型在實(shí)體識別任務(wù)中表現(xiàn)出色,但其性能高度依賴于大量高質(zhì)量的標(biāo)注數(shù)據(jù);然而,海關(guān)領(lǐng)域的標(biāo)注數(shù)據(jù)非常稀缺,無法滿足模型訓(xùn)練的需求,導(dǎo)致實(shí)體識別的準(zhǔn)確性和效率大大降低。
3、本發(fā)明通過以下技術(shù)創(chuàng)新解決了這一痛點(diǎn):
4、1、少量標(biāo)注數(shù)據(jù)的高效利用:利用大規(guī)模預(yù)訓(xùn)練語言模型,通過少量標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),使模型能夠在數(shù)據(jù)稀缺的情況下仍能準(zhǔn)確識別海關(guān)文本中的實(shí)體;
5、2、自動化實(shí)體識別:從大量未標(biāo)注的海關(guān)條例和法規(guī)文本中自動抽取實(shí)體,大幅減少了對手動標(biāo)注的依賴;
6、3、適應(yīng)性強(qiáng):模型能夠快速適應(yīng)不同文本格式和法規(guī)的變化,保持高效和準(zhǔn)確。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有方法的不足,本發(fā)明顯著降低了標(biāo)注數(shù)據(jù)的需求,提高了實(shí)體識別的效率和準(zhǔn)確性,為海關(guān)管理部門提供了一個高效、可靠的文本處理工具。
2、本發(fā)明所采用的技術(shù)方案是:一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法包括以下步驟:
3、步驟一、采集海關(guān)法規(guī)和稅則文本,并對文本進(jìn)行預(yù)處理,得到文本庫;
4、作為本發(fā)明的一種優(yōu)選實(shí)施方式,預(yù)處理包括:pdf文件的文本轉(zhuǎn)換、excel文件的加載、正則表達(dá)式和labelstudio對文本進(jìn)行實(shí)體標(biāo)注。
5、步驟二、按照提示詞模版將標(biāo)注文本構(gòu)建為alpaca格式,得到文本數(shù)據(jù)集;
6、作為本發(fā)明的一種優(yōu)選實(shí)施方式,構(gòu)建為alpaca格式包括:將標(biāo)注文本和實(shí)體類型存儲為input字段,標(biāo)注的實(shí)體存儲為output字段。
7、步驟三、將文本數(shù)據(jù)集輸入transformer?encoder模型,利用自注意力機(jī)制計(jì)算輸入序列中每個詞對其他詞的注意力權(quán)重,捕捉上下文信息;利用前饋神經(jīng)網(wǎng)絡(luò)對自注意力機(jī)制的輸出進(jìn)行處理,對每層進(jìn)行歸一化,并利用殘差連接將每一層的輸入和輸出相加,得到文本數(shù)據(jù)的嵌入向量;
8、作為本發(fā)明的一種優(yōu)選實(shí)施方式,transformer?encoder模型包括12個transformer?encoder層。
9、作為本發(fā)明的一種優(yōu)選實(shí)施方式,transformer?encoder層包括:
10、首先,將輸入的文本數(shù)據(jù)轉(zhuǎn)化為詞向量序列,利用位置嵌入層給詞向量序列添加位置向量;
11、其次,通過多頭自注意力機(jī)制處理向量,計(jì)算詞之間的關(guān)系,通過不同的注意力頭并行計(jì)算注意力分布;
12、再其次,將多個注意力頭的輸出拼接在一起,并進(jìn)行線性變換;
13、再其次,將自注意力機(jī)制處理的向量傳遞給前饋神經(jīng)網(wǎng)絡(luò);
14、再其次,進(jìn)行層歸一化;
15、最后,在自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)的每個子層后,通過殘差連接將輸入和輸出相加。
16、步驟四、將嵌入向量使用lora對llama3預(yù)訓(xùn)練模型中注意力機(jī)制中的查詢投影矩陣、鍵投影矩陣、值投影矩陣和輸出投影矩陣進(jìn)行增量訓(xùn)練,并在attention的每一層結(jié)構(gòu)中插入低秩矩陣,通過損失函數(shù)進(jìn)行梯度下降訓(xùn)練,得到參數(shù)增量;
17、作為本發(fā)明的一種優(yōu)選實(shí)施方式,步驟四具體包括:
18、步驟41、加載llama3預(yù)訓(xùn)練模型,獲取預(yù)訓(xùn)練參數(shù)wo;
19、步驟42、計(jì)算查詢投影矩陣、鍵投影矩陣、值投影矩陣和輸出投影矩陣的向量;
20、步驟43、利用投影矩陣向量得到注意力頭的輸出;
21、步驟44、利用前饋神經(jīng)網(wǎng)絡(luò)層對注意力頭的輸出進(jìn)行線性變換;
22、步驟45、并進(jìn)行層間歸一化處理和殘差連接。
23、作為本發(fā)明的一種優(yōu)選實(shí)施方式,損失函數(shù)為交叉熵?fù)p失。
24、步驟五、使用huggingface的transformers包將低秩矩陣與llama3預(yù)訓(xùn)練模型的權(quán)重增量進(jìn)行合并,得到llama-ner模型;
25、作為本發(fā)明的一種優(yōu)選實(shí)施方式,利用選取精度、召回率和f1評分對llama-ner模型進(jìn)行評價。
26、作為本發(fā)明的一種優(yōu)選實(shí)施方式,基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別系統(tǒng),包括:存儲器,用于存儲可由處理器執(zhí)行的指令;處理器,用于執(zhí)行指令以實(shí)現(xiàn)基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。
27、作為本發(fā)明的一種優(yōu)選實(shí)施方式,存儲有計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀介質(zhì),計(jì)算機(jī)程序代碼在由處理器執(zhí)行時實(shí)現(xiàn)基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。
28、本發(fā)明的有益效果:
29、1、降低數(shù)據(jù)依賴性,在海關(guān)等專業(yè)領(lǐng)域,高質(zhì)量的標(biāo)注數(shù)據(jù)往往難以獲得,本發(fā)明利用大語言模型的強(qiáng)大語言理解能力,在標(biāo)注數(shù)據(jù)稀缺的情況下,依然保持較高的實(shí)體識別準(zhǔn)確率;
30、2、自動化程度高,本發(fā)明通過自動化的方式從大量未標(biāo)注的海關(guān)條例和法規(guī)文本中抽取實(shí)體,減少了人工干預(yù),提高了處理速度和效率;
31、3、適應(yīng)性強(qiáng),海關(guān)條例和法規(guī)經(jīng)常更新變化,本發(fā)明能夠快速適應(yīng)這些變化,保持模型的有效性和準(zhǔn)確性;
32、4、提升海關(guān)管理效率,通過自動化的實(shí)體識別,海關(guān)管理部門能夠更快速地處理大量文本數(shù)據(jù),提高了工作效率和法規(guī)遵從性;
33、5、減少錯誤率,相較于傳統(tǒng)的人工處理方法,本發(fā)明利用先進(jìn)的自然語言處理技術(shù),能夠顯著降低在海關(guān)文本處理中的錯誤率。
1.一種基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,transformer?encoder模型包括12個transformer?encoder層。
3.根據(jù)權(quán)利要求2所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,transformer?encoder層包括:
4.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,步驟四具體包括:
5.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,損失函數(shù)為交叉熵?fù)p失。
6.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,利用選取精度、召回率和f1評分對llama-ner模型進(jìn)行評價。
7.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,預(yù)處理包括:pdf文件的文本轉(zhuǎn)換、excel文件的加載、正則表達(dá)式和labelstudio對文本進(jìn)行實(shí)體標(biāo)注。
8.根據(jù)權(quán)利要求1所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法,其特征在于,構(gòu)建為alpaca格式包括:將標(biāo)注文本和實(shí)體類型存儲為input字段,標(biāo)注的實(shí)體存儲為output字段。
9.基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別系統(tǒng),其特征在于,包括:存儲器,用于存儲可由處理器執(zhí)行的指令;處理器,用于執(zhí)行指令以實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。
10.存儲有計(jì)算機(jī)程序代碼的計(jì)算機(jī)可讀介質(zhì),其特征在于,計(jì)算機(jī)程序代碼在由處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-8任一項(xiàng)所述的基于大語言模型進(jìn)行海關(guān)命名實(shí)體識別方法。