本發(fā)明涉及數(shù)據(jù)挖掘,尤其涉及中醫(yī)臨床科研知識(shí)智能提取方法及系統(tǒng)。
背景技術(shù):
1、隨著中醫(yī)臨床科研的不斷發(fā)展,大量的中醫(yī)臨床數(shù)據(jù)、醫(yī)學(xué)文獻(xiàn)和科研論文被產(chǎn)生并存儲(chǔ)于各類數(shù)據(jù)庫(kù)和信息源中;中醫(yī)臨床數(shù)據(jù)涵蓋了豐富的患者病歷信息、癥狀與疾病的關(guān)聯(lián)、藥物與治療方法的效果等內(nèi)容;雖然這些數(shù)據(jù)具有極高的科研價(jià)值,但由于數(shù)據(jù)格式復(fù)雜、信息不統(tǒng)一,且大多是以非結(jié)構(gòu)化或半結(jié)構(gòu)化形式存儲(chǔ),導(dǎo)致其難以直接用于有效的科研分析;此外,現(xiàn)有的中醫(yī)臨床數(shù)據(jù)多依賴人工分析和經(jīng)驗(yàn)總結(jié),缺乏系統(tǒng)化、自動(dòng)化的處理手段,導(dǎo)致知識(shí)的提取效率低,且難以發(fā)現(xiàn)潛在的規(guī)律和關(guān)聯(lián)。
2、現(xiàn)有技術(shù)中,雖然存在一些基于自然語(yǔ)言處理(nlp)技術(shù)的中醫(yī)數(shù)據(jù)分析方法,但大多數(shù)方法依賴于人工設(shè)計(jì)的規(guī)則,缺乏針對(duì)中醫(yī)術(shù)語(yǔ)和術(shù)語(yǔ)關(guān)系的深度學(xué)習(xí)能力;傳統(tǒng)的知識(shí)圖譜構(gòu)建方法無(wú)法有效處理中醫(yī)領(lǐng)域特有的術(shù)語(yǔ)及其復(fù)雜的關(guān)聯(lián)關(guān)系,且未能充分利用圖數(shù)據(jù)庫(kù)技術(shù)對(duì)這些關(guān)系進(jìn)行高效存儲(chǔ)與推理分析。因此,迫切需要一種中醫(yī)臨床科研知識(shí)智能提取方法及系統(tǒng),來(lái)解決上述問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、基于上述目的,本發(fā)明提供了中醫(yī)臨床科研知識(shí)智能提取方法及系統(tǒng)。
2、中醫(yī)臨床科研知識(shí)智能提取方法,包括以下步驟:
3、s1:通過(guò)多種渠道采集中醫(yī)臨床數(shù)據(jù),包括患者病歷、醫(yī)學(xué)文獻(xiàn)和科研論文;
4、s2:對(duì)s1采集到的中醫(yī)臨床數(shù)據(jù)進(jìn)行清洗、去噪和格式化處理,以去除無(wú)關(guān)信息并標(biāo)準(zhǔn)化數(shù)據(jù)格式;
5、s3:利用自然語(yǔ)言處理技術(shù)對(duì)s2處理后的中醫(yī)臨床數(shù)據(jù)進(jìn)行分析,自動(dòng)識(shí)別并標(biāo)注出中醫(yī)術(shù)語(yǔ),包括疾病、癥狀、藥物和治療方法;
6、s4:基于s3標(biāo)注出的中醫(yī)術(shù)語(yǔ),通過(guò)關(guān)聯(lián)分析挖掘術(shù)語(yǔ)之間的關(guān)系,包括疾病與癥狀、藥物與療效的關(guān)聯(lián),并構(gòu)建中醫(yī)領(lǐng)域的知識(shí)圖譜;
7、s5:基于s4構(gòu)建的知識(shí)圖譜和挖掘出的術(shù)語(yǔ)關(guān)系,從處理后的中醫(yī)臨床數(shù)據(jù)中提取科研知識(shí),并生成中醫(yī)臨床研究報(bào)告或知識(shí)摘要。
8、可選的,所述s1具體包括:
9、s11:通過(guò)訪問(wèn)醫(yī)院或診所的電子病歷管理系統(tǒng),自動(dòng)提取包含患者基本信息、病史、癥狀、診斷、治療方案內(nèi)容的病歷數(shù)據(jù);
10、s12:通過(guò)訪問(wèn)醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù),包括中國(guó)知網(wǎng)或pubmed,采集涉及中醫(yī)領(lǐng)域的科研文獻(xiàn)、臨床研究報(bào)告和醫(yī)學(xué)專著中的中醫(yī)理論、治療方法、藥物應(yīng)用的信息;
11、s13:通過(guò)訪問(wèn)學(xué)術(shù)論文數(shù)據(jù)庫(kù),包括cnki、萬(wàn)方數(shù)據(jù)或web?of?science,采集中醫(yī)領(lǐng)域的科研論文數(shù)據(jù),包括論文標(biāo)題、摘要、關(guān)鍵詞、研究方法、結(jié)果分析和結(jié)論。
12、可選的,所述s2具體包括:
13、s21:使用數(shù)據(jù)清洗算法對(duì)采集到的中醫(yī)臨床數(shù)據(jù)進(jìn)行處理,刪除無(wú)效或重復(fù)的數(shù)據(jù)記錄,去除缺失值和格式錯(cuò)誤的數(shù)據(jù);對(duì)于有缺失值的記錄,采用插值法或數(shù)據(jù)填充技術(shù)進(jìn)行修復(fù),確保數(shù)據(jù)的完整;
14、s22:采用噪聲濾波技術(shù)對(duì)數(shù)據(jù)進(jìn)行去噪處理;對(duì)于文本數(shù)據(jù),使用基于詞頻統(tǒng)計(jì)的停用詞去除算法,將無(wú)關(guān)的常見(jiàn)詞匯剔除;對(duì)于數(shù)值數(shù)據(jù),使用均值濾波或中位數(shù)濾波的方法去除異常值和噪聲數(shù)據(jù);
15、s23:對(duì)去噪后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,將不同格式和尺度的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)格式;對(duì)于數(shù)值型數(shù)據(jù),采用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化或最小-最大標(biāo)準(zhǔn)化方法,確保數(shù)據(jù)在同一范圍內(nèi);對(duì)于文本數(shù)據(jù),采用統(tǒng)一的編碼格式進(jìn)行文本編碼;
16、s24:對(duì)數(shù)據(jù)進(jìn)行重新組織和格式化,將不同來(lái)源的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)庫(kù)格式,包括sql數(shù)據(jù)庫(kù)或nosql數(shù)據(jù)庫(kù)格式,并將處理后的中醫(yī)臨床數(shù)據(jù)存儲(chǔ)在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)中備用。
17、可選的,所述s3具體包括:
18、s31:采用基于詞典的分詞算法對(duì)預(yù)處理后的中醫(yī)臨床數(shù)據(jù)進(jìn)行分詞處理,將連續(xù)的文本數(shù)據(jù)切分為單獨(dú)的詞語(yǔ)單元,確保分詞結(jié)果與中醫(yī)術(shù)語(yǔ)的標(biāo)準(zhǔn)詞典一致;
19、s32:利用詞性標(biāo)注工具對(duì)分詞后的文本進(jìn)行詞性標(biāo)注,標(biāo)識(shí)出各個(gè)詞語(yǔ)的詞性類別;
20、s33:應(yīng)用命名實(shí)體識(shí)別模型,基于預(yù)先訓(xùn)練的中醫(yī)術(shù)語(yǔ)識(shí)別模型,自動(dòng)識(shí)別并分類中醫(yī)臨床數(shù)據(jù)中的疾病、癥狀、藥物和治療方法的實(shí)體;
21、s34:將識(shí)別出的中醫(yī)術(shù)語(yǔ)進(jìn)行標(biāo)注,生成帶有術(shù)語(yǔ)類別標(biāo)簽的結(jié)構(gòu)化數(shù)據(jù)。
22、可選的,所述s33具體包括:
23、s331:選用基于雙向編碼器表示轉(zhuǎn)換器的模型,使用包含中醫(yī)術(shù)語(yǔ)標(biāo)注的語(yǔ)料庫(kù)對(duì)所選模型進(jìn)行預(yù)訓(xùn)練,訓(xùn)練過(guò)程中,采用遮蔽語(yǔ)言模型任務(wù),通過(guò)最小化預(yù)測(cè)遮蔽詞語(yǔ)的損失函數(shù)l來(lái)優(yōu)化模型參數(shù)θ,表達(dá)式為:
24、其中,l為損失函數(shù),n為訓(xùn)練樣本數(shù),wi為第i個(gè)詞語(yǔ),m為遮蔽窗口大小,p為條件概率,θ為模型參數(shù);
25、s332:將s32中進(jìn)行詞性標(biāo)注后的中醫(yī)臨床數(shù)據(jù)輸入預(yù)先訓(xùn)練的中醫(yī)術(shù)語(yǔ)識(shí)別模型,通過(guò)對(duì)輸入文本進(jìn)行編碼,生成每個(gè)詞語(yǔ)的上下文表示向量,并利用條件隨機(jī)場(chǎng)層對(duì)每個(gè)詞語(yǔ)進(jìn)行實(shí)體標(biāo)簽的預(yù)測(cè);
26、s333:根據(jù)s332中預(yù)測(cè)出的實(shí)體標(biāo)簽,將實(shí)體分類為疾病、癥狀、藥物和治療方法四類。
27、可選的,所述s4具體包括:
28、s41:對(duì)s3中識(shí)別和標(biāo)注的中醫(yī)術(shù)語(yǔ)數(shù)據(jù)進(jìn)行分析,識(shí)別術(shù)語(yǔ)之間的頻繁共現(xiàn)模式;具體采用apriori算法掃描中醫(yī)臨床數(shù)據(jù)集,確定頻繁項(xiàng)集,并基于頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則,以識(shí)別疾病與癥狀、藥物與療效術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系;
29、s42:對(duì)s41中挖掘出的關(guān)聯(lián)規(guī)則,采用支持度和置信度的指標(biāo)計(jì)算每條關(guān)聯(lián)關(guān)系的權(quán)重;公式為:weight(a→b)=support(a→b)×confidence(a→b),其中,weight(a→b)為關(guān)聯(lián)規(guī)則a→b的權(quán)重,support(a→b)為規(guī)則的支持度,confidence(a→b)為規(guī)則的置信度;
30、s43:基于s42中計(jì)算得到關(guān)聯(lián)關(guān)系的權(quán)重,利用圖數(shù)據(jù)庫(kù)技術(shù)構(gòu)建中醫(yī)領(lǐng)域的知識(shí)圖譜;知識(shí)圖譜由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)代表中醫(yī)術(shù)語(yǔ),邊代表術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系;
31、s44:采用節(jié)點(diǎn)嵌入算法,對(duì)知識(shí)圖譜進(jìn)行訓(xùn)練,生成中醫(yī)術(shù)語(yǔ)的向量表示。
32、可選的,所述s43具體包括:
33、s431:為每個(gè)中醫(yī)術(shù)語(yǔ)創(chuàng)建相應(yīng)的節(jié)點(diǎn),節(jié)點(diǎn)屬性包括術(shù)語(yǔ)名稱和術(shù)語(yǔ)類別,具體步驟包括:
34、s4311:術(shù)語(yǔ)名稱節(jié)點(diǎn)化,將s42中識(shí)別的每個(gè)中醫(yī)術(shù)語(yǔ)作為一個(gè)節(jié)點(diǎn)添加到圖數(shù)據(jù)庫(kù)中;
35、s4312:術(shù)語(yǔ)類別標(biāo)注,為每個(gè)節(jié)點(diǎn)分配一個(gè)類別標(biāo)簽,其值為疾病、癥狀、藥物或治療方法,用于反映術(shù)語(yǔ)的類別屬性;
36、s432:根據(jù)s42中計(jì)算得到的關(guān)聯(lián)關(guān)系權(quán)重,創(chuàng)建術(shù)語(yǔ)之間的邊,邊屬性包括關(guān)聯(lián)類型和權(quán)重值;具體步驟包括:
37、s4321:關(guān)聯(lián)類型定義,定義術(shù)語(yǔ)間的關(guān)聯(lián)類型,包括伴隨、治療或影響;
38、s4322:權(quán)重值賦予,將s42中計(jì)算得到的關(guān)聯(lián)關(guān)系權(quán)重賦予相應(yīng)的邊,用于表示關(guān)聯(lián)關(guān)系的強(qiáng)度;
39、s4323:邊的創(chuàng)建,在圖數(shù)據(jù)庫(kù)中為每對(duì)相關(guān)術(shù)語(yǔ)創(chuàng)建一條邊,其屬性包括關(guān)聯(lián)類型和權(quán)重值;
40、s433:對(duì)構(gòu)建的知識(shí)圖譜進(jìn)行結(jié)構(gòu)優(yōu)化;具體步驟包括:
41、s4331:為節(jié)點(diǎn)屬性和邊屬性建立索引;
42、s4332:根據(jù)術(shù)語(yǔ)類別和關(guān)聯(lián)類型對(duì)圖譜進(jìn)行分區(qū),減少查詢路徑長(zhǎng)度;
43、s4333:刪除圖譜中冗余的邊。
44、可選的,所述s44具體包括:
45、s441:選擇節(jié)點(diǎn)嵌入算法,包括node2vec算法和transe算法;
46、s442:將構(gòu)建的中醫(yī)知識(shí)圖譜g=(v,e)輸入所選節(jié)點(diǎn)嵌入算法中,其中v為節(jié)點(diǎn)集合,e為邊集合;每個(gè)節(jié)點(diǎn)v∈v代表一個(gè)中醫(yī)術(shù)語(yǔ),每條邊e∈e代表術(shù)語(yǔ)之間的關(guān)聯(lián)關(guān)系;
47、s443:使用選擇的節(jié)點(diǎn)嵌入算法,學(xué)習(xí)每個(gè)節(jié)點(diǎn)v∈v的向量表示其中d為向量的維度;節(jié)點(diǎn)嵌入算法通過(guò)優(yōu)化目標(biāo)函數(shù),最大化節(jié)點(diǎn)之間的相似性,具體目標(biāo)函數(shù)定義為:其中,l為損失函數(shù),σ為sigmoid函數(shù),zu和zv分別為節(jié)點(diǎn)u和節(jié)點(diǎn)v的向量表示,t表示向量的轉(zhuǎn)置。
48、可選的,所述s5具體包括:
49、s51:基于s4構(gòu)建的中醫(yī)領(lǐng)域知識(shí)圖譜,使用圖查詢技術(shù)對(duì)中醫(yī)術(shù)語(yǔ)之間的關(guān)系進(jìn)行推理,通過(guò)圖數(shù)據(jù)庫(kù)查詢語(yǔ)言,對(duì)疾病、癥狀、藥物、治療方法節(jié)點(diǎn)進(jìn)行查詢,挖掘中醫(yī)臨床數(shù)據(jù)中的潛在關(guān)系;
50、s52:基于s51中查詢到的術(shù)語(yǔ)關(guān)聯(lián)信息,結(jié)合s3標(biāo)注的中醫(yī)術(shù)語(yǔ)和中醫(yī)臨床數(shù)據(jù)中的具體病歷記錄,提取科研知識(shí),提取的內(nèi)容包括疾病與癥狀的組合、藥物與療效的關(guān)系、治療方案的效果評(píng)估;
51、s53:通過(guò)預(yù)設(shè)模板,將提取到的科研知識(shí)組織成一份完整的中醫(yī)臨床研究報(bào)告或知識(shí)摘要,報(bào)告內(nèi)容包括疾病分析、癥狀描述、藥物療效評(píng)估以及治療建議。
52、中醫(yī)臨床科研知識(shí)智能提取系統(tǒng),用于實(shí)現(xiàn)上述的中醫(yī)臨床科研知識(shí)智能提取方法,包括以下模塊:
53、數(shù)據(jù)采集模塊:通過(guò)多種渠道采集中醫(yī)臨床數(shù)據(jù),包括患者病歷、醫(yī)學(xué)文獻(xiàn)和科研論文;
54、數(shù)據(jù)預(yù)處理模塊:用于對(duì)數(shù)據(jù)采集模塊采集到的中醫(yī)臨床數(shù)據(jù)進(jìn)行清洗、去噪和格式化處理,以去除無(wú)關(guān)信息并標(biāo)準(zhǔn)化數(shù)據(jù)格式;
55、自然語(yǔ)言處理模塊:利用自然語(yǔ)言處理技術(shù)對(duì)數(shù)據(jù)預(yù)處理模塊處理后的中醫(yī)臨床數(shù)據(jù)進(jìn)行分析,自動(dòng)識(shí)別并標(biāo)注出中醫(yī)術(shù)語(yǔ),包括疾病、癥狀、藥物和治療方法;
56、關(guān)系挖掘模塊:基于自然語(yǔ)言處理模塊標(biāo)注出的中醫(yī)術(shù)語(yǔ),進(jìn)行關(guān)聯(lián)分析挖掘術(shù)語(yǔ)之間的關(guān)系,包括疾病與癥狀、藥物與療效的關(guān)聯(lián);
57、知識(shí)圖譜構(gòu)建模塊:根據(jù)所述關(guān)系挖掘模塊生成的術(shù)語(yǔ)關(guān)系,利用圖數(shù)據(jù)庫(kù)技術(shù)構(gòu)建中醫(yī)領(lǐng)域的知識(shí)圖譜;
58、科研知識(shí)提取模塊:基于知識(shí)圖譜,自動(dòng)從處理后的中醫(yī)臨床數(shù)據(jù)中提取科研知識(shí),并生成中醫(yī)臨床研究報(bào)告或知識(shí)摘要。
59、本發(fā)明的有益效果:
60、本發(fā)明,通過(guò)采用自然語(yǔ)言處理技術(shù)和深度學(xué)習(xí)算法,能夠自動(dòng)化地對(duì)中醫(yī)臨床數(shù)據(jù)進(jìn)行分析,精準(zhǔn)識(shí)別并標(biāo)注出疾病、癥狀、藥物和治療方法等中醫(yī)術(shù)語(yǔ);通過(guò)對(duì)這些術(shù)語(yǔ)之間的關(guān)系進(jìn)行挖掘和分析,本發(fā)明能夠有效發(fā)現(xiàn)中醫(yī)臨床數(shù)據(jù)中的潛在規(guī)律和知識(shí),并生成具有較高科研價(jià)值的中醫(yī)領(lǐng)域知識(shí)圖譜;這種自動(dòng)化的知識(shí)提取過(guò)程顯著提高了科研人員從大量數(shù)據(jù)中提取有效信息的效率,避免了人工分析中的主觀偏差和時(shí)間成本。
61、本發(fā)明,通過(guò)圖數(shù)據(jù)庫(kù)技術(shù)對(duì)中醫(yī)領(lǐng)域的術(shù)語(yǔ)及其關(guān)聯(lián)關(guān)系進(jìn)行高效存儲(chǔ)和查詢,使得生成的中醫(yī)臨床研究報(bào)告或知識(shí)摘要更加精準(zhǔn)和全面;通過(guò)關(guān)聯(lián)分析挖掘藥物與療效、疾病與癥狀等之間的關(guān)系,本發(fā)明不僅能夠支持個(gè)性化治療方案的制定,還能夠?yàn)橹嗅t(yī)臨床研究提供重要的數(shù)據(jù)支持。