本發(fā)明涉及人工智能,尤其涉及一種基于生成式人工智能的科技情報智能化分析方法及系統(tǒng)。
背景技術:
1、長期以來,科技情報為科學研究、技術創(chuàng)新、產(chǎn)業(yè)發(fā)展、社會進步、管理決策發(fā)揮著重要的支撐作用,充分體現(xiàn)了“耳目、尖兵、參謀”的核心價值。隨著世界變局的快速復雜演進,全球科技創(chuàng)新競爭格局正經(jīng)歷深刻調整與變化,國家間競爭博弈愈發(fā)激烈,特別是在大國競爭核心的光電子信息領域。要在日趨激烈的競跑中攻克系列關鍵、瓶頸技術,搶占技術高地,離不開科技情報工作持續(xù)深入的跟進支撐。
2、但是目前許多數(shù)據(jù)分析工具的功能主要停留在數(shù)據(jù)可視化和基礎數(shù)據(jù)處理階段,對于數(shù)據(jù)的深層次挖掘和智能分析方面還有很大的欠缺,需要人工投入大量的時間和精力。
3、上述內容僅用于輔助理解本發(fā)明的技術方案,并不代表承認上述內容是現(xiàn)有技術。
技術實現(xiàn)思路
1、本發(fā)明的主要目的在于提供一種基于生成式人工智能的科技情報智能化分析方法及系統(tǒng),旨在解決現(xiàn)有技術對于數(shù)據(jù)的分析深度與智能化有限,仍需要借助人工去分析,降低了分析效率的技術問題。
2、為實現(xiàn)上述目的,本發(fā)明提供了一種基于生成式人工智能的科技情報智能化分析方法,所述基于生成式人工智能的科技情報智能化分析方法包括以下步驟:
3、對獲取到的原始科技情報數(shù)據(jù)進行預處理,得到處理后的科技情報數(shù)據(jù);
4、根據(jù)所述處理后的科技情報數(shù)據(jù)構建對應的多個文本圖;
5、獲取所述文本圖對應的初始嵌入矩陣,以所述初始嵌入矩陣為基準按照預設維度確定各個文本圖對應的詞嵌入表示;
6、根據(jù)所述詞嵌入表示確定各個文本圖對應的全局表示;
7、通過拼接方式將各個文本圖對應的全局表示進行融合,得到所述文本圖對應的文本特征;
8、利用分析模型基于所述文本特征對所述處理后的科技情報數(shù)據(jù)進行智能化分析。
9、可選地,所述對獲取到的原始科技情報數(shù)據(jù)進行預處理,得到處理后的科技情報數(shù)據(jù),包括:
10、確定獲取到的原始科技情報數(shù)據(jù)對應的原始文本;
11、對所述原始文本進行分詞處理;
12、根據(jù)分詞結果識別所述原始文本中的停用詞與出現(xiàn)頻率低于預設頻率的低頻詞,并將所述停用詞與所述低頻詞從所述原始文本中剔除,以得到處理后的科技情報數(shù)據(jù)。
13、可選地,所述根據(jù)所述處理后的科技情報數(shù)據(jù)構建對應的多個文本圖,包括:
14、確定所述處理后的科技情報數(shù)據(jù)對應的文本的文本結構;
15、獲取所述文本中的單詞,并基于所述文本結構確定各個單詞之間的語義關系;
16、以所述文本中的單詞為節(jié)點,以所述語義關系為邊,按照預設尺寸的滑動窗口在文本對應的文本序列上進行滑動,基于同一窗口內各個單詞之間的共現(xiàn)關系得到第一文本圖;
17、根據(jù)所述語義關系確定各個單詞之間的依存關系;
18、以所述文本中的單詞為節(jié)點,以所述依存關系為邊,構建各個單詞之間的第二文本圖。
19、可選地,所述獲取所述文本圖對應的初始嵌入矩陣,以所述初始嵌入矩陣為基準按照預設維度確定各個文本圖對應的詞嵌入表示,包括:
20、根據(jù)所述各個節(jié)點之間的共線關系或依存關系獲取對應的文本圖的鄰接矩陣;
21、根據(jù)預設權重系數(shù)、所述鄰接矩陣以及文本圖對應的初始嵌入矩陣獲取聚合鄰居信息;
22、根據(jù)所述聚合鄰居信息、所述預設權重系數(shù)以及所述鄰接矩陣構建更新門與重置門;
23、利用所述更新門與所述重置門并結合預設激活函數(shù)獲取數(shù)據(jù)傳遞過程產(chǎn)生的新信息;
24、基于所述新信息、所述更新門以及各個文本圖對應的歷史詞嵌入表示得到各個文本圖對應的詞嵌入表示,所述各個文本圖對應的歷史詞嵌入表示為上一時刻的詞嵌入表示,所述各個文本圖對應的詞嵌入表示為當前時刻的詞嵌入表示。
25、可選地,所述基于生成式人工智能的科技情報智能化分析方法還包括:
26、初始化預設模型,以確定預設模型的超參數(shù),所述超參數(shù)至少包括網(wǎng)絡層數(shù)、每層網(wǎng)絡的神經(jīng)元數(shù)量以及丟棄比率,所述預設模型包括輸入層、卷積層、池化層以及全連接層;
27、對預設訓練數(shù)據(jù)進行清洗與格式化,以將所述預設訓練數(shù)據(jù)轉換為單詞或字符的序列,并對所述序列進行編碼;
28、按照預設訓練輪次通過編碼后的序列對所述預設模型進行訓練;
29、對每一次訓練后的模型進行評估,基于評估結果調整所述超參數(shù),并基于調整后的超參數(shù)進行下一次訓練;
30、將評估結果滿足預設目標的模型作為分析模型。
31、可選地,所述利用分析模型基于所述文本特征對所述處理后的科技情報數(shù)據(jù)進行智能化分析,包括:
32、將所述文本特征作為分析模型的輸入,通過輸入層將所述文本特征傳輸至卷積層;
33、通過所述分析模型的卷積層按照不同大小的卷積核從所述文本特征中提取出參考文本特征;
34、通過所述分析模型的池化層利用預設濾波器對所述目標文本特征池化操作,以得到所述參考文本特征對應的特征向量;
35、通過所述分析模型的全連接層將所述特征向量進行連接,以得到目標文本特征;
36、根據(jù)所述目標文本特征對所述處理后的科技情報數(shù)據(jù)進行分類。
37、可選地,所述基于生成式人工智能的科技情報智能化分析方法還包括:
38、獲取原始科技情報數(shù)據(jù)關聯(lián)的視頻數(shù)據(jù);
39、從所述視頻數(shù)據(jù)中提取圖像特征;
40、將所述文本特征與所述圖像特征進行特征融合;
41、將融合后的特征作為分析模型的輸入,并返回執(zhí)行通過輸入層將所述融合后的特征傳輸至卷積層。
42、此外,為實現(xiàn)上述目的,本發(fā)明還提出一種基于生成式人工智能的科技情報智能化分析系統(tǒng),所述基于生成式人工智能的科技情報智能化分析系統(tǒng)包括:
43、處理模塊,用于對獲取到的原始科技情報數(shù)據(jù)進行預處理,得到處理后的科技情報數(shù)據(jù);
44、構建模塊,用于根據(jù)所述處理后的科技情報數(shù)據(jù)構建對應的多個文本圖;
45、計算模塊,用于獲取所述文本圖對應的初始嵌入矩陣,以所述初始嵌入矩陣為基準按照預設維度確定各個文本圖對應的詞嵌入表示;
46、所述計算模塊,還用于根據(jù)所述詞嵌入表示確定各個文本圖對應的全局表示;
47、融合模塊,用于通過拼接方式將各個文本圖對應的全局表示進行融合,得到所述文本圖對應的文本特征;
48、分析模塊,用于利用分析模型基于所述文本特征對所述處理后的科技情報數(shù)據(jù)進行智能化分析。
49、可選地,所述處理模塊,還用于確定獲取到的原始科技情報數(shù)據(jù)對應的原始文本;
50、對所述原始文本進行分詞處理;
51、根據(jù)分詞結果識別所述原始文本中的停用詞與出現(xiàn)頻率低于預設頻率的低頻詞,并將所述停用詞與所述低頻詞從所述原始文本中剔除,以得到處理后的科技情報數(shù)據(jù)。
52、可選地,所述構建模塊,還用于確定所述處理后的科技情報數(shù)據(jù)對應的文本的文本結構;
53、獲取所述文本中的單詞,并基于所述文本結構確定各個單詞之間的語義關系;
54、以所述文本中的單詞為節(jié)點,以所述語義關系為邊,按照預設尺寸的滑動窗口在文本對應的文本序列上進行滑動,基于同一窗口內各個單詞之間的共現(xiàn)關系得到第一文本圖;
55、根據(jù)所述語義關系確定各個單詞之間的依存關系;
56、以所述文本中的單詞為節(jié)點,以所述依存關系為邊,構建各個單詞之間的第二文本圖。
57、本發(fā)明通過獲取到的原始科技情報數(shù)據(jù)進行預處理,得到處理后的科技情報數(shù)據(jù);根據(jù)處理后的科技情報數(shù)據(jù)構建對應的多個文本圖;獲取文本圖對應的初始嵌入矩陣,以初始嵌入矩陣為基準按照預設維度確定各個文本圖對應的詞嵌入表示;根據(jù)詞嵌入表示確定各個文本圖對應的全局表示;通過拼接方式將各個文本圖對應的全局表示進行融合,得到文本圖對應文本特征;利用分析模型基于文本特征對處理后的科技情報數(shù)據(jù)進行智能化分析,利用分析模型進行智能化分析能夠提高對文本中時間序列特征的捕捉能力,及對整體文本意義的理解,提升了數(shù)據(jù)分析深度與效率。