1.一種癌細胞線粒體生物標志物,其特征在于:當(dāng)所述癌細胞為結(jié)直腸癌時,其線粒體生物標志物包括:oxct1、clpb、slc25a12、mrpl51、sfxn1、gatm和trmt10c基因。
2.一種基于機器算法篩選如權(quán)利要求1所述癌細胞線粒體生物標志物的方法,其特征在于,包括以下步驟:
3.根據(jù)權(quán)利要求2所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:步驟(1)中,從geo數(shù)據(jù)庫中下載所述待篩選癌細胞所有癌組織和癌旁組織的表達數(shù)據(jù)集;通過perl和r語言limma包,用normalizebetweenarrays方法,對所述表達數(shù)據(jù)集進行標準化處理;從mitocarta3.0數(shù)據(jù)庫中下載所述線粒體相關(guān)基因;通過r語言limma包獲得所述線粒體相關(guān)基因在所述表達數(shù)據(jù)中的表達量。
4.根據(jù)權(quán)利要求2或3所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:步驟(2)中,通過r語言limma包和pheatmap包進行差異分析;通過r語言corrplot包進行相關(guān)性分析。
5.根據(jù)權(quán)利要求2或3所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:步驟(3)中,用基因本體論通過r語言enrichplot包進行功能富集分析;用京都基因和基因組百科全書通過r語言ggplot2包和clusterprofiler包進行功能富集分析。
6.根據(jù)權(quán)利要求2或3所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:步驟(4)中,所述機器算法包括lasso回歸和/或svm-rfe回歸;所述lasso回歸的具體篩選方法為:通過r語言glmnet包構(gòu)建模型,繪制cvfit圖形和lasso回歸圖形,再進一步在cvfit圖形上繪制交叉驗證圖形,找到縱坐標最小值,即交叉驗證誤差最小值,通過r語言glmnet包確定lasso回歸篩選的特征基因;所述svm-rfe回歸的具體篩選方法為:通過r語言e1071包,設(shè)置十折的交叉驗證,對特征基因的重要性進行排序,構(gòu)建模型繪制準確性圖形,找到準確性最高點,繪制交叉驗證誤差圖形,找到誤差最低點,根據(jù)兩者結(jié)果通過r語言e1071包確定svm-rfe回歸篩選的特征基因;通過r語言venndiagram包確定不同機器算法篩選所得特征基因的核心交集靶點。
7.根據(jù)權(quán)利要求2或3所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:對步驟(4)所得癌細胞線粒體生物標志物進行準確性驗證;所述準確性驗證的方法一為:將步驟(4)所得癌細胞線粒體生物標志物在癌疾病組織和癌旁組織中進行差異表達分析;方法二為:在hpa數(shù)據(jù)庫獲得步驟(4)所得癌細胞線粒體生物標志物在人正常組織和人癌變組織中的免疫組化數(shù)據(jù)表達;方法三為:在人正常細胞和人癌變細胞水平進行mrna表達水平的差異表達分析。
8.根據(jù)權(quán)利要求7所述基于機器算法篩選癌細胞線粒體生物標志物的方法,其特征在于:所述在癌疾病組織和癌旁組織中進行差異表達分析是指:從tcga數(shù)據(jù)庫中下載所述癌疾病組織和癌旁組織所有測序數(shù)據(jù),通過r語言limma包、r語言ggplot2包和r語言ggpubr包獲得步驟(4)所得癌細胞線粒體生物標志物在癌疾病組織和癌旁組織中的差異表達情況;所述免疫組化數(shù)據(jù)表達即蛋白表達水平差異情況;所述mrna表達水平的差異表達分析是指:在人正常細胞和人癌變細胞水平,分別通過qrt-pcr水平,驗證步驟(4)所得癌細胞線粒體生物標志物在體外水平mrna的差異表達情況。