特征選擇在生物信息學(xué)中的應(yīng)用
瀏覽次數(shù):5712 發(fā)布日期:2009-2-4
來源:本站 僅供參考,謝絕轉(zhuǎn)載,否則責(zé)任自負(fù)
隨著生物信息學(xué)的發(fā)展,許多模式識(shí)別技術(shù)無法滿足處理大量不相關(guān)特征的需求,因此特征選擇技術(shù)(FS techniques)在生物信息學(xué)中的應(yīng)用就變得越來越重要了。
在過去的幾年里,應(yīng)用特征選擇技術(shù)已經(jīng)從僅僅作為一個(gè)說明性的例子發(fā)展到了建立模型所需要的先決條件了。特征選擇技術(shù)最重要的目的有3點(diǎn):(1)避免過度適應(yīng)和提高模型的性能;(2)提供更快的和更有效的模型;(3)對(duì)生成數(shù)據(jù)的潛在的過程獲得更深入的了解。當(dāng)然,特征選擇技術(shù)在搜索相關(guān)特征的子集時(shí)也會(huì)為建立模型引入額外的復(fù)雜度。下面將簡(jiǎn)要介紹特征選擇技術(shù)在生物信息學(xué)中的應(yīng)用。
1、序列分析中的特征選擇
序列分析是生物信息學(xué)中常見的工作,對(duì)鄰近序列的特征選擇可以分為兩類:內(nèi)容分析(content analysis)和信號(hào)分析(signal analysis)。內(nèi)容分析著眼于序列主要的特征,例如序列編碼蛋白的傾向性或者實(shí)現(xiàn)的某種生物學(xué)的功能。而信號(hào)分析則著眼于序列中重要基序的識(shí)別,例如基因的結(jié)構(gòu)元件或者調(diào)控元件。
(1)內(nèi)容分析。
編碼蛋白的子序列的預(yù)測(cè)(編碼潛在性的預(yù)測(cè))一直是生物信息學(xué)研究的問題。由于許多特征可以從序列中提取出來,并且大部分特征之間的依賴關(guān)系僅僅與相鄰的位置有關(guān),因此,各種Markov模型被用于該問題的研究。起初,為了處理有限數(shù)量樣本中大量的可能特征,引入了內(nèi)插值填補(bǔ)的Markov模型(interpolated Markov model,IMM)。該模型通過在少量樣本條件下往Markov模型的不同特征次序中插入某一特征,然后利用過濾方法選擇僅僅有聯(lián)系的特征。接著,IMM的框架被擴(kuò)展來處理非相鄰特征的依賴性,產(chǎn)生了內(nèi)插值填補(bǔ)的鄰近模型(interpolated context model,ICM)。該模型將Bayesian決策樹與過濾方法結(jié)合起來評(píng)估特征的相關(guān)性。
近來,F(xiàn)S技術(shù)的方法被用于編碼潛在性的預(yù)測(cè)。該方法將幾種不同的編碼潛在性預(yù)測(cè)的方法結(jié)合起來,然后用Markov覆蓋多元過濾的方法(Markov blanket multivariate filter approach,MBF)只保留下有相關(guān)性的特征。
內(nèi)容分析的第二類問題就是從序列預(yù)測(cè)蛋白的功能。早期的工作是將遺傳算法和gamma檢測(cè)結(jié)合起來,為從大量rRNA子集分類出來的特征的集合打分,這種工作啟發(fā)了研究者使用FS技術(shù)來分析與蛋白功能種類有關(guān)的氨基酸的子集。其中有一項(xiàng)技術(shù)就是對(duì)支持向量集(SVM)進(jìn)行有選擇的核心度量來估計(jì)特征的權(quán)重,然后去掉低權(quán)重的特征。
另外,F(xiàn)S技術(shù)在序列分析的域分析中也有了進(jìn)一步的應(yīng)用,比如識(shí)別啟動(dòng)子區(qū)域和microRNA靶點(diǎn)預(yù)測(cè)。
(2)信號(hào)分析
許多序列分析的方法都包括識(shí)別序列中短的保守的信號(hào),這種信號(hào)表現(xiàn)為各種蛋白或者蛋白復(fù)合物的綁定位點(diǎn)。通常用來尋找調(diào)控基序的方法是用回歸的方法將基序與基因表達(dá)水平聯(lián)系起來,然后使用FS技術(shù)搜索基序,使之能最大程度上適合這個(gè)回歸模型。
信號(hào)分析中另一個(gè)重要的問題就是預(yù)測(cè)基因的結(jié)構(gòu)元件,例如剪接位點(diǎn)(splice sites)和轉(zhuǎn)錄起始位點(diǎn)(translation initiation site,TIS)。對(duì)于剪接位點(diǎn)的預(yù)測(cè),可以結(jié)合連續(xù)的回溯方法(sequential backward method)和嵌入式SVM評(píng)估標(biāo)準(zhǔn)(embedded SVM evaluation criterion)來估計(jì)特征的相關(guān)性,或者利用分布式算法評(píng)估(estimation of distribution algorithm,EDA)來獲得相關(guān)的特征。同樣的,利用FS技術(shù)預(yù)測(cè)TIS,可以使用特征分類熵(feature-class entropy)作為篩選量度來去除不相關(guān)的特征。
在今后的研究中,F(xiàn)S技術(shù)被期望用于其他的預(yù)測(cè)工作,例如鑒別與選擇性剪接位點(diǎn)或者選擇性轉(zhuǎn)錄起始位點(diǎn)有關(guān)的相關(guān)特征。
2、單核苷酸多態(tài)性分析中的特征選擇
單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是進(jìn)化過程中單個(gè)核苷酸位點(diǎn)的突變并且可以通過遺傳傳遞下去,這可以解釋不同個(gè)體間大部分的遺傳變異。SNPs是許多疾病基因研究的前沿,在人的基因組中數(shù)目估計(jì)在7百萬左右,因此選擇一個(gè)具有充足信息并且足夠小的SNPs子集來描述基因型是疾病基因相關(guān)研究中重要的一步。
在過去的幾年中已經(jīng)發(fā)展了一些計(jì)算方法來選擇單體型標(biāo)簽SNP(htSNP)。一種方法假設(shè)人類基因組可以被認(rèn)為是離散的區(qū)域集合,僅僅共享很小的共用單體型集合。這種方法的目的是確定一個(gè)SNPs的集合來區(qū)分所有的共用的單體型,或者至少可以解釋其中的一部分。第二種共用htSNPs的選擇方法是基于SNPs的配對(duì)原理,試圖選擇一個(gè)htSNPs的集合使得一個(gè)單體型上的每個(gè)SNPs都和一個(gè)htSNPs高度相關(guān)。第三種方法認(rèn)為htSNPs是所有SNPs的一個(gè)子集,通過這個(gè)子集可以重構(gòu)剩余的SNPs。這種選擇htSNPs的方法取決于剩余沒有選擇的SNPs預(yù)測(cè)的精確程度。
如果目標(biāo)區(qū)域中單體型的結(jié)構(gòu)未知,常用的方法是在相等的間隔上選擇標(biāo)記物,給出要選擇的SNPs的數(shù)據(jù)和期望的間距。較為有效的方法包括基于遺傳算法與SVM結(jié)合的方法、包括3個(gè)分類算法(k-NN,SVM和naïve Bayes)的Relief-F特征選擇算法和多元線性回歸SNP預(yù)測(cè)算法等。
3、文本和文獻(xiàn)挖掘中的特征選擇
文本和文獻(xiàn)挖掘是生物學(xué)中數(shù)據(jù)挖掘方面的一個(gè)新興領(lǐng)域,文本和文件的一個(gè)重要表示就是所謂的BOW(bag-of-words)表示,將文本中的每一個(gè)詞表示為一個(gè)變量,而它的值為該詞在文本中出現(xiàn)的頻率。這樣的表示方式就使得從一個(gè)文本得到一個(gè)很高維度的數(shù)據(jù)集,因此需要使用特征選擇技術(shù)來進(jìn)行文本挖掘。
盡管特征選擇技術(shù)經(jīng)常應(yīng)用于文本分類領(lǐng)域,但是對(duì)于生物醫(yī)學(xué)領(lǐng)域還是新興技術(shù)。
到目前為止,在醫(yī)學(xué)注釋工作上,應(yīng)用了Kullback-Leibler散度(Kullback-Leibler divergence)作為一個(gè)單變量過濾方法來尋找有差別的單詞,在蛋白相互作用發(fā)現(xiàn)中,應(yīng)用了對(duì)稱原理的不確定性(symmetrical uncertainty,一種基于熵的過濾方法)來鑒別相關(guān)的特征。同樣可以預(yù)計(jì)到,用來對(duì)生物醫(yī)學(xué)文檔的聚類和分類方法引入的大量特征選擇技術(shù)將會(huì)應(yīng)用于生物醫(yī)學(xué)的文獻(xiàn)挖掘中。
除了以上的幾個(gè)方面的應(yīng)用以外,特征選擇技術(shù)還被應(yīng)用于微陣列(microarray)數(shù)據(jù)分析和質(zhì)譜(MS)數(shù)據(jù)分析這些海量數(shù)據(jù)分析方面。由此可預(yù)見,隨著對(duì)特征選擇技術(shù)的進(jìn)一步發(fā)展和完善,特征技術(shù)將在海量數(shù)據(jù)分析中發(fā)揮極其重要的作用。
參考文獻(xiàn):
Yvan Saeys, Inaki Inza and Pedro Larranaga. (2007)A review of feature selection techniques in bioinformatics. Bioinformatics, 23, 2507-2517.