引言
當(dāng)需要定義一個數(shù)據(jù)的特征時,如變化的比例、曲線上下邊的漸近線或者 EC50/IC50值時,選擇正確的曲線擬合方式是十分關(guān)鍵的。選擇的曲線擬合方式應(yīng)該是能夠最準(zhǔn)確的反映兩個已知變量 (x,y) 的關(guān)系。因此,曲線擬合的目的就是為了尋找最佳的公式和參數(shù)來匹配數(shù)據(jù)。
SoftMax Pro 7軟件能夠提供 21 種曲線擬合方式,包括四參數(shù) (4P) 和五參數(shù) (5P) 非線性回歸分析。多種的擬合方式選擇,是為了確保能夠找到適合數(shù)據(jù)的最佳擬合方式,并且能夠通過調(diào)整所選擬合方式的參數(shù)來得到最能反映濃度響應(yīng)變化關(guān)系的曲線圖。
本文將介紹在 SoftMaxPro7 軟件中能夠運(yùn)用的線性和非線性回歸分析方法。另外,本文還給出了如何利用標(biāo)準(zhǔn)方差和阿凱克信息論準(zhǔn)則來評估選擇的擬合方式是否最合適。
優(yōu)勢
- 利用一種高效免洗實(shí)驗(yàn)方法來測定細(xì)胞活性
- 準(zhǔn)確定量活細(xì)胞或死細(xì)胞
- 通過預(yù)設(shè)分析模塊快速獲得相關(guān)統(tǒng)計學(xué)結(jié)果
線性回歸
線性回歸擬合是最常見的數(shù)據(jù)擬合方式。它可以用下面的公式表示出來,y = A + Bx。其中x代表自變量 ( 一般是濃度等變量 ) ,y 代表因變量;B 值代表的是該公式對應(yīng)直線的斜率,而 A 值則為 x = 0 時的 y 軸截距。SoftMax Pro提供三種線性擬合方式:y = A + Bx, semi-log y = A + B* log10 (x), log-log log10 (y) = A +B* log10 (x)。軟件可以通過數(shù)據(jù)分析中找到最佳的直線公式 ( 圖表1 )。
在計算線性范圍時,最小的標(biāo)準(zhǔn)品數(shù)據(jù)取點(diǎn)為 3 個,但是更多標(biāo)準(zhǔn)品數(shù)據(jù)能夠提高擬合的準(zhǔn)確性。這種擬合方式最大的優(yōu)點(diǎn)就是計算簡單。但是,大多數(shù)情況下,數(shù)據(jù)間的關(guān)系都是非線性的。
非線性回歸
在測量值和變量為非線性關(guān)系時,通常使用logistic 回歸分析。這種擬合方式的目的是為了找到最佳的公式參數(shù)來使公式計算的理論值和測量值之間的背離最小。為了能夠正確地選擇最佳的擬合方式,需要理解標(biāo)準(zhǔn)的曲線形狀,并將他們與實(shí)際數(shù)據(jù)點(diǎn)的形狀進(jìn)行比較。
SoftMax Pro 軟件提供了 17 種非線性曲線擬合方式。它包括:二次方擬合,三次方擬合,四次方擬合,log-logit,cubicspline,指數(shù)函數(shù),直角雙曲線,兩參數(shù)指數(shù)函數(shù),雙指數(shù)函數(shù),雙直角雙曲線,兩點(diǎn)競爭,高斯擬合,Brain-Cousens,四參數(shù)擬合,五參數(shù)擬合和五參數(shù)交替擬合。SoftMax Pro 軟件使用最廣泛使用的迭代過程,Levenberg Marquardt 算法,來獲得最佳的非線性擬合方式。四參數(shù)和五參數(shù)擬合是最常見的兩種非線性曲線擬合方式,均適用于 S 形曲線的回歸分析 ( 圖2 )。
這類曲線擬合方式需求至少 4 個或 5 個數(shù)據(jù)點(diǎn),使用 6 個以上的數(shù)據(jù)點(diǎn)能夠獲得更加準(zhǔn)確的擬合公式。四參擬合表示為下列公式,y = ((A-D) / (1 + ((x/C)^B))) + D。其中 y 是相應(yīng)值,D 值是無限分析物濃度下的響應(yīng)值,A 是零分析物濃度下的響應(yīng)值,x 是分析物濃度,C 是拐點(diǎn)值 (EC50/IC50),B 是斜率參數(shù)。而響應(yīng)的變化規(guī)律是:當(dāng)A < D 時,y 值是正比于 x 值變化的;當(dāng) A> D 時,y 值是反比于 x 值變化的。四參數(shù)曲線是一個對稱的曲線,曲線的一側(cè)和另一側(cè)以 EC50/IC50 中心點(diǎn)完全點(diǎn)對稱。而對于一些免疫實(shí)驗(yàn)或生物測試的數(shù)據(jù),其數(shù)據(jù)圖形并不對稱,因此需要而外的變量來衡量該數(shù)據(jù)的復(fù)雜性。在這種情況下,五參數(shù)擬合方式能夠通過引入一個新的參數(shù) G ( 表二 ) 很好的反映出這類數(shù)據(jù)的特征。五參數(shù)擬合的通用公式為:y =((A-D) / (1 + ((x/C)^B)) ^G) + D。不對稱參數(shù) G 可以使曲線的兩部分不一致。但是需要說明的是,當(dāng) G 值很小或者需要平行線(PLA) 分析時,建議使用四參數(shù)擬合方式來獲得更好的擬合效果。
選擇最佳的曲線擬合方式
曲線擬合后的好壞,尤其是標(biāo)準(zhǔn)曲線的建立,需要使用精準(zhǔn)的數(shù)據(jù)來對其進(jìn)行評估。重復(fù)實(shí)驗(yàn)設(shè)置對于獲取好的曲線擬合是十分重要的,而單次實(shí)驗(yàn)隨機(jī)性會使曲線擬合的效果很差。R2 值是用來評估曲線擬合好壞的一個很好的指標(biāo)。通常來說,當(dāng) R2 值大于 0.99 時,曲線擬合效果被認(rèn)為是很好的。但是當(dāng)標(biāo)準(zhǔn)偏差隨著樣品的濃度變化而變化時,R2 值出現(xiàn)偏差而不準(zhǔn)確。理想的情況是標(biāo)準(zhǔn)偏差在所有濃度樣品下都應(yīng)該一致,適用于方差一致性的數(shù)據(jù);但是不是所有的情況都是標(biāo)準(zhǔn)偏差隨著樣品的濃度增加而增加,這時 R2 的就不適用了,需要新的方法衡量。
使用赤池信息量準(zhǔn)則 (AIC) 和 F 分布下的統(tǒng)計量方法進(jìn)行的誤差平方和 (SSE) 被用來標(biāo)準(zhǔn)化這些異方差數(shù)據(jù)。這兩種方法在衡量測定值和選擇的擬合曲線的理論值之間的誤差時是十分相似的方法。由于 SSE方法需要使用殘差和殘差圖,因此該方法又稱為殘差平方和法。殘差的定義是指在每個選定濃度下,實(shí)際的響應(yīng)值y和所選擬合曲線所得的理論響應(yīng)值 y′ 的差異性,即殘差 = 測定數(shù)據(jù)-擬合數(shù)據(jù) = y - y′。殘差代表的是隨機(jī)偏差。因此,當(dāng)曲線擬合方式符合數(shù)據(jù)時,殘差圖中點(diǎn)的分布應(yīng)該是圍繞 y = 0 軸的隨機(jī)點(diǎn) ( 圖表 3A )。如果殘差圖中點(diǎn)的分布情況是有規(guī)律的 ( 圖表3B ), 那么很明顯該數(shù)據(jù)的曲線擬合方式是很差的。
SSE 方法使用下面的公式進(jìn)行分析:SSE= Σ wi (yi - yi)2。假設(shè)數(shù)據(jù)誤差是不相關(guān)的且符合正態(tài)分布,使 SSE 盡可能的最小能夠最大近似的估算數(shù)據(jù)模型的曲線公式參數(shù)。換句話說,最佳的曲線擬合方式是其參數(shù)能夠得到最小的 SSE。如果兩種擬合方式都能符合數(shù)據(jù),那么哪個殘差圖給出了最小的 SSE,就使用那個擬合。
當(dāng)兩種擬合方式是嵌套關(guān)系及一種是另一種的特殊情況時,例如四參數(shù)擬合就是五參數(shù)擬合當(dāng) G = 1 時的特殊情況,具有更多參數(shù)的擬合方式要比另一個更能得到最小的 SSE。這是因?yàn)楦嗟膮?shù)能夠使曲線擁有更多的拐點(diǎn)來匹配數(shù)據(jù)。因此,需要引入一些額外的統(tǒng)計計算來決定哪種擬合方式是最匹配數(shù)據(jù)的,這個統(tǒng)計計算有F-test 和 F-probability。F probability是使用 F-test 和擬合曲線模型的自由度來評估 SSE 的減小是否是偶然發(fā)生的。一般的,當(dāng) probability 值小于 0.05 時,說明該擬合曲線的公式最匹配數(shù)據(jù)。
AIC 方法是用類似的統(tǒng)計計算來比較兩個具有嵌套關(guān)系的曲線擬合方式那個更匹配所給的數(shù)據(jù)。AIC 值能夠通過下面的公式來計算,適用具有正態(tài)分布誤差的數(shù)據(jù):AIC = n* log (SSE/n) + 2K。這里 n 代表樣本量,K 是描述曲線的參數(shù)數(shù)量。當(dāng)樣本量小時 (n /K < ~40),則使用二階的AIC 值 (AICc),公式為 AICc = AIC + 2K*(K + 1) / (n - K - 1),這里 n 代表樣本量,K是描述曲線的參數(shù)數(shù)量。當(dāng)樣本量增加時,AICc = AIC + 2K* (K + 1) / (n - K - 1) 公式末項(xiàng)值趨近于零,這時 AICc = AIC。AICc和 AIC 都用來評估最佳的擬合方式和公式擬合公式具有多少參數(shù)能夠達(dá)到特定的匹配程度。AIC 方法限制了公式參數(shù)的數(shù)量,因此得到最佳的擬合方式卻使參數(shù)最小化了。較低 AIC 值的曲線擬合通常是首選的擬合方式,即一個最少參數(shù)的曲線擬合公式依然能夠是最佳的擬合方式。
上述兩種方法都可以用來決定哪種曲線擬合方式最匹配數(shù)據(jù),但是這兩種方法均不能作為零假設(shè)檢測的測試模型。如果很難找到最佳匹配的擬合方式,邏輯上選擇最接近的擬合擬合。例如一個無限宇宙的模型,曲線擬合僅能夠找到最佳參數(shù)的已知模型或者比較兩個擬合方式哪個更好,但是適合無限宇宙模型的候選公式需要基于調(diào)查和科學(xué)的驗(yàn)證。在指定了一組合理的模型來解釋數(shù)據(jù)之后,在分析之前需要評估全局模型的擬合應(yīng)為最復(fù)雜的模型設(shè)置。假設(shè)全局模型匹配的話,那么認(rèn)為簡單模型也同樣是匹配的,因?yàn)楹唵文P桶谌帜P椭小?/FONT>
最佳擬合程度的衡量
SoftMax Pro7 能夠使用一個新的獨(dú)立的參數(shù)來衡量給的曲線是否匹配數(shù)據(jù)。參數(shù)依賴性是測量當(dāng)一個參數(shù)到達(dá)最佳時另一個參數(shù)的最佳的限度和范圍。一個具有 2 個或更多參數(shù)的擬合方式,描述曲線的參數(shù)即可能是關(guān)聯(lián)性很強(qiáng)的,又可能是贅余的。如果在曲線擬合完成后改變曲線的一個參數(shù),那么新的曲線應(yīng)該是遠(yuǎn)離數(shù)據(jù)點(diǎn)的。在此時,如果改變另一個參數(shù)的值能夠補(bǔ)償固定參數(shù)并使曲線向數(shù)據(jù)點(diǎn)靠近,但是和原始曲線設(shè)置不同,那么這些參數(shù)是關(guān)聯(lián)性。相反地,如果曲線回到了原始的位置,那么這些參數(shù)是贅余的。參數(shù)的獨(dú)立性用 0~1 的數(shù)值進(jìn)行衡量,當(dāng)數(shù)值為1 時參數(shù)完全獨(dú)立。要在圖形中顯示該獨(dú)立性質(zhì)時,請點(diǎn)擊如圖四的曲線擬合設(shè)置圖標(biāo)圖四。將會彈出曲線擬合設(shè)置窗口,只要選擇Statistics欄并勾選“Calculateparameter dependencies”即可。
在圖形表格中將會顯示出每一個參數(shù)的獨(dú)立性質(zhì) ( 圖五 )。在圖五中,參數(shù)的獨(dú)立程度使用對數(shù)標(biāo)度的 bar 顯示出來。十格bar 表明參數(shù)的獨(dú)立程度很高。由于只有很小的值才會影響擬合結(jié)果,因此這種標(biāo)度采用非線性的標(biāo)度方式。如果多個參數(shù)bar 很小或沒有的話,表明該擬合方式對數(shù)據(jù)是不匹配的。例如,如果數(shù)據(jù)是具有很明顯上限和下限漸近線的 S 型曲線,那么一個四參數(shù)擬合將適用于該數(shù)據(jù),所有參數(shù)應(yīng)該都具有很高的 bar 值。但是如果一條或兩條漸近線都沒有的話,則參數(shù) A和 D 的 bar 值將會很小,表明不能從數(shù)據(jù)中推導(dǎo)出可靠的參數(shù)值。
新的標(biāo)準(zhǔn):曲線擬合評估
在 Softmax Pro 軟件中設(shè)置了標(biāo)準(zhǔn)模板,曲線擬合評估,用來在分析數(shù)據(jù)時自動的計算SSE,F(xiàn) probability 和 AIC 值。在結(jié)果顯示窗口中展示出使用 SSE 和 AIC 方法進(jìn)行的曲線擬合分析相關(guān)的所有計算 ( 圖七 )。標(biāo)準(zhǔn)模板均可以在 網(wǎng)站中下載。在下面這個例子中,所要分析的數(shù)據(jù)使用四參數(shù) ( 圖 6A ) 和五參數(shù) ( 圖 6B ) 分別進(jìn)行擬合,兩種擬合方式均得到 R2 = 1。
所有的計算結(jié)果均在圖七中羅列出來。SSE 方法顯示五參數(shù)擬合比四參數(shù)擬合方式更匹配這些數(shù)據(jù),因?yàn)槲鍏?shù)的 SSE =0.027 而四參數(shù)的 SSE = 0.058。問題是四參數(shù)擬合是五參數(shù)擬合的當(dāng) G = 1 時的特殊情況,四參數(shù)應(yīng)該和五參數(shù)一樣的適合于這類數(shù)據(jù)。因此需要使用額外的數(shù)據(jù)來進(jìn)一步分析。F test (61.538) 和 F probability (0.000) 進(jìn)一步確認(rèn)了五參數(shù)擬合方式更匹配所分析的數(shù)據(jù)。AIC 方法也表明五參數(shù)擬合更適合所分析的數(shù)據(jù),其中四參數(shù) AIC = -405.365 而五參數(shù) AIC =-447.945。最終殘差圖顯示兩種擬合方式都是數(shù)據(jù)點(diǎn)隨機(jī)分布在 X 軸附近,說明兩種擬合方式均適合于該數(shù)據(jù) ( 圖八 )。綜合評估,所分析的數(shù)據(jù)最佳的擬合方式應(yīng)選擇五參數(shù)擬合。
總結(jié)
在 SoftMax Pro7 中含有多種數(shù)學(xué)模型可供使用,包括常用的四參數(shù)和五參數(shù)擬合方式。R2 值可以粗略的衡量曲線擬合是否匹配所要分析的數(shù)據(jù),特別是異方差類的數(shù)據(jù)。SSE 和 AIC 方法被用來評估曲線擬合的匹配程度已選擇可能最好的曲線擬合方式。然而在此之前,首先要明確的是兩種擬合數(shù)據(jù)的方式都必須是合理的和符合科學(xué)理性的。SoftMax Pro7 還包含一種方法,用來計算參數(shù)的獨(dú)立性,以此評估曲線擬合方式對數(shù)據(jù)的匹配程度。參數(shù)獨(dú)立性的結(jié)果能夠直觀的展示到圖標(biāo)中幫助你解讀您的數(shù)據(jù)。