1/6分步閱讀
1.線(xiàn)性回歸方法:通常因變量和一個(gè)(或者多個(gè))自變量之間擬合出來(lái)是一條直線(xiàn)(回歸線(xiàn)),通常可以用一個(gè)普遍的公式來(lái)表示:Y(因變量)=a*X(自變量)+b+c,其中b表示截距,a表示直線(xiàn)的斜率,c是誤差項。如下圖所示。
?
2/6
2.邏輯回歸方法:通常是用來(lái)計算“一個(gè)事件成功或者失敗”的概率,此時(shí)的因變量一般是屬于二元型的(1 或0,真或假,有或無(wú)等)變量。以樣本極大似然估計值來(lái)選取參數,而不采用最小化平方和誤差來(lái)選擇參數,所以通常要用log等對數函數去擬合。如下圖。
?
3/6
3.多項式回歸方法:通常指自變量的指數存在超過(guò)1的項,這時(shí)候最佳擬合的結果不再是一條直線(xiàn)而是一條曲線(xiàn)。比如:拋物線(xiàn)擬合函數Y=a+b*X^2,如下圖所示。
?
4/6
4.嶺回歸方法:通常用于自變量數據具有高度相關(guān)性的擬合中,這種回歸方法可以在原來(lái)的偏差基礎上再增加一個(gè)偏差度來(lái)減小總體的標準偏差。如下圖是其收縮參數的最小誤差公式。
?
5/6
5.套索回歸方法:通常也是用來(lái)二次修正回歸系數的大小,能夠減小參量變化程度以提高線(xiàn)性回歸模型的精度。如下圖是其懲罰函數,注意這里的懲罰函數用的是絕對值,而不是絕對值的平方。
?
6/6
6.ElasticNet回歸方法:是Lasso和Ridge回歸方法的融合體,使用L1來(lái)訓練,使用L2優(yōu)先作為正則化矩陣。當相關(guān)的特征有很多個(gè)時(shí),ElasticNet不同于Lasso,會(huì )選擇兩個(gè)。如下圖是其常用的理論公式。
?
多元分析方法包括3類(lèi):
多元方差分析、多元回歸分析和協(xié)方差分析,稱(chēng)為線(xiàn)性模型方法,用以研究確定的自變量與因變量之間的2113關(guān)系;判別函數分析和聚類(lèi)分析,用以研究對事物的分類(lèi);主成分分析、典型相關(guān)和因素分析,研究如何用較少的5261綜合因素代替為數較多的原始變量。
多元方差是把總變異按照其來(lái)源分為多個(gè)部分,從而檢驗各個(gè)因素對因變量的影響以及各因素間交互作用的統計方法。
判別函數是判定個(gè)體所屬類(lèi)別的統計方法。其基本原理是:根據兩個(gè)或多個(gè)已知類(lèi)別的樣本觀(guān)測資料確4102定一個(gè)或幾個(gè)線(xiàn)性判別函數和判別指標,然后用該判別函數依據判別指標來(lái)判定另一個(gè)個(gè)體屬于哪一類(lèi)。
擴展資料
多元分析方1653法的歷史:
首先涉足多元分析方法是F.高爾頓,他于1889年把雙變量的正態(tài)分布方法運用于傳統的統計學(xué),創(chuàng )立了相關(guān)系數和線(xiàn)性回歸。
其后的幾十年中,斯皮爾曼提出因素分析法,費內希爾提出方差分析和判別分析,威爾克斯發(fā)展了多元方差分析,霍特林確定了主成分分析和典型相關(guān)。到20世紀前半葉,多元分析理論大多已經(jīng)確立。
60年代以后,隨著(zhù)計算機科學(xué)的發(fā)展,多元分析方法在心理學(xué)以及其他許多學(xué)科的研究中得到了越來(lái)越廣泛的應用。容
參考資料來(lái)源:百度百科——多元分析
回歸分析中,當研究的因果關(guān)系只涉及因變量和一個(gè)自變量時(shí),叫做一元回歸分析;當研究的因果關(guān)系涉及因變量和兩個(gè)或兩個(gè)以上自變量時(shí),叫做多元回歸分析。此外,回歸分析中,又依據描述自變量與因變量之間因果關(guān)系的函數表達式是線(xiàn)性的還是非線(xiàn)性的,分為線(xiàn)性回歸分析和非線(xiàn)性回歸分析。回歸分析法預測是利用回歸分析方法,根據一個(gè)或一組自變量的變動(dòng)情況預測與其有相關(guān)關(guān)系的某隨機變量的未來(lái)值。進(jìn)行回歸分析需要建立描述變量間相關(guān)關(guān)系的回歸方程。根據自變量的個(gè)數,可以是一元回歸,也可以是多元回歸。根據所研究問(wèn)題的性質(zhì),可以是線(xiàn)性回歸,也可以是非線(xiàn)性回歸。非線(xiàn)性回歸方程一般可以通過(guò)數學(xué)方法為線(xiàn)性回歸方程進(jìn)行處理。
篩選變量法, 嶺回歸分析法, 主成分回歸法和偏最小二乘回歸法。
關(guān)鍵詞: 回歸、SASSTAT、共線(xiàn)性、篩選變量、嶺回歸、主成分回歸、偏最小二乘回歸。中圖分類(lèi)號: 0212; C8 文獻標識碼: A 回歸分析方法是處理多變量間相依關(guān)系的統計方法。
它是數理統計中應用最為廣泛的方法之一。在長(cháng)期的大量的實(shí)際應用中人們也發(fā)現: 建立回歸方程后, 因為自變量存在相關(guān)性, 將會(huì )增加參數估計的方差, 使得回歸方程變得不穩定; 有些自變量對因變量(指標) 影響的顯著(zhù)性被隱蔽起來(lái); 某些回歸系數的符號與實(shí)際意義不符合等等不正常的現象。
這些問(wèn)題的出現原因就在于自變量的共線(xiàn)性。本文通過(guò)例子來(lái)介紹自變量共線(xiàn)性的診斷方法以及使用SA SSTA T 軟件6. 12 版本中REG 等過(guò)程的增強功能處理回歸變量共線(xiàn)性的一些方法。
一、共線(xiàn)性診斷共線(xiàn)性問(wèn)題是指擬合多元線(xiàn)性回歸時(shí), 自變量之間存在線(xiàn)性關(guān)系或近似線(xiàn)性關(guān)系。共線(xiàn)性診斷的方法是基于對自變量的觀(guān)測數據構成的矩陣X′X 進(jìn)行分析, 使用各種反映自變量間相關(guān)性的指標。
共線(xiàn)性診斷常用統計量有方差膨脹因子V IF (或容限TOL )、條件指數和方差比例等。方差膨脹因子V IF 是指回歸系數的估計量由于自變量共線(xiàn)性使得其方差增加的一個(gè)相對度量。
對第i 個(gè)回歸系數, 它的方差膨脹因子定義為 V I F i = 第i 個(gè)回歸系數的方差自變量不相關(guān)時(shí)第i 個(gè)回歸系數的方差 = 1 1 - R 2 i = 1 TOL i 其中R 2 i 是自變量xi 對模型中其余自變量線(xiàn)性回歸模型的R 平方。V IFi 的倒數TOL i 也稱(chēng)為容限( To lerance )。
一般建議, 若V IF> 10, 表明模型中有很強的共線(xiàn)性問(wèn)題。若矩陣X′X 的特征值為d 2 1 ≥d 2 2 ≥…≥d 2 k, 則X 的條件數 d1 dk 就是刻劃它的奇性的一個(gè)指標。
故稱(chēng) d1 dj (j= 1, …, k) 為條件指數。一般認為, 若條件指數值在10 與30 間為弱相關(guān); 在30 與100 間為中等相關(guān); 大于100 表明有強相關(guān)。
對于大的條件指數, 還需要找出哪些變量間存在強的線(xiàn)性關(guān)系。因為每個(gè)條件指數對應一 9 4 處理多元線(xiàn)性回歸中自變量共線(xiàn)- 性的幾種方法個(gè)特征向量, 而大的條件指數相應的特征值較小, 故構成這一特征向量的變量間有近似的線(xiàn)性關(guān)系。
在統計中用方差比例來(lái)說(shuō)明各個(gè)自變量在構成這個(gè)特征向量中的貢獻。一般建議, 在大的條件指數中由方差比例超過(guò)0. 5 的自變量構成的變量子集就認為是相關(guān)變量集。
§3.2 回歸分析方法 回歸分析方法,是研究要素之間具體的數量關(guān)系的一種強有力的工具,能夠建立反映地理要素之間具體的數量關(guān)系的數學(xué)模型,即回歸模型。
1. 一元線(xiàn)性回歸模型 1) 一元線(xiàn)性回歸模型的基本結構形式 假設有兩個(gè)地理要素(變量)x和y,x為自變量,y為因變量。則一元線(xiàn)性回歸模型的基本結構形式:a和b為待定參數;α=1,2,…,n為各組觀(guān)測數據的下標; εa為隨機變量。
如果記a^和b^ 分別為參數a與b的擬合值,則得到一元線(xiàn)性回歸模型 ? 是y 的估計值,亦稱(chēng)回歸值。回歸直線(xiàn)——代表x與y之間相關(guān)關(guān)系的擬合直線(xiàn) 2) 參數a、b的最小二?乘估計 參數a與b的擬合值:, 建立一元線(xiàn)性回歸模型的過(guò)程,就是用變量 和 的實(shí)際觀(guān)測數據確定參數a和b的最小二乘估計值α^和β^ 的過(guò)程。
3) 一元線(xiàn)性回歸模型的顯著(zhù)性檢驗 線(xiàn)性回歸方程的顯著(zhù)性檢驗是借助于F檢驗來(lái)完成的。 檢驗統計量F: 誤差平方和: 回歸平方和: F≈F(1,n-2)。
在顯著(zhù)水平a下,若 ,則認為回歸方程效果在此水平下顯著(zhù);當 時(shí),則認為方程效果不明顯。[舉例說(shuō)明] 例1:在表3.1.1中,將國內生產(chǎn)總值(x1)看作因變量y,將農業(yè)總產(chǎn)值(x2)看作自變量x,試建立它們之間的一元線(xiàn)性回歸模型并對其進(jìn)行顯著(zhù)性檢驗。
解: (1) 回歸模型 將y和x的樣本數據代入參數a與b的擬合公式,計算得:故,國內生產(chǎn)總值與農業(yè)總產(chǎn)值之間的回歸方程為(2) 顯著(zhù)性檢驗 在置信水平α=0.01下查F分布表得:F0.01(1,46)=7.22。由于F=4951.098 >> F0.01(1,46)=7.22,所以回歸方程(3.2.7)式在置信水平a=0.01下是顯著(zhù)的。
2. 多元線(xiàn)性回歸模型 在多要素的地理系統中,多個(gè)(多于兩個(gè))要素之間也存在著(zhù)相關(guān)影響、相互關(guān)聯(lián)的情況。因此,多元地理回歸模型更帶有普遍性的意義。
1) 多元線(xiàn)性回歸模型的建立 (1) 多元線(xiàn)性回歸模型的結構形式 假設某一因變量y受k 個(gè)自變量 的影響,其n組觀(guān)測值為 。則多元線(xiàn)性回歸模型的結構形式:為待定參數, 為隨機變量。
如果 分別為 的擬合值,則回歸方程為 b0為常數, 稱(chēng)為偏回歸系數。 偏回歸系數 ——當其它自變量都固定時(shí),自變量 每變化一個(gè)單位而使因變量xi平均改變的數值。
(2) 求解偏回歸系數, 2) 多元線(xiàn)性回歸模型的顯著(zhù)性檢驗 用F檢驗法。 F統計量:當統計量F計算出來(lái)之后,就可以查F分布表對模型進(jìn)行顯著(zhù)性檢驗。
[舉例說(shuō)明] 例2:某地區各城市的公共交通營(yíng)運總額(y)與城市人口總數(x1 )以及工農業(yè)總產(chǎn)值(x2)的年平均統計數據如表3.2.1(點(diǎn)擊展開(kāi)顯示該表)所示。試建立y與x1及x2之間的線(xiàn)性回歸模型并對其進(jìn)行顯著(zhù)性檢驗。
表3.2.1 某地區城市公共交通營(yíng)運額、人口數及工農業(yè)總產(chǎn)值的年平均數據 城市序號 公共交通營(yíng)運額y/103人公里 人口數x1/103人 工農業(yè)總產(chǎn)值x2/107元 1 6825.99 1298.00 437.26 2 512.00 119.80 1286.48 。 。
。 。
14 192.00 12.47 1072.27 注:本表數據詳見(jiàn)書(shū)本P54。 解: (1) 計算線(xiàn)性回歸模型 由表3.2.1中的數據,有 計算可得:故y與x1 及y2之間的線(xiàn)性回歸方程(2) 顯著(zhù)性檢驗 故:在置信水平a=0.01下查F分布表知:F0.01(2,11)=7.21。
由于F=38.722> F0.01(2,11)=7.21,所以在置信水平a=0.01下,回歸方程式是顯著(zhù)的。3. 非線(xiàn)性回歸模型的建立方法 1) 非線(xiàn)性關(guān)系的線(xiàn)性化 (1) 非線(xiàn)性關(guān)系模型的線(xiàn)性化 對于要素之間的非線(xiàn)性關(guān)系通過(guò)變量替換就可以將原來(lái)的非線(xiàn)性關(guān)系轉化為新變量下的線(xiàn)性關(guān)系。
[幾種非線(xiàn)性關(guān)系模型的線(xiàn)性化] ① 于指數曲線(xiàn) ,令 , ,將其轉化為直線(xiàn)形式: ,其中, ; ② 對于對數曲線(xiàn) ,令 , ,將其轉化為直線(xiàn)形式: ; ③ 對于冪函數曲線(xiàn) ,令 , ,將其轉化為直線(xiàn)形式: ,其中, ④ 對于雙曲線(xiàn) ,令 ,將其轉化為直線(xiàn)形式:; ⑤ 對于S型曲線(xiàn) ,將其轉化為直線(xiàn)形式:; ⑥ 對于冪函數乘積:令 將其轉化為直線(xiàn)形式:其中, ; ⑦ 對于對數函數和:令 ,將其化為線(xiàn)性形式:(2) 建立非線(xiàn)性回歸模型的一般方法 ① 通過(guò)適當的變量替換將非線(xiàn)性關(guān)系線(xiàn)性化; ② 用線(xiàn)性回歸分析方法建立新變量下的線(xiàn)性回歸模型: ③ 通過(guò)新變量之間的線(xiàn)性相關(guān)關(guān)系反映原來(lái)變量之間的非線(xiàn)性相關(guān)關(guān)系。 3) 非線(xiàn)性回歸模型建立的實(shí)例 非線(xiàn)性回歸模型建立的實(shí)例 景觀(guān)是地理學(xué)的重要研究?jì)热葜弧?/p>
有關(guān)研究表明(Li,2000;徐建華等,2001),任何一種景觀(guān)類(lèi)型的斑塊,其面積(Area)與周長(cháng)(Perimeter)之間的數量關(guān)系可以用雙對數曲線(xiàn)來(lái)描述,即 例3:表3.2.2給出了某地區林地景觀(guān)斑塊面積(Area)與周長(cháng)(Perimeter)的數據。試建立林地景觀(guān)斑塊面積A與周長(cháng)P之間的雙對數相關(guān)關(guān)系模型。
表3.2.2某地區各個(gè)林地景觀(guān)斑塊面積(m2)與周長(cháng)(m) 序號 面積A 周長(cháng)P 序號 面積A 周長(cháng)P 1 10447.370 625.392 42 232844.300 4282.043 2 15974.730 612.286 43 4054.660 289.307 。 。
。 。
。 。
41 1608.625 225.842 82 564370.800 12212.410 注:本表數據詳見(jiàn)書(shū)本57和58頁(yè)。 解:因為林地景觀(guān)斑塊面積(A)與周長(cháng)(P)之間的數量關(guān)系是雙對數曲線(xiàn)形式,即 所以對表3.2.2中的原始數據進(jìn)行對數變換,變換后得到的各新變量對應的觀(guān)測數據如表3.2.3所示。
1、穩健回歸其主要思路是將對異常值十分敏感的經(jīng)典最小二乘回歸中的目標函數進(jìn)行修改。
經(jīng)典最小二乘回歸以使誤差平方和達到最小為其目標函數。因為方差為一不穩健統計量,故最小二乘回歸是一種不穩健的方法。
為減少異常點(diǎn)的作用,對不同的點(diǎn)施加不同的權重,殘差小的點(diǎn)權重大,殘差大的店權重小。2、變系數回歸 地理位置加權3、偏最小二乘回歸長(cháng)期以來(lái),模型式的方法和認識性的方法之間的界限分得十分清楚。
而偏最小二乘法則把它們有機的結合起來(lái)了,在一個(gè)算法下,可以同時(shí)實(shí)現回歸建模(多元線(xiàn)性回歸)、數據結構簡(jiǎn)化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。偏最小二乘法在統計應用中的重要性體現在以下幾個(gè)方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。
偏最小二乘法可以較好的解決許多以往用普通多元回歸無(wú)法解決的問(wèn)題。偏最小二乘法之所以被稱(chēng)為第二代回歸方法,還由于它可以實(shí)現多種數據分析方法的綜合應用。
能夠消除自變量選取時(shí)可能存在的多重共線(xiàn)性問(wèn)題。普通最小二乘回歸方法在自變量間存在嚴重的多重共線(xiàn)性時(shí)會(huì )失效。
自變量的樣本數與自變量個(gè)數相比過(guò)少時(shí)仍可進(jìn)行預測。4、支持向量回歸 能較好地解決小樣本、非線(xiàn)性、高維數和局部極小點(diǎn)等實(shí)際問(wèn)題。
傳統的化學(xué)計量學(xué)算法處理回歸建模問(wèn)題在擬合訓練樣本時(shí),要求“殘差平方和”最小,這樣將有限樣本數據中的誤差也擬合進(jìn)了數學(xué)模型,易產(chǎn)生“過(guò)擬合”問(wèn)題,針對傳統方法這一不足之處,SVR采用“ε不敏感函數”來(lái)解決“過(guò)擬合”問(wèn)題,即f(x)用擬合目標值yk時(shí),取:f(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應的拉格朗日待定系數,K(xi,x)是采用的核函數[18],x為未知樣本的特征矢量,xi為支持向量(擬合函數周?chē)摩拧肮鼙凇鄙系奶卣魇噶浚琒Vs為支持向量的數目.目標值yk擬合在yk-∑SVs(αi-α*i)K(xi,xk)≤ε時(shí),即認為進(jìn)一步擬合是無(wú)意義的。5、核回歸 核函數回歸的最初始想法是用非參數方法來(lái)估計離散觀(guān)測情況下的概率密度函數(pdf)。
為了避免高維空間中的內積運算 由Mercer條件,存在映射函數a和核函數K(?,?),使得:=K(xi ,x)采用不同的函數作為SVM的核函數K (x i,x),可以實(shí)現多種從輸入空間到特征空間的非線(xiàn)性映射形式6、嶺回歸 嶺回歸分析是一種專(zhuān)用于共線(xiàn)性數據分析的有偏估計回歸方法,實(shí)質(zhì)上是一種改良的最小二乘估計法,通過(guò)放棄最小二乘法的無(wú)偏性,以損失部分信息、降低精度為代價(jià)獲得回歸系數更為符合實(shí)際、更可靠的回歸方法,對病態(tài)數據的耐受性遠遠強于最小二乘法。7、半參數回歸 模型既含有參數分量又含有非參數分量,其參數部分用來(lái)解釋函數關(guān)系已知的部分,它是觀(guān)測值中的主要成分,而其非參數部分則描述函數關(guān)系未知,無(wú)法表達為待定參數的函數部分。
8、自回歸例1.Yt = α+β0Xt +β1Xt-1 +……+βsXt-s + ut,例2.Yt = f (Yt-1, Yt-2, … , X2t, X3t, … ) ,滯后的因變量(內生變量)作為解釋變量出現在方程的右端。這種包含了內生變量滯后項的模型稱(chēng)為自回歸模型。
9、正交回歸 因素水平值在區間[Zj1, Zj2]內變化,經(jīng)編碼之后,編碼值xi在區間[-1,+1]間變化,將響應值y原來(lái)對Z1, Z2……Zm的回歸問(wèn)題,轉化為y對x1,x2……xm的回歸問(wèn)題。它的主要優(yōu)點(diǎn)是可以把實(shí)驗或計算的安排、數據的處理和回歸方程的精度統一起來(lái)加以考慮,根據實(shí)驗目的和數據分析來(lái)選擇實(shí)驗或計算點(diǎn),不僅使得在每個(gè)實(shí)驗或計算點(diǎn)上獲得的數據含有最大的信息,從而減少實(shí)驗或計算次數,而且使數據的統計分析具有一些較好的性質(zhì),以較少的實(shí)驗或計算建立精度較高的回歸方程。
10、逐步回歸 實(shí)際問(wèn)題中影響因變量的因素可能很多,我們希望從中挑選出影響顯著(zhù)的自變量來(lái)建立回歸模型,這就涉及到變量選擇的問(wèn)題,逐步回歸是一種從眾多變量中有效地選擇重要變量的方法。基本思路為,先確定一初始子集,然后每次從子集外影響顯著(zhù)的變量中引入一個(gè)對y 影響最大的,再對原來(lái)子集中的變量進(jìn)行檢驗,從變得不顯著(zhù)的變量中剔除一個(gè)影響最小的,直到不能引入和剔除為止。
11、主成分回歸 在統計學(xué)中,主成分分析是一種簡(jiǎn)化數據集的技術(shù)。它是一個(gè)線(xiàn)性變換。
這個(gè)變換把數據變換到一個(gè)新的坐標系統中,使得任何數據投影的第一大方差在第一個(gè)坐標(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(第二主成分)上,依次類(lèi)推。 首先對X陣進(jìn)行主成份分析,T陣的維數可以與X陣相同,如果使用整個(gè)T陣參加回歸,這樣得到的結果與多元線(xiàn)性回歸沒(méi)有多大的差別。
因為主成分(新變量)是原變量的線(xiàn)性組合。前面的k個(gè)主成份包含了X矩陣的絕大部分有用信息,而后面的主成份則往往與噪聲和干擾因素有關(guān)。
因此參與回歸的是少數主成分組成的矩陣。在維數上遠小于X。
主成分回歸通過(guò)對參與回歸的主成份的合理選擇,可以去掉噪音。主成份間相互正交,解決了多元線(xiàn)性回歸中的共線(xiàn)性問(wèn)題。
主成分回歸能夠充分利用數據信息,有效地提高模型的抗干擾能力。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.799秒