主成分分析是指通過(guò)將一組可能存在相關(guān)性的變量轉換城一組線(xiàn)性不相關(guān)的變量,轉換后的這組變量叫主成分。
主成分分析步驟:1、對原始數據標準化,2、計算相關(guān)系數,3、計算特征,4、確定主成分,5、合成主成分。
主成分分析的原理是設法將原來(lái)變量重新組合成一組新的相互無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據實(shí)際需要從中可以取出幾個(gè)較少的總和變量盡可能多地反映原來(lái)變量的信息的統計方法叫做主成分分析或稱(chēng)主分量分析,也是數學(xué)上處理降維的一種方法。
擴展資料
主成分分析的主要作用
1.主成分分析能降低所研究的數據空間的維數。
2.有時(shí)可通過(guò)因子負荷aij的結論,弄清X(qián)變量間的某些關(guān)系。
3.多維數據的一種圖形表示方法。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來(lái)自變量x做回歸分析。
5.用主成分分析篩選回歸變量。
最經(jīng)典的做法就是用F1(選取的第一個(gè)線(xiàn)性組合,即第一個(gè)綜合指標)的方差來(lái)表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線(xiàn)性組合中選取的F1應該是方差最大的,故稱(chēng)F1為第一主成分。
參考資料來(lái)源:搜狗百科-主成分分析
主成分分析也稱(chēng)主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個(gè)綜合指標。
在統計學(xué)中,主成分分析(principal components analysis,PCA)是一種簡(jiǎn)化數據集的技術(shù)。它是一個(gè)線(xiàn)性變換。這個(gè)變換把數據變換到一個(gè)新的坐標系統中,使得任何數據投影的第一大方差在第一個(gè)坐標(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(第二主成分)上,依次類(lèi)推。主成分分析經(jīng)常用減少數據集的維數,同時(shí)保持數據集的對方差貢獻最大的特征.這是通過(guò)保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數據的最重要方面.但是,這也不是一定的,要視具體應用而定.
原發(fā)布者:暮天一色
(一)主成分分析法的基本思想主成分分析()是利用降維的思想,將多個(gè)變量轉化為少數幾個(gè)綜合變量(即主成分),其中每個(gè)主成分都是原始變量的線(xiàn)性組合,各主成分之間互不相關(guān),從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊。[2]采用這種方法可以克服單一的財務(wù)指標不能真實(shí)反映公司的財務(wù)情況的缺點(diǎn),引進(jìn)多方面的財務(wù)指標,但又將復雜因素歸結為幾個(gè)主成分,使得復雜問(wèn)題得以簡(jiǎn)化,同時(shí)得到更為科學(xué)、準確的財務(wù)信息。(二)主成分分析法代數模型假設用p個(gè)變量來(lái)描述研究對象,分別用X1,X2…Xp來(lái)表示,這p個(gè)變量構成的p維隨機向量為X=(X1,X2…Xp)t。設隨機向量X的均值為μ,協(xié)方差矩陣為Σ。假設X是以n個(gè)標量隨機變量組成的列向量,并且μk是其第k個(gè)元素的期望值,即,μk=E(xk),協(xié)方差矩陣然后被定義為:Σ=E{(X-E[X])(X-E[X])}=(如圖對X進(jìn)行線(xiàn)性變化,考慮原始變量的線(xiàn)性組合:Z1=μ11X1+μ12X2+…μ1pXpZ2=μ21X1+μ22X2+…μ2pXp………………Zp=μp1X1+μp2X2+…μppXp主成分是不相關(guān)的線(xiàn)性組合Z1,Z2……Zp,并且Z1是X1,X2…Xp的線(xiàn)性組合中方差最大者,Z2是與Z1不相關(guān)的線(xiàn)性組合中方差最大者,…,Zp是與Z1,Z2……Zp-1都不相關(guān)的線(xiàn)性組合中方差最大者。(三)主成分分析法基本步驟第一步:設估計樣本數為n,選取的財務(wù)指標數為p,則由估計樣本的原始數據可得矩陣X=(xij)m*p,其中xij表示第i家上市公司
主成分分析也稱(chēng)主分量分析,旨在利用降維的思想,把多指標轉化為少數幾個(gè)綜合指標。
在統計學(xué)中,主成分分析(principal components analysis,PCA)是一種簡(jiǎn)化數據集的技術(shù)。它是一個(gè)線(xiàn)性變換。
這個(gè)變換把數據變換到一個(gè)新的坐標系統中,使得任何數據投影的第一大方差在第一個(gè)坐標(稱(chēng)為第一主成分)上,第二大方差在第二個(gè)坐標(第二主成分)上,依次類(lèi)推。主成分分析經(jīng)常用減少數據集的維數,同時(shí)保持數據集的對方差貢獻最大的特征.這是通過(guò)保留低階主成分,忽略高階主成分做到的。
這樣低階成分往往能夠保留住數據的最重要方面.但是,這也不是一定的,要視具體應用而定。.。
一、主成分分析 1、簡(jiǎn)介 在用統計分析方法研究這個(gè)多變量的課題時(shí),變量個(gè)數太多就會(huì )增加課題的復雜性。
人們自然希望變量個(gè)數較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。
主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。 2、原理 設法將原來(lái)變量重新組合成一組新的互相無(wú)關(guān)的幾個(gè)綜合變量,同時(shí)根據實(shí)際需要從中可以取出幾個(gè)較少的綜合變量盡可能多地反映原來(lái)變量的信息的統計方法叫做主成分分析或稱(chēng)主分量分析,也是數學(xué)上處理降維的一種方法。
二、主成分分析的基本思想及步驟 1、基本思想 主成分分析是設法將原來(lái)眾多具有一定相關(guān)性(比如P個(gè)指標),重新組合成一組新的互相無(wú)關(guān)的綜合指標來(lái)代替原來(lái)的指標。通常數學(xué)上的處理就是將原來(lái)P個(gè)指標作線(xiàn)性組合,作為新的綜合指標。
最經(jīng)典的做法就是用F1(選取的第一個(gè)線(xiàn)性組合,即第一個(gè)綜合指標)的方差來(lái)表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線(xiàn)性組合中選取的F1應該是方差最大的,故稱(chēng)F1為第一主成分。
如果第一主成分不足以代表原來(lái)P個(gè)指標的信息,再考慮選取F2即選第二個(gè)線(xiàn)性組合,為了有效地反映原來(lái)信息,F1已有的信息就不需要再出現在F2中,用數學(xué)語(yǔ)言表達就是要求Cov(F1, F2)=0,則稱(chēng)F2為第二主成分,依此類(lèi)推可以構造出第三、第四,……,第P個(gè)主成分。 2、步驟 Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值所對應的特征向量,ZX1, ZX2, ……, ZXp是原始變量經(jīng)過(guò)標準化處理的值,因為在實(shí)際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數據標準化,本文所采用的數據就存在量綱影響[注:本文指的數據標準化是指Z標準化]。
A=(aij)p*m=(a1,a2,…am,),Rai=λiai,R為相關(guān)系數矩陣,λi、ai是相應的特征值和單位特征向量,λ1≥λ2≥…≥λp≥0 。 進(jìn)行主成分分析主要步驟如下: 1. 指標數據標準化(SPSS軟件自動(dòng)執行); 2. 指標之間的相關(guān)性判定; 3. 確定主成分個(gè)數m; 4. 主成分Fi表達式; 5. 主成分Fi命名;。
主成分分析就是將多項指標轉化為少數幾項綜合指標,用綜合指標來(lái)解釋多變量的方差- 協(xié)方差結構。
綜合指標即為主成分。所得出的少數幾個(gè)主成分,要盡可能多地保留原始變量的信息,且彼此不相關(guān)。
因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數幾個(gè)因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統計分析方法。聚類(lèi)分析是依據實(shí)驗數據本身所具有的定性或定量的特征來(lái)對大量的數據進(jìn)行分組歸類(lèi)以了解數據集的內在結構,并且對每一個(gè)數據集進(jìn)行描述的過(guò)程。
其主要依據是聚到同一個(gè)數據集中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。三種分析方法既有區別也有聯(lián)系,本文力圖將三者的異同進(jìn)行比較,并舉例說(shuō)明三者在實(shí)際應用中的聯(lián)系,以期為更好地利用這些高級統計方法為研究所用有所裨益。
二、基本思想的異同(一) 共同點(diǎn) 主成分分析法和因子分析法都是用少數的幾個(gè)變量(因子) 來(lái)綜合反映原始變量(因子) 的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數的幾個(gè)新變量,可信度也很高,也可以有效地解釋問(wèn)題。并且新的變量彼此間互不相關(guān),消除了多重共線(xiàn)性。
這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線(xiàn)性組合,如原始變量為x1 ,x2 ,. . . ,x3 ,經(jīng)過(guò)坐標變換,將原有的p個(gè)相關(guān)變量xi 作線(xiàn)性變換,每個(gè)主成分都是由原有p 個(gè)變量線(xiàn)性組合得到。
在諸多主成分Zi 中,Z1 在方差中占的比重最大,說(shuō)明它綜合原有變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數幾個(gè)公共因子去解釋較多個(gè)要觀(guān)測變量中存在的復雜關(guān)系,它不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子與特殊因子兩部分。
公共因子是由所有變量共同具有的少數幾個(gè)因子;特殊因子是每個(gè)原始變量獨自具有的因子。對新產(chǎn)生的主成分變量及因子變量計算其得分,就可以將主成分得分或因子得分代替原始變量進(jìn)行進(jìn)一步的分析,因為主成分變量及因子變量比原始變量少了許多,所以起到了降維的作用,為我們處理數據降低了難度。
聚類(lèi)分析的基本思想是: 采用多變量的統計值,定量地確定相互之間的親疏關(guān)系,考慮對象多因素的聯(lián)系和主導作用,按它們親疏差異程度,歸入不同的分類(lèi)中一元,使分類(lèi)更具客觀(guān)實(shí)際并能反映事物的內在必然聯(lián)系。也就是說(shuō),聚類(lèi)分析是把研究對象視作多維空間中的許多點(diǎn),并合理地分成若干類(lèi),因此它是一種根據變量域之間的相似性而逐步歸群成類(lèi)的方法,它能客觀(guān)地反映這些變量或區域之間的內在組合關(guān)系[3 ]。
聚類(lèi)分析是通過(guò)一個(gè)大的對稱(chēng)矩陣來(lái)探索相關(guān)關(guān)系的一種數學(xué)分析方法,是多元統計分析方法,分析的結果為群集。對向量聚類(lèi)后,我們對數據的處理難度也自然降低,所以從某種意義上說(shuō),聚類(lèi)分析也起到了降維的作用。
(二) 不同之處 主成分分析是研究如何通過(guò)少數幾個(gè)主成分來(lái)解釋多變量的方差一協(xié)方差結構的分析方法,也就是求出少數幾個(gè)主成分(變量) ,使它們盡可能多地保留原始變量的信息,且彼此不相關(guān)。它是一種數學(xué)變換方法,即把給定的一組變量通過(guò)線(xiàn)性變換,轉換為一組不相關(guān)的變量(兩兩相關(guān)系數為0 ,或樣本向量彼此相互垂直的隨機變量) ,在這種變換中,保持變量的總方差(方差之和) 不變,同時(shí)具有最大方差,稱(chēng)為第一主成分;具有次大方差,稱(chēng)為第二主成分。
依次類(lèi)推。若共有p 個(gè)變量,實(shí)際應用中一般不是找p 個(gè)主成分,而是找出m (m 因子分析是尋找潛在的起支配作用的因子模型的方法。
因子分析是根據相關(guān)性大小把變量分組,使得同組內的變量之間相關(guān)性較高,但不同的組的變量相關(guān)性較低,每組變量代表一個(gè)基本結構,這個(gè)基本結構稱(chēng)為公共因子。對于所研究的問(wèn)題就可試圖用最少個(gè)數的不可測的所謂公共因子的線(xiàn)性函數與特殊因子之和來(lái)描述原來(lái)觀(guān)測的每一分量。
通過(guò)因子分析得來(lái)的新變量是對每個(gè)原始變量進(jìn)行內部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進(jìn)行分解,分解為公共因子和特殊因子兩部分。
具體地說(shuō),就是要找出某個(gè)問(wèn)題中可直接測量的具有一定相關(guān)性的諸指標,如何受少數幾個(gè)在專(zhuān)業(yè)中有意義、又不可直接測量到、且相對獨立的因子支配的規律,從而可用各指標的測定來(lái)間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
聚類(lèi)分析算法是給定m 維空間R 中的n 個(gè)向量,把每個(gè)向量歸屬到k 個(gè)聚類(lèi)中的某一個(gè),使得每一個(gè)向量與其聚類(lèi)中心的距離最小。聚類(lèi)可以理解為: 類(lèi)內的相關(guān)性盡量大,類(lèi)間相關(guān)性盡量小。
聚類(lèi)問(wèn)題作為一種無(wú)指導的學(xué)習問(wèn)題,目的在于通過(guò)把原來(lái)的對象集合分成相似的組或簇,來(lái)獲得某種內在的數據規律。從三類(lèi)分析的基本思想可以看出,聚類(lèi)分析中并沒(méi)于產(chǎn)生新變量,但是主成分分析和因子分析都產(chǎn)生了新變量。
三、數據標準化的比較 主成分分析中為了消除量綱和數量級,通常需要將原始數據進(jìn)行標準化,將其轉化為均值為0方差為1 的無(wú)量綱數據。
聲明:本網(wǎng)站尊重并保護知識產(chǎn)權,根據《信息網(wǎng)絡(luò )傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個(gè)月內通知我們,我們會(huì )及時(shí)刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學(xué)習?shū)B(niǎo). 頁(yè)面生成時(shí)間:2.841秒