主成分分析是指通過將一組可能存在相關性的變量轉換城一組線性不相關的變量,轉換后的這組變量叫主成分。
主成分分析步驟:1、對原始數(shù)據(jù)標準化,2、計算相關系數(shù),3、計算特征,4、確定主成分,5、合成主成分。
主成分分析的原理是設法將原來變量重新組合成一組新的相互無關的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的總和變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學上處理降維的一種方法。
擴展資料
主成分分析的主要作用
1.主成分分析能降低所研究的數(shù)據(jù)空間的維數(shù)。
2.有時可通過因子負荷aij的結論,弄清X變量間的某些關系。
3.多維數(shù)據(jù)的一種圖形表示方法。
4.由主成分分析法構造回歸模型。即把各主成分作為新自變量代替原來自變量x做回歸分析。
5.用主成分分析篩選回歸變量。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Va(rF1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
參考資料來源:搜狗百科-主成分分析
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。
在統(tǒng)計學中,主成分分析(principal components analysis,PCA)是一種簡化數(shù)據(jù)集的技術。它是一個線性變換。這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征.這是通過保留低階主成分,忽略高階主成分做到的。這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面.但是,這也不是一定的,要視具體應用而定.
原發(fā)布者:暮天一色
(一)主成分分析法的基本思想主成分分析()是利用降維的思想,將多個變量轉化為少數(shù)幾個綜合變量(即主成分),其中每個主成分都是原始變量的線性組合,各主成分之間互不相關,從而這些主成分能夠反映始變量的絕大部分信息,且所含的信息互不重疊。[2]采用這種方法可以克服單一的財務指標不能真實反映公司的財務情況的缺點,引進多方面的財務指標,但又將復雜因素歸結為幾個主成分,使得復雜問題得以簡化,同時得到更為科學、準確的財務信息。(二)主成分分析法代數(shù)模型假設用p個變量來描述研究對象,分別用X1,X2…Xp來表示,這p個變量構成的p維隨機向量為X=(X1,X2…Xp)t。設隨機向量X的均值為μ,協(xié)方差矩陣為Σ。假設X是以n個標量隨機變量組成的列向量,并且μk是其第k個元素的期望值,即,μk=E(xk),協(xié)方差矩陣然后被定義為:Σ=E{(X-E[X])(X-E[X])}=(如圖對X進行線性變化,考慮原始變量的線性組合:Z1=μ11X1+μ12X2+…μ1pXpZ2=μ21X1+μ22X2+…μ2pXp………………Zp=μp1X1+μp2X2+…μppXp主成分是不相關的線性組合Z1,Z2……Zp,并且Z1是X1,X2…Xp的線性組合中方差最大者,Z2是與Z1不相關的線性組合中方差最大者,…,Zp是與Z1,Z2……Zp-1都不相關的線性組合中方差最大者。(三)主成分分析法基本步驟第一步:設估計樣本數(shù)為n,選取的財務指標數(shù)為p,則由估計樣本的原始數(shù)據(jù)可得矩陣X=(xij)m*p,其中xij表示第i家上市公司
主成分分析也稱主分量分析,旨在利用降維的思想,把多指標轉化為少數(shù)幾個綜合指標。
在統(tǒng)計學中,主成分分析(principal components analysis,PCA)是一種簡化數(shù)據(jù)集的技術。它是一個線性變換。
這個變換把數(shù)據(jù)變換到一個新的坐標系統(tǒng)中,使得任何數(shù)據(jù)投影的第一大方差在第一個坐標(稱為第一主成分)上,第二大方差在第二個坐標(第二主成分)上,依次類推。主成分分析經常用減少數(shù)據(jù)集的維數(shù),同時保持數(shù)據(jù)集的對方差貢獻最大的特征.這是通過保留低階主成分,忽略高階主成分做到的。
這樣低階成分往往能夠保留住數(shù)據(jù)的最重要方面.但是,這也不是一定的,要視具體應用而定。.。
一、主成分分析 1、簡介 在用統(tǒng)計分析方法研究這個多變量的課題時,變量個數(shù)太多就會增加課題的復雜性。
人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。
主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。 2、原理 設法將原來變量重新組合成一組新的互相無關的幾個綜合變量,同時根據(jù)實際需要從中可以取出幾個較少的綜合變量盡可能多地反映原來變量的信息的統(tǒng)計方法叫做主成分分析或稱主分量分析,也是數(shù)學上處理降維的一種方法。
二、主成分分析的基本思想及步驟 1、基本思想 主成分分析是設法將原來眾多具有一定相關性(比如P個指標),重新組合成一組新的互相無關的綜合指標來代替原來的指標。通常數(shù)學上的處理就是將原來P個指標作線性組合,作為新的綜合指標。
最經典的做法就是用F1(選取的第一個線性組合,即第一個綜合指標)的方差來表達,即Var(F1)越大,表示F1包含的信息越多。因此在所有的線性組合中選取的F1應該是方差最大的,故稱F1為第一主成分。
如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合,為了有效地反映原來信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1, F2)=0,則稱F2為第二主成分,依此類推可以構造出第三、第四,……,第P個主成分。 2、步驟 Fp=a1iZX1+a2iZX2+……+apiZXp 其中a1i, a2i, ……,api(i=1,……,m)為X的協(xié)方差陣Σ的特征值所對應的特征向量,ZX1, ZX2, ……, ZXp是原始變量經過標準化處理的值,因為在實際應用中,往往存在指標的量綱不同,所以在計算之前須先消除量綱的影響,而將原始數(shù)據(jù)標準化,本文所采用的數(shù)據(jù)就存在量綱影響[注:本文指的數(shù)據(jù)標準化是指Z標準化]。
A=(aij)p*m=(a1,a2,…am,),Rai=λiai,R為相關系數(shù)矩陣,λi、ai是相應的特征值和單位特征向量,λ1≥λ2≥…≥λp≥0 。 進行主成分分析主要步驟如下: 1. 指標數(shù)據(jù)標準化(SPSS軟件自動執(zhí)行); 2. 指標之間的相關性判定; 3. 確定主成分個數(shù)m; 4. 主成分Fi表達式; 5. 主成分Fi命名;。
主成分分析就是將多項指標轉化為少數(shù)幾項綜合指標,用綜合指標來解釋多變量的方差- 協(xié)方差結構。
綜合指標即為主成分。所得出的少數(shù)幾個主成分,要盡可能多地保留原始變量的信息,且彼此不相關。
因子分析是研究如何以最少的信息丟失,將眾多原始變量濃縮成少數(shù)幾個因子變量,以及如何使因子變量具有較強的可解釋性的一種多元統(tǒng)計分析方法。聚類分析是依據(jù)實驗數(shù)據(jù)本身所具有的定性或定量的特征來對大量的數(shù)據(jù)進行分組歸類以了解數(shù)據(jù)集的內在結構,并且對每一個數(shù)據(jù)集進行描述的過程。
其主要依據(jù)是聚到同一個數(shù)據(jù)集中的樣本應該彼此相似,而屬于不同組的樣本應該足夠不相似。三種分析方法既有區(qū)別也有聯(lián)系,本文力圖將三者的異同進行比較,并舉例說明三者在實際應用中的聯(lián)系,以期為更好地利用這些高級統(tǒng)計方法為研究所用有所裨益。
二、基本思想的異同(一) 共同點 主成分分析法和因子分析法都是用少數(shù)的幾個變量(因子) 來綜合反映原始變量(因子) 的主要信息,變量雖然較原始變量少,但所包含的信息量卻占原始信息的85 %以上,所以即使用少數(shù)的幾個新變量,可信度也很高,也可以有效地解釋問題。并且新的變量彼此間互不相關,消除了多重共線性。
這兩種分析法得出的新變量,并不是原始變量篩選后剩余的變量。在主成分分析中,最終確定的新變量是原始變量的線性組合,如原始變量為x1 ,x2 ,. . . ,x3 ,經過坐標變換,將原有的p個相關變量xi 作線性變換,每個主成分都是由原有p 個變量線性組合得到。
在諸多主成分Zi 中,Z1 在方差中占的比重最大,說明它綜合原有變量的能力最強,越往后主成分在方差中的比重也小,綜合原信息的能力越弱。因子分析是要利用少數(shù)幾個公共因子去解釋較多個要觀測變量中存在的復雜關系,它不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子與特殊因子兩部分。
公共因子是由所有變量共同具有的少數(shù)幾個因子;特殊因子是每個原始變量獨自具有的因子。對新產生的主成分變量及因子變量計算其得分,就可以將主成分得分或因子得分代替原始變量進行進一步的分析,因為主成分變量及因子變量比原始變量少了許多,所以起到了降維的作用,為我們處理數(shù)據(jù)降低了難度。
聚類分析的基本思想是: 采用多變量的統(tǒng)計值,定量地確定相互之間的親疏關系,考慮對象多因素的聯(lián)系和主導作用,按它們親疏差異程度,歸入不同的分類中一元,使分類更具客觀實際并能反映事物的內在必然聯(lián)系。也就是說,聚類分析是把研究對象視作多維空間中的許多點,并合理地分成若干類,因此它是一種根據(jù)變量域之間的相似性而逐步歸群成類的方法,它能客觀地反映這些變量或區(qū)域之間的內在組合關系[3 ]。
聚類分析是通過一個大的對稱矩陣來探索相關關系的一種數(shù)學分析方法,是多元統(tǒng)計分析方法,分析的結果為群集。對向量聚類后,我們對數(shù)據(jù)的處理難度也自然降低,所以從某種意義上說,聚類分析也起到了降維的作用。
(二) 不同之處 主成分分析是研究如何通過少數(shù)幾個主成分來解釋多變量的方差一協(xié)方差結構的分析方法,也就是求出少數(shù)幾個主成分(變量) ,使它們盡可能多地保留原始變量的信息,且彼此不相關。它是一種數(shù)學變換方法,即把給定的一組變量通過線性變換,轉換為一組不相關的變量(兩兩相關系數(shù)為0 ,或樣本向量彼此相互垂直的隨機變量) ,在這種變換中,保持變量的總方差(方差之和) 不變,同時具有最大方差,稱為第一主成分;具有次大方差,稱為第二主成分。
依次類推。若共有p 個變量,實際應用中一般不是找p 個主成分,而是找出m (m 因子分析是尋找潛在的起支配作用的因子模型的方法。
因子分析是根據(jù)相關性大小把變量分組,使得同組內的變量之間相關性較高,但不同的組的變量相關性較低,每組變量代表一個基本結構,這個基本結構稱為公共因子。對于所研究的問題就可試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。
通過因子分析得來的新變量是對每個原始變量進行內部剖析。因子分析不是對原始變量的重新組合,而是對原始變量進行分解,分解為公共因子和特殊因子兩部分。
具體地說,就是要找出某個問題中可直接測量的具有一定相關性的諸指標,如何受少數(shù)幾個在專業(yè)中有意義、又不可直接測量到、且相對獨立的因子支配的規(guī)律,從而可用各指標的測定來間接確定各因子的狀態(tài)。因子分析只能解釋部分變異,主成分分析能解釋所有變異。
聚類分析算法是給定m 維空間R 中的n 個向量,把每個向量歸屬到k 個聚類中的某一個,使得每一個向量與其聚類中心的距離最小。聚類可以理解為: 類內的相關性盡量大,類間相關性盡量小。
聚類問題作為一種無指導的學習問題,目的在于通過把原來的對象集合分成相似的組或簇,來獲得某種內在的數(shù)據(jù)規(guī)律。從三類分析的基本思想可以看出,聚類分析中并沒于產生新變量,但是主成分分析和因子分析都產生了新變量。
三、數(shù)據(jù)標準化的比較 主成分分析中為了消除量綱和數(shù)量級,通常需要將原始數(shù)據(jù)進行標準化,將其轉化為均值為0方差為1 的無量綱數(shù)據(jù)。
聲明:本網站尊重并保護知識產權,根據(jù)《信息網絡傳播權保護條例》,如果我們轉載的作品侵犯了您的權利,請在一個月內通知我們,我們會及時刪除。
蜀ICP備2020033479號-4 Copyright ? 2016 學習鳥. 頁面生成時間:2.841秒