主成分分析法

主成分分析法

數學術語
主成分分析也稱主分量分析,旨在利用降維的思想,把多指标轉化為少數幾個綜合指标(即主成分),其中每個主成分都能夠反映原始變量的大部分信息,且所含信息互不重複。這種方法在引進多方面變量的同時将複雜因素歸結為幾個主成分,使問題簡單化,同時得到的結果更加科學有效的數據信息。在實際問題研究中,為了全面、系統地分析問題,必須考慮衆多影響因素。這些涉及的因素一般稱為指标,在多元統計分析中也稱為變量。因為每個變量都在不同程度上反映了所研究問題的某些信息,并且指标之間彼此有一定的相關性,因而所得的統計數據反映的信息在一定程度上有重疊。主要方法有特征值分解,SVD,NMF等。
    中文名:主成分分析法 外文名: 定義: 英文名:principal component analysis 簡稱:PCA 實質:數學變換的方法

簡介

多元分析的一個重要問題是用少數幾個指标來表示多個變量的變動。主成分分析法是處理這種問題的一個方法,其用意在于重新組織數據後使變量的維數顯著降低,而信息損失盡可能少,以便在低維子空間上順利研究有關問題,辦法是用原變量的線性組合作為新變量,并從中選出若幹方差較大的,且互不相關的以代替原變量。

主要目的

是希望用較少的變量去解釋原來資料中的大部分變量,将許多相關性很高的變量轉化成彼此相互獨立或不相關的變量。通常是選出比原始變量個數少,能解釋大部分資料中變量的幾個新變量,即所謂主成分,并用以解釋資料的綜合性指标。由此可見,主成分分析實際上是一種降維方法。

分析步驟

數據标準化;

相關系數矩陣;

一系列正交變換,使非對角線上的數置0,加到主對角上;

得特征根系(即相應那個主成分引起變異的方差),并按照從大到小的順序把特征根排列;

求各個特征根對應的特征向量;

用下式計算每個特征根的貢獻率Vi;

Vi=xi/(x1+x2+........)

根據特征根及其特征向量解釋主成分物理意義。

應用分析

應用

在社會調查中,對于同一個變量,研究者往往用多個不同的問題來測量一個人的意見。這些不同的問題構成了所謂的測度項,它們代表一個變量的不同方面。主成分分析法被用來對這些變量進行降維處理,使它們“濃縮”為一個變量,稱為因子。

在用主成分分析法進行因子求解時,最多可以得到與測度項個數一樣多的因子。如果保留所有的因子,就起不到降維的目的了。但是因子的大小排列,可以對它們進行舍取。哪有那麼多小的因子需要舍棄呢?在一般的行為研究中,常常用到的判斷方法有兩個:特征根大于1法與碎石坡法。

因為因子中的信息可以用特征根來表示,所以有特征根大于1這個規則。如果一個因子的特征根大于1就保留,否則抛棄。這個規則,雖然簡單易用,卻隻是一個經驗法則(rule of thumb),沒有明确的統計檢驗。不幸的是,統計檢驗的方法在實際中并不比這個經驗法則更有效(Gorsuch,1983)。所以這個經驗法則至今仍是最常用的法則。作為一個經驗法則,它不總是正确的。它會高估或者低估實際的因子個數。它的适用範圍是20-40個的測度項,每個理論因子對應3-5個測度項,并且樣本量是大的(3100)。

碎石坡法是一種看圖方法。如果以因子的次序為X軸、以特征根大小為Y軸,可以把特征根随因子的變化畫在一個坐标上,因子特征根呈下降趨勢。這個趨勢線的頭部快速下降,而尾部則變得平坦。從尾部開始逆向對尾部畫一條回歸線,遠高于回歸線的點代表主要的因子,回歸線兩旁的點代表次要因子。但是碎石坡法往往高估因子的個數。這種方法相對于第一種方法更不可靠,所以在實際研究中一般不用。

抛棄小因子、保留大因子之後,降維的目的就達到了。

因子旋轉

在對社會調查數據進行分析時,除了把相關的問題綜合成因子并保留大的因子,研究者往往還需要對因子與測度項之間的關系進行檢驗,以确保每一個主要的因子(主成分)對應于一組意義相關的測度項。為了更清楚的展現因子與測度項之間的關系,研究者需要進行因子旋轉。常見的旋轉方法是VARIMAX旋轉。旋轉之後,如果一個測度項與對應的因子的相關度很高(>0.5)就被認為是可以接受的。如果一個測度項與一個不對應的因子的相關度過高(>0.4),則是不可接受的,這樣的測度項可能需要修改或淘汰。

用主成分分析法得到因子,并用因子旋轉分析測度項與因子關系的過程往往被稱為探索性因子分析

在探索性因子分析被接受之後,研究者可以對這些因子之間的關系進行進一步測試,比如用結構方程分析來做假設檢驗。

問題

1問題的提出主成分分析是一種降維的方法,便于分析問題,在諸多領域中都有廣泛的應用。但有些教科書與論文使用主成分分析時,出現了一些錯誤與不足,不能解決實際問題。如一些多元統計分析的教材中,用協方差矩陣的主成分分析出現了如下錯誤與不足:①沒有明确和判斷該數據降維的條件是否成立。②主成分系數的平方和不為1。③沒有明确和判斷所用數據是否适合作單獨的主成分分析。④選取的主成分對原始變量沒有代表性。以下從相關性等理論與結果上依次解決上述問題,并給出相應建議。2數據在行為與心理研究中,常常要求分析某種身份的人的行為特征,如本例中的小學生的日常行為特征,從而根據這些特征引導小學生向更積極的行為态度發展。這裡用文獻[1]的數據見表1,其來自某課題組的調查結果。課題組對北方某小學480名5~6年級學生的日常行為進行調查,共調查了11項指标如下:S1~對老師提問的反應、S2~對班級事務的關心、S3~自習課上的表現、S4~對家庭作業的态度、S5~關心同學的程度、S6~對待勞動的态度、S7~學習上的特殊興趣、S8~對待體育鍛煉的态度、S9~在娛樂上的偏好、S10~解決問題的思考方式、S11~對未來的打算。

主成分分析法和層次分析法異同

1.基于相關性分析的指标篩選原理

兩個指标之間的相關系數,反映了兩個指标之間的相關性。相關系數越大,兩個指标反映的信息相關性就越高。而為了使評價指标體系簡潔有效,就需要避免指标反映信息重複。通過計算同一準則層中各個評價指标之間的相關系數,删除相關系數較大的指标,避免了評價指标所反映的信息重複。通過相關性分析,簡化了指标體系,保證了指标體系的簡潔有效。

2.基于主成分分析的指标篩選原理

(1)因子載荷的原理

通過對剩餘多個指标進行主成分分析,得到每個指标的因子載荷。因子載荷的絕對值小于等于1,而絕對值越是趨向于1,指标對評價結果越重要。

(2)基于主成分分析的指标篩選原理

因子載荷反映指标對評價結果的影響程度,因子載荷絕對值越大表示指标對評價結果越重要,越應該保留;反之,越應該删除。1通過對相關性分析篩選後的指标進行主成分分析,得到每個指标的因子載荷,從而删除因子載荷小的指标,保證篩選出重要的指标。

3.相關性分析和主成分分析相同點

一是,基于相關性分析的指标篩選和基于主成分分析的指标篩選,均是在準則層内進行指标的篩選處理,準則層之間不進行篩選。這種做法的原因是,通過人為地劃分不同準則層,反映評價事物不同層面的狀況,避免誤删反應信息不同的重要指标。

二是,基于相關性分析的指标篩選和基于主成分分析的指标篩選的思路,均是篩選出少量具有代表性的指标。

4.相關性分析和主成分分析不同點

一是,兩次篩選的目的不同:基于相關性分析的指标篩選的目的是删除反應信息冗餘的評價指标。基于主成分分析的指标篩選的目的是删除對評價結果影響較小的評價指标。

二是,兩次篩選的作用不同:基于相關性分析的指标篩選的作用是保證蹄選出的評價指标體系簡潔明快。基于主成分分析的指标簡選的目的是篩選出重要的指标。

相關詞條

相關搜索

其它詞條