PCA
1. centering
데이터가 이미 중심화되어 있으므로, 중심화 행렬 는 와 동일하다.
표본공분산 행렬 :
2. 고유값(Eigenvalues) 산출
특성방정식 을 푼다.
이때 해는
3. 고유벡터(Eigenvectors) 및 주성분 (PC)
각 고윳값에 대응하는 단위 고유벡터 를 구한다.
4. 결과 해석
전체 분산은 400+100+1=501이다.
- 제1주성분이 전체 변동의 약 79.8% (400/501)
- 제2주성분이 약 19.9% (100/501)
를 설명한다.
데이터는 주로 x1과 x2의 합과 차의 방향으로 분포되어 있음을 알 수 있다.
5. 기하학적 직교성 (Orthogonality)
표본공분산 행렬은 대칭행렬(Symmetric Matrix)이므로, 서로 다른 고윳값에 대응하는 고유벡터는 반드시 직교해야 한다.
즉, 제1주성분이 과 가 같은 방향으로 변하는 축( 방향)을 잡았다면, 제2주성분은 그와 수직인 방향( 방향)을 잡아야 데이터의 남은 변동을 설명할 수 있다.