PCA

1. centering

데이터가 이미 중심화되어 있으므로, 중심화 행렬 와 동일하다.

표본공분산 행렬 :

2. 고유값(Eigenvalues) 산출

특성방정식 을 푼다.

이때 해는

3. 고유벡터(Eigenvectors) 및 주성분 (PC)

각 고윳값에 대응하는 단위 고유벡터 ​를 구한다.

4. 결과 해석

전체 분산은 400+100+1=501이다.

  • 제1주성분이 전체 변동의 약 79.8% (400/501)
  • 제2주성분이 약 19.9% (100/501)

를 설명한다.

데이터는 주로 x1​과 x2​의 합과 차의 방향으로 분포되어 있음을 알 수 있다.

5. 기하학적 직교성 (Orthogonality)

표본공분산 행렬은 대칭행렬(Symmetric Matrix)이므로, 서로 다른 고윳값에 대응하는 고유벡터는 반드시 직교해야 한다.

즉, 제1주성분이 ​과 ​가 같은 방향으로 변하는 축( 방향)을 잡았다면, 제2주성분은 그와 수직인 방향( 방향)을 잡아야 데이터의 남은 변동을 설명할 수 있다.