Principal Component Analysis

Principal Component Analysis (PCA) 는 차원축소에 가장 유명한 방법론 중 하나. 데이터의 저차원 표현을 통해 데이터를 보여주고 또 해석하는 것이 가능. 이는 Var 의 대부분을 포착 (capture, 설명가능) 한 저차원 subspace 를 탐색해내거나, 혹은 equivalent 하게 분포의 maximal Var component 를 탐색해내는 것으로 성립. 샘플의 finite collection 이 주어졌을 때 PCA 의 empirical form 은 샘플 Cov Matrix 의 상위 evec 의 subset 을 계산해내는 것으로 작동함. 관심대상은 언제 이 evec 들이 population Cov Matrix 의 상위 evec 들에 의해 span 되는 subspace 를 잘 모사해내는가, 그 condition. 초기형 tool 들을 사용해 고차원 상황이랑 non-asymptotic framework 에서 해당 이슈를 살펴보자.







PCA

let , 인 랜덤벡터 . ev Decompostion 을 고려하자. 즉 .^[] ^[diagonal Matrix , entries with ev ]

PCA 에 던지는 질문은 결국 이거다. unit norm vector , 즉 에 대해, 어떤 를 골라야 랜덤변수 의 Var 이 최대화되는가?

더 이론적인 이야기를 해보자. 우리는 를 만족하는 direction 을 찾는 것에 목적을 둔다. 이를 first principal component 라고 부르자. 이를 일반화하면 의 top principal component 를 구성할 수 있다. 이때 각각은 for 를 만족해야 한다.

이 principal component 들은 단순히 의 top evec, 즉, 의 first 개의 column 이 된다. PCA 는 보통 를 작게 잡고 노는 걸 좋아함.

  • Best rank k approximation

PCA 는 low-rank 근사 (approximation) 의 관점으로도 해석될 수 있다. 우리가 rank 가 커봐야 를 찾는다고 하자. 이에 대한 optimal solution 이 이며 임을 알 수 있다.







Matrix Perturbation

실전에서 는 불명이며 PCA 가 적용되는건 언제나 샘플 Cov 이다. 이때 주된 질문은 샘플에서 얻은 ev 와 evec 들이 그들의 population Cov 를 얼마나 잘 근사하는지 하는 것이다. 이 질문에 답하기 위한 tool 들은 아래와 같다.

ev 의 estimation

let . 이때 maimum ev 의 정의에 의해

의 역할이 뒤바뀌었을 때도 동일한 argument 가 성립하므로 동시에 이기도 하다. 이 둘을 합하면 결국 .

이를 더 일반화시키면 이하와 같다.

:::{.theorem name=“Weyl’s inequality”}

where are the ordered ev of . :::

이것이 의미하는 바는 명확함. 의 consistent estimator 라는 이야기. 실제로 SG assumption 하에서, with high probability. 따라서 개별 empirical ev 값은 이 경우에 일 경우 consistent.




evec 의 estimation

ev 는 일반적으로 stable 하지만 evec 의 경우에는 그렇지 않음.







Spiked Cov Model

:::{.definition name=“Spiked Cov model”}

Cov matrix 가 이하의 형을 만족하면 이는 Spiked Covariance Model 를 만족한다 고 불림. 이때 vector spike 라고 명명.

:::

이러한 spiked Cov model 에 있어, , corresponding evec (largest evec) 이라는 관점이 성립하는 것을 note. 의 natural estimate 는 empirical Cov Matrix 의 largest evec . 우리의 목적은 고차원 setting에서 가 얼마나 가까운지 보는 것.

이때 가 symmetric Matrix 의 evec 이라고 하면, 또한 같은 ev 에 묶인 evec. 따라서 우리가 를 estimate 해봐야 최대로 estimate 가능한 종착지는 참값의 sign flip 까지가 한계. This means that we can only estimate up to a sign flip. 이 문제를 해결하기 위해 우리는 2개의 벡터 사이가 얼마나 가까운지 proximity 를 그들 각각의 linear span 사이의 principal angle 이라는 개념을 이용하여 설명한다.

Davis–Kahan thm 은 eigenspace 들 사이의 principal angle 의 에 대한 bound 를 생산함. 이하는 1차원 eigenspace 들 사이의 principal angle 에 대해 사용되는 Davis–Kahan thm 의 간단한 버전.

:::{.theorem name=“Davis–Kahan sin(θ) theorem”}

let .

is pairs of ev and evec of .

is pairs of ev and evec of .

이때

:::

  • Proof:

여기서 Matrix 에 대한 Holder ineq. 를 적용하자. 이때 , i.e. maxiumum ev. 여기서

  1. 이며 이라는 사실 사용
  2. trigonometric identity

따라서 여기에 으로 잡는 것으로

On the other hand,

  1. 의 leading evec 이므로
  2. Holder ineq.
  3. 이며, 와 함께 CS ineq. 사용.

이하는 명확함.

이제 모든 조각을 모으면 이하가 성립.

이는 곧 thm 의 첫번째 부분을 보여줌. 에 대해 결과가 완벽하게 symmetric 이므로 로 대체할 수 있음을 note.

이제 thm 의 2번째 부분만 보이면 됨. 이는 이하의 ineq. 를 통해 성립함이 분명. 이하의 ineq. 는 이므로 성립함.



:::{.theorem name=“Holder’s inequality for matrices”}

let , 그리고 각각의 ev들을 , . 이를 이하와 같이 쓸 수 있다.

이때 .

:::



“Davis–Kahan sin(θ) theorem” 을 thm 5.1 과 조합하는 것으로 이하의 결과를 얻을 수 있음.



:::{.corollary name=“Empirical principal component”}

, 인 랜덤벡터의 sequence , i.e., sequnce of -sub-Gaussian random vectors.

let 샘플 Cov Matrix .

assume spiked Cov model 만족. 그렇다면 의 largest evec 는 이하를 with probability 로 만족.

:::

이 결과를 통해 저차원 상황 () 에서의 PCA 를 진행할 때 population Cov 를 샘플 Cov 로 대체하는 것이 정당화된다.

고차원 상황 () 일 때는 를 써서 PCA 를 진행하면 결과값이 구리다는 것이 증명되어 있다. 실제로 이 0에서 bounded away 되어있는 한, population evec 에 대한 consistent estimator 를 생산할 수 있는 방법 자체가 아예 없다 는 것을 보이는 것이 가능하다. 하지만 evec 에 대해 certain structure 가 존재한다면 고차원에서도 population evec 을 consistently estimate 하는 것이 가능하긴 하다.







sparse PCA

evec 에 sparsity 개념을 도입하자. leading evec -sparse^[vector 안에 들어있는 non-zero elements 의 갯수가 ], 즉 ^[이때 이라고 정의].

이 경우 를 추정하기 위한 natural candidate 는 .

이 estimator 는 이하를 통해 타당화.

:::{.theorem name=“Sparse PCA”}

Corollary 7.4 와 같은 setting 을 생각하자. 여기에 추가로 leading evec 를 만족한다고 assume. 이때 의 k-sparse largest evec 는 with probability 로 이하를 만족.

  • ※ REMARK. 일반적인 PCA 와 달리, k-sparcity 가 만족되었다면, 상황에서도 는 consistent 가능.

:::

  • Detour:

Proof:

thm 7.3 과 동일한 과정을 거쳐

양쪽 모두가 k-sparse 이므로, cardinality 이며, 일 때 를 만족하는 랜덤 set 가 존재한다. 이는 곧 이하를 생산한다.

이때 에 대해, 우리는 에 의해 row 와 col 이 index 되도록 구성된 의 submatrix 를 정의하자. 또 에 대해, 로 그것의 coordinate 가 index 된 x의 sub-vector 를 정의하자. 여기서 Matrix 에 대한 Holder ineq. 를 적용하는 것으로 이하가 생산된다.

이제 thm 7.3 과 동일한 과정을 거치는 것으로 이하의 관계를 얻는다.

증명을 마무리하기 위해 를 control 하는 일이 남아있다. 이를 위해 이하를 보이자.

  1. thm 5.1. 의 증명을 사용.
  2. ineq. (7.2) 에 의해 증명.

이제 충분히 큰 에 대해서, 이하의 식에 의해 에 대해 with probabilty at least 로 desired bound 가 성립하며, 그러한 를 고르면 된다.

Fin.