Principal Component Analysis
Principal Component Analysis (PCA) 는 차원축소에 가장 유명한 방법론 중 하나. 데이터의 저차원 표현을 통해 데이터를 보여주고 또 해석하는 것이 가능. 이는 Var 의 대부분을 포착 (capture, 설명가능) 한 저차원 subspace 를 탐색해내거나, 혹은 equivalent 하게 분포의 maximal Var component 를 탐색해내는 것으로 성립. 샘플의 finite collection 이 주어졌을 때 PCA 의 empirical form 은 샘플 Cov Matrix 의 상위 evec 의 subset 을 계산해내는 것으로 작동함. 관심대상은 언제 이 evec 들이 population Cov Matrix 의 상위 evec 들에 의해 span 되는 subspace 를 잘 모사해내는가, 그 condition. 초기형 tool 들을 사용해 고차원 상황이랑 non-asymptotic framework 에서 해당 이슈를 살펴보자.
PCA
let , 인 랜덤벡터 . ev Decompostion 을 고려하자. 즉 .^[] ^[diagonal Matrix , entries with ev ]
PCA 에 던지는 질문은 결국 이거다. unit norm vector , 즉 에 대해, 어떤 를 골라야 랜덤변수 의 Var 이 최대화되는가?
더 이론적인 이야기를 해보자. 우리는 를 만족하는 direction 을 찾는 것에 목적을 둔다. 이를 first principal component 라고 부르자. 이를 일반화하면 의 top principal component 를 구성할 수 있다. 이때 각각은 for 를 만족해야 한다.
이 principal component 들은 단순히 의 top evec, 즉, 의 first 개의 column 이 된다. PCA 는 보통 를 작게 잡고 노는 걸 좋아함.
- Best rank k approximation
PCA 는 low-rank 근사 (approximation) 의 관점으로도 해석될 수 있다. 우리가 rank 가 커봐야 인 를 찾는다고 하자. 이에 대한 optimal solution 이 이며 임을 알 수 있다.
Matrix Perturbation
실전에서 는 불명이며 PCA 가 적용되는건 언제나 샘플 Cov 이다. 이때 주된 질문은 샘플에서 얻은 ev 와 evec 들이 그들의 population Cov 를 얼마나 잘 근사하는지 하는 것이다. 이 질문에 답하기 위한 tool 들은 아래와 같다.
ev 의 estimation
let . 이때 maimum ev 의 정의에 의해
와 의 역할이 뒤바뀌었을 때도 동일한 argument 가 성립하므로 동시에 이기도 하다. 이 둘을 합하면 결국 .
이를 더 일반화시키면 이하와 같다.
:::{.theorem name=“Weyl’s inequality”}
where are the ordered ev of . :::
이것이 의미하는 바는 명확함. 는 의 consistent estimator 라는 이야기. 실제로 SG assumption 하에서, with high probability. 따라서 개별 empirical ev 값은 이 경우에 일 경우 consistent.
evec 의 estimation
ev 는 일반적으로 stable 하지만 evec 의 경우에는 그렇지 않음.
Spiked Cov Model
:::{.definition name=“Spiked Cov model”}
Cov matrix 가 이하의 형을 만족하면 이는 Spiked Covariance Model 를 만족한다 고 불림. 이때 vector 는 spike 라고 명명.
:::
이러한 spiked Cov model 에 있어, , corresponding evec (largest evec) 이라는 관점이 성립하는 것을 note. 의 natural estimate 는 empirical Cov Matrix 의 largest evec . 우리의 목적은 고차원 setting에서 와 가 얼마나 가까운지 보는 것.
이때 가 symmetric Matrix 의 evec 이라고 하면, 또한 같은 ev 에 묶인 evec. 따라서 우리가 를 estimate 해봐야 최대로 estimate 가능한 종착지는 참값의 sign flip 까지가 한계. This means that we can only estimate up to a sign flip. 이 문제를 해결하기 위해 우리는 2개의 벡터 사이가 얼마나 가까운지 proximity 를 그들 각각의 linear span 사이의 principal angle 이라는 개념을 이용하여 설명한다.
Davis–Kahan thm 은 eigenspace 들 사이의 principal angle 의 에 대한 bound 를 생산함. 이하는 1차원 eigenspace 들 사이의 principal angle 에 대해 사용되는 Davis–Kahan thm 의 간단한 버전.
:::{.theorem name=“Davis–Kahan sin(θ) theorem”}
let .
is pairs of ev and evec of .
is pairs of ev and evec of .
이때
:::
- Proof:
여기서 Matrix 에 대한 Holder ineq. 를 적용하자. 이때 , i.e. maxiumum ev. 여기서
- 이며 이라는 사실 사용
- trigonometric identity
따라서 여기에 으로 잡는 것으로
On the other hand,
- 이 의 leading evec 이므로
- Holder ineq.
- 이며, 와 함께 CS ineq. 사용.
이하는 명확함.
이제 모든 조각을 모으면 이하가 성립.
이는 곧 thm 의 첫번째 부분을 보여줌. 와 에 대해 결과가 완벽하게 symmetric 이므로 를 로 대체할 수 있음을 note.
이제 thm 의 2번째 부분만 보이면 됨. 이는 이하의 ineq. 를 통해 성립함이 분명. 이하의 ineq. 는 이므로 성립함.
:::{.theorem name=“Holder’s inequality for matrices”}
let , 그리고 각각의 ev들을 , . 이를 이하와 같이 쓸 수 있다.
이때 .
:::
“Davis–Kahan sin(θ) theorem” 을 thm 5.1 과 조합하는 것으로 이하의 결과를 얻을 수 있음.
:::{.corollary name=“Empirical principal component”}
, 인 랜덤벡터의 sequence , i.e., sequnce of -sub-Gaussian random vectors.
let 샘플 Cov Matrix .
assume spiked Cov model 만족. 그렇다면 의 largest evec 는 이하를 with probability 로 만족.
:::
이 결과를 통해 저차원 상황 () 에서의 PCA 를 진행할 때 population Cov 를 샘플 Cov 로 대체하는 것이 정당화된다.
고차원 상황 () 일 때는 를 써서 PCA 를 진행하면 결과값이 구리다는 것이 증명되어 있다. 실제로 이 0에서 bounded away 되어있는 한, population evec 에 대한 consistent estimator 를 생산할 수 있는 방법 자체가 아예 없다 는 것을 보이는 것이 가능하다. 하지만 evec 에 대해 certain structure 가 존재한다면 고차원에서도 population evec 을 consistently estimate 하는 것이 가능하긴 하다.
sparse PCA
evec 에 sparsity 개념을 도입하자. leading evec 가 -sparse^[vector 안에 들어있는 non-zero elements 의 갯수가 ], 즉 ^[이때 이라고 정의].
이 경우 를 추정하기 위한 natural candidate 는 .
이 estimator 는 이하를 통해 타당화.
:::{.theorem name=“Sparse PCA”}
Corollary 7.4 와 같은 setting 을 생각하자. 여기에 추가로 leading evec 가 를 만족한다고 assume. 이때 의 k-sparse largest evec 는 with probability 로 이하를 만족.
- ※ REMARK. 일반적인 PCA 와 달리, k-sparcity 가 만족되었다면, 상황에서도 는 consistent 가능.
:::
- Detour:
Proof:
thm 7.3 과 동일한 과정을 거쳐
와 양쪽 모두가 k-sparse 이므로, cardinality 이며, 일 때 를 만족하는 랜덤 set 가 존재한다. 이는 곧 이하를 생산한다.
이때 에 대해, 우리는 에 의해 row 와 col 이 index 되도록 구성된 의 submatrix 를 정의하자. 또 에 대해, 로 그것의 coordinate 가 index 된 x의 sub-vector 를 정의하자. 여기서 Matrix 에 대한 Holder ineq. 를 적용하는 것으로 이하가 생산된다.
이제 thm 7.3 과 동일한 과정을 거치는 것으로 이하의 관계를 얻는다.
증명을 마무리하기 위해 를 control 하는 일이 남아있다. 이를 위해 이하를 보이자.
- thm 5.1. 의 증명을 사용.
- ineq. (7.2) 에 의해 증명.
이제 충분히 큰 에 대해서, 이하의 식에 의해 에 대해 with probabilty at least 로 desired bound 가 성립하며, 그러한 를 고르면 된다.
Fin.