070. Principal Component Analysis

Principal Component Analysis

Principal Component Analysis (PCA) 는 차원축소에 가장 유명한 방법론 중 하나. 데이터의 저차원 표현을 통해 데이터를 보여주고 또 해석하는 것이 가능. 이는 Var 의 대부분을 포착 (capture, 설명가능) 한 저차원 subspace 를 탐색해내거나, 혹은 equivalent 하게 분포의 maximal Var component 를 탐색해내는 것으로 성립. 샘플의 finite collection 이 주어졌을 때 PCA 의 empirical form 은 샘플 Cov Matrix 의 상위 evec 의 subset 을 계산해내는 것으로 작동함. 관심대상은 언제 이 evec 들이 population Cov Matrix 의 상위 evec 들에 의해 span 되는 subspace 를 잘 모사해내는가, 그 condition. 초기형 tool 들을 사용해 고차원 상황이랑 non-asymptotic framework 에서 해당 이슈를 살펴보자.

PCA

let $E (X) = 0$ , $C o v (X) = Σ$ 인 랜덤벡터 $X \in R^{d}$ . ev Decompostion 을 고려하자. 즉 $Σ = V Λ V^{'}$ .^[ $V_{d \times d} V^{'} s = V^{'} V = I$ ] ^[diagonal Matrix $λ_{d \times d}$ , entries with ev $λ_{1} \geq \dots \geq λ_{d} \geq 0$ ]

PCA 에 던지는 질문은 결국 이거다. unit norm vector $v$ , 즉 $v \in S^{d - 1} = {v \in R^{d} : ∣∣ v ∣ ∣_{2} = 1}$ 에 대해, 어떤 $v$ 를 골라야 랜덤변수 $v^{'} X$ 의 Var 이 최대화되는가?

더 이론적인 이야기를 해보자. 우리는 $v_{1} = ar g v \in S^{d - 1} max Va r (v^{'} X) = ar g v \in S^{d - 1} max ⟨ v, Σ ⟩$ 를 만족하는 direction $v_{1}$ 을 찾는 것에 목적을 둔다. 이를 first principal component 라고 부르자. 이를 일반화하면 $Σ$ 의 top $k$ principal component ${v_{1}, \dots, v_{k}}$ 를 구성할 수 있다. 이때 각각은 for $2 \leq j \leq k : v_{j} = ar g v \in S^{d - 1}, ⟨ v, Σ v_{i} ⟩ = 0, 1 \leq \forall i \leq j max ⟨ v, Σ ⟩$ 를 만족해야 한다.

이 principal component 들은 단순히 $Σ$ 의 top $k$ evec, 즉, $V$ 의 first $k$ 개의 column 이 된다. PCA 는 보통 $k$ 를 작게 잡고 노는 걸 좋아함.

Best rank k approximation

PCA 는 low-rank 근사 (approximation) 의 관점으로도 해석될 수 있다. 우리가 rank 가 커봐야 $k$ 인 $Z_{d \times d}^{*} = ar g r ank (Z) \leq k min ∣∣Σ Z ∣ ∣_{F}$ 를 찾는다고 하자. 이에 대한 optimal solution 이 $Z^{*} = i = 1 \sum k λ_{1} v_{i} v_{i}^{'}$ 이며 $Σ - Z^{*}_{F}^{2} = i = k + 1 \sum d λ_{i}^{2}$ 임을 알 수 있다.

Matrix Perturbation

실전에서 $Σ$ 는 불명이며 PCA 가 적용되는건 언제나 샘플 Cov $\hat{Σ}$ 이다. 이때 주된 질문은 샘플에서 얻은 ev 와 evec 들이 그들의 population Cov 를 얼마나 잘 근사하는지 하는 것이다. 이 질문에 답하기 위한 tool 들은 아래와 같다.

ev 의 estimation

let $\hat{Σ} = Σ + noise matrix E$ . 이때 maimum ev 의 정의에 의해

λ_{ma x} (\hat{Σ}) = v \in R^{d - 1} max v^{'} (Σ + E) v \leq λ_{ma x} (Σ) + ∣∣ E ∣ ∣_{o p}

$\hat{Σ}$ 와 $Σ$ 의 역할이 뒤바뀌었을 때도 동일한 argument 가 성립하므로 동시에 $λ_{ma x} (Σ) \leq λ_{ma x} (\hat{Σ}) + ∣∣ E ∣ ∣_{o p}$ 이기도 하다. 이 둘을 합하면 결국 $λ_{ma x} (Σ) - λ_{ma x} (\hat{Σ}) \leq ∣∣ E ∣ ∣_{o p}$ .

이를 더 일반화시키면 이하와 같다.

:::{.theorem name=“Weyl’s inequality”}

i = 1, \dots, d max \hat{λ}_{i} - λ_{i} \leq ∣∣ E ∣ ∣_{o p} = ∣∣ \hat{S} i g ma - Σ∣ ∣_{o p}

where $\hat{λ}_{1}, \dots, \hat{λ}_{d}$ are the ordered ev of $\hat{Σ}$ . :::

이것이 의미하는 바는 명확함. $\forall i = 1, \dots, d : ∣∣ \hat{λ} - λ ∣ ∣_{o p} ⟹$ ${\hat{λ}_{i}$ 는 $λ_{i}$ 의 consistent estimator $}$ 라는 이야기. 실제로 SG assumption 하에서, $∣∣ \hat{Σ} - Σ∣∣ ≲ max (\frac{d}{n}, \frac{d}{n})$ with high probability. 따라서 개별 empirical ev 값은 이 경우에 $\frac{d}{n} \to 0$ 일 경우 consistent.

evec 의 estimation

ev 는 일반적으로 stable 하지만 evec 의 경우에는 그렇지 않음.

Spiked Cov Model

:::{.definition name=“Spiked Cov model”}

Cov matrix $Σ \in R^{d \times d}$ 가 이하의 형을 만족하면 이는 Spiked Covariance Model 를 만족한다 고 불림. 이때 vector $v$ 는 spike 라고 명명.

\exists θ > 0, \exists v \in S^{d - 1} : Σ = θ v v^{'} + I_{d}

:::

이러한 spiked Cov model 에 있어, $max (e v) = θ + 1$ , corresponding evec (largest evec) $= v$ 이라는 관점이 성립하는 것을 note. $v$ 의 natural estimate 는 empirical Cov Matrix 의 largest evec $\overset{v}{^}$ . 우리의 목적은 고차원 setting에서 $\overset{v}{^}$ 와 $v$ 가 얼마나 가까운지 보는 것.

이때 $u$ 가 symmetric Matrix 의 evec 이라고 하면, $- u$ 또한 같은 ev 에 묶인 evec. 따라서 우리가 $v$ 를 estimate 해봐야 최대로 estimate 가능한 종착지는 참값의 sign flip 까지가 한계. This means that we can only estimate $v$ up to a sign flip. 이 문제를 해결하기 위해 우리는 2개의 벡터 $u, v$ 사이가 얼마나 가까운지 proximity 를 그들 각각의 linear span 사이의 principal angle 이라는 개념을 이용하여 설명한다.

∠ (u, v) = arccos (u^{'} v)

Davis–Kahan $sin (θ)$ thm 은 eigenspace 들 사이의 principal angle 의 $sin$ 에 대한 bound 를 생산함. 이하는 1차원 eigenspace 들 사이의 principal angle 에 대해 사용되는 Davis–Kahan $sin (θ)$ thm 의 간단한 버전.

:::{.theorem name=“Davis–Kahan sin(θ) theorem”}

let $A_{d \times d}, B_{d \times d} \in PS D$ .

$λ_{1} \geq λ_{2} \geq \dots : (λ_{1}, u_{1}), \dots, (λ_{d,}^{\cdot} u_{d})$ is pairs of ev and evec of $A$ .

$μ_{1} \geq μ_{2} \geq \dots : (μ_{1}, v_{1}), \dots, (μ_{d,}^{\cdot} v_{d})$ is pairs of ev and evec of $B$ .

이때

ϵ \in {\pm 1} min ϵ \cdot u_{1} - v_{1}_{2}^{2} \leq 2 sin (∠ (u_{1}, v_{1})) \leq \frac{2}{max ( λ _{1} - λ _{2} , μ _{1} - μ _{2} )} ∥ A - B ∥_{op} sin^{2} (∠ (u_{1}, v_{1}))

:::

Proof:

여기서 Matrix 에 대한 Holder ineq. 를 적용하자. 이때 $u_{1}^{'} A u_{1} = λ_{1}$ , i.e. maxiumum ev. 여기서

\forall x \in S^{d - 1} : x^{T} A x = x^{T} (i = 1 \sum d λ_{i} u_{i} u_{i}^{⊤}) x = i = 1 \sum d λ_{i} (u_{i}^{⊤} x)^{2} \leq λ_{1} (u_{1}^{⊤} x)^{2} + λ_{2} i = 2 \sum d (u_{i}^{⊤} x)^{2} = (i) λ_{1} (u_{1}^{⊤} x)^{2} + λ_{2} (1 - (u_{1}^{T} x)^{2}) = (ii) λ_{1} cos^{2} (∠ (u_{1}, x)) + λ_{2} sin^{2} (∠ (u_{1}, x)),

$x = i = 1 \sum d u_{u} (u_{i}^{'} x)$ 이며 $x^{'} x = i = 1 \sum d (u_{i}^{'} x)^{2} = 1$ 이라는 사실 사용
trigonometric identity $cos^{2} + sin^{2} = 1$

따라서 여기에 $x = v_{1}$ 으로 잡는 것으로

u_{1}^{⊤} A u_{1} - v_{1}^{⊤} A v_{1} \geq λ_{1} - λ_{1} cos^{2} (∠ (u_{1}, x)) - λ_{2} sin^{2} (∠ (u_{1}, x)) = (λ_{1} - λ_{2}) sin^{2} (∠ (u_{1}, x))

On the other hand,

u_{1}^{T} A u_{1} - v_{1}^{T} A v_{1} = u_{1}^{T} B u_{1} - v_{1}^{T} A v_{1} + u_{1}^{T} (A - B) u_{1} \leq (i) v_{1}^{⊤} B v_{1} - v_{1}^{⊤} A v_{1} + u_{1}^{⊤} (A - B) u_{1} = ⟨ A - B, u_{1} u_{1}^{⊤} - v_{1} v_{1}^{⊤} ⟩ \leq (ii) ∣ ∣ A - B ∣ ∣_{\infty} ∣∣ u_{1} u_{1}^{⊤} - v_{1} v_{1}^{⊤} ∣ ∣_{1} \leq (iii) ∣∣ A - B ∣ ∣_{op} 2 ∣∣ u_{1} u_{1}^{T} - v_{1} v_{1}^{T} ∣ ∣_{2},

$v_{1}$ 이 $B$ 의 leading evec 이므로
Holder ineq.
$∣∣ A - B ∣ ∣_{\infty} = ∣∣ A - B ∣ ∣_{o p}$ 이며, $r ank (u_{1} u_{1}^{'} - v_{1} v_{1}^{'}) \leq 2$ 와 함께 CS ineq. 사용.

이하는 명확함.

∣∣ u_{1} u_{1}^{⊤} - v_{1} v_{1}^{⊤} ∣ ∣_{2}^{2} = 2 - 2 (u_{1}^{⊤} v_{1})^{2} = 2 sin^{2} (∠ (u_{1}, v_{1}))

이제 모든 조각을 모으면 이하가 성립.

(λ_{1} - λ_{2}) sin^{2} (∠ (u_{1}, v_{1})) \leq 2∥ A - B ∥_{op} sin (∠ (u_{1}, v_{1}))

이는 곧 thm 의 첫번째 부분을 보여줌. $A$ 와 $B$ 에 대해 결과가 완벽하게 symmetric 이므로 $λ_{1} - λ_{2}$ 를 $μ_{1} - μ_{2}$ 로 대체할 수 있음을 note.

이제 thm 의 2번째 부분만 보이면 됨. 이는 이하의 ineq. 를 통해 성립함이 분명. 이하의 ineq. 는 $∣ u_{1}^{⊤} v_{1} ∣ \leq ∥ u_{1} ∥_{2} ∥ v_{1} ∥_{2} = 1.$ 이므로 성립함.

ϵ \in {\pm 1} min ∣∣ ϵ u_{1} - v_{1} ∣ ∣_{2}^{2} = 2 - 2∣ u_{1}^{⊤} v_{1} ∣ \leq 2 - 2∣ u_{1}^{⊤} v_{1} ∣^{2} = sin^{2} (2 (u_{1}, v_{1})

:::{.theorem name=“Holder’s inequality for matrices”}

let $A_{d \times d}, B_{d \times d} \in PS D$ , 그리고 각각의 ev들을 $λ_{1}, \dots, λ_{d}$ , $μ_{1}, \dots, μ_{d}$ . 이를 이하와 같이 쓸 수 있다.

∣∣ A ∣ ∣_{p} = (i = 1 \sum d λ_{i}^{p})^{\frac{1}{p}} ∣∣ B ∣ ∣_{q} = (i = 1 \sum d μ_{i}^{q})^{\frac{1}{q}}

이때 $\forall p, q s.t. \frac{1}{p} + \frac{1}{q} = 1, p, q \in [1, \infty] : ⟨ A, B ⟩ = t r (A^{'} B) = t r (B^{'} A) \leq ∣∣ A ∣ ∣_{p} ∣∣ B ∣ ∣_{q}$ .

:::

“Davis–Kahan sin(θ) theorem” 을 thm 5.1 과 조합하는 것으로 이하의 결과를 얻을 수 있음.

:::{.corollary name=“Empirical principal component”}

$E (X_{1}) = 0$ , $Va r (X_{1}) = Σ_{d \times d}$ 인 랜덤벡터의 sequence $X_{1}, \dots, X_{n} \sim ii d \in SG (σ^{2})$ , i.e., sequnce of $σ$ -sub-Gaussian random vectors.

let 샘플 Cov Matrix $\hat{Σ} = \frac{1}{n} \sum_{i = 1}^{n} X_{i} X_{i}^{'}$ .

assume $Σ = θ v v^{'} + I_{d}$ spiked Cov model 만족. 그렇다면 $\hat{Σ}$ 의 largest evec $\overset{v}{^}$ 는 이하를 with probability $1 - δ$ 로 만족.

ϵ \in {\pm 1} min ∣ ∣ ϵ \cdot v - v ∣ ∣_{2} ≲ \frac{1}{θ} max ⎩ ⎨ ⎧ \frac{d + lo g ( \frac{2}{δ} )}{n}, \frac{d + lo g ( \frac{2}{δ} )}{n} ⎭ ⎬ ⎫

:::

이 결과를 통해 저차원 상황 ( $d ≪ n$ ) 에서의 PCA 를 진행할 때 population Cov $Σ$ 를 샘플 Cov $\hat{Σ}$ 로 대체하는 것이 정당화된다.

고차원 상황 ( $d ≫ n$ ) 일 때는 $\hat{Σ}$ 를 써서 PCA 를 진행하면 결과값이 구리다는 것이 증명되어 있다. 실제로 $\frac{d}{n}$ 이 0에서 bounded away 되어있는 한, population evec 에 대한 consistent estimator 를 생산할 수 있는 방법 자체가 아예 없다 는 것을 보이는 것이 가능하다. 하지만 evec 에 대해 certain structure 가 존재한다면 고차원에서도 population evec 을 consistently estimate 하는 것이 가능하긴 하다.

sparse PCA

evec 에 sparsity 개념을 도입하자. leading evec $v$ 가 $k$ -sparse^[vector 안에 들어있는 non-zero elements 의 갯수가 $k$ ], 즉 $∣∣ v ∣ ∣_{0} = i = 1 \sum d ∣ v_{i} ∣^{0} = k$ ^[이때 $0^{0} = 0$ 이라고 정의].

이 경우 $v$ 를 추정하기 위한 natural candidate 는 $\overset{v}{^}_{s p} = ar g u \in S^{d - 1}, ∣∣ u ∣ ∣_{0} = k max u^{'} \hat{Σ} u$ .

이 estimator 는 이하를 통해 타당화.

:::{.theorem name=“Sparse PCA”}

Corollary 7.4 와 같은 setting 을 생각하자. 여기에 추가로 leading evec $v$ 가 $\forall k \leq \frac{d}{2} : ∣∣ v ∣ ∣_{0} \leq k$ 를 만족한다고 assume. 이때 $\hat{Σ}$ 의 k-sparse largest evec $\overset{v}{^}_{s p}$ 는 with probability $1 - δ$ 로 이하를 만족.

ϵ \in {\pm 1} min ∥ ϵ \cdot v_{sp} - v ∥_{2} ≲ \frac{1}{θ} max ⎩ ⎨ ⎧ \frac{k lo g ( \frac{e d}{k} ) + lo g ( \frac{2}{δ} )}{n}, \frac{k lo g ( \frac{e d}{k} ) + lo g ( \frac{2}{δ} )}{n} ⎭ ⎬ ⎫,

※ REMARK. 일반적인 PCA 와 달리, k-sparcity 가 만족되었다면, $d ≫ n$ 상황에서도 $\overset{v}{^}_{s p}$ 는 consistent 가능.

:::

Detour: $1 \leq \forall k \in Z \leq n : (k n) \leq (\frac{e n}{k})^{k}$

Proof:

thm 7.3 과 동일한 과정을 거쳐

$v^{⊤} Σ v - v_{sp}^{⊤} Σ v_{sp} \leq ⟨ Σ - Σ, v_{sp} v_{sp}^{⊤} - v v^{⊤} ⟩$

$v$ 와 $\overset{v}{^}_{s p}$ 양쪽 모두가 k-sparse 이므로, cardinality $∣ S ∣ \leq 2 k$ 이며, $(i, j) \neq = S \times S$ 일 때 ${\overset{v}{^}_{s p} \overset{v}{^}_{s p}^{'} - v v^{'}}_{ij} = 0$ 를 만족하는 랜덤 set $S \subset {1, \dots, d}$ 가 존재한다. 이는 곧 이하를 생산한다.

⟨ Σ - Σ, v_{sp} v_{sp}^{⊺} - v v^{⊤} ⟩ = ⟨ Σ (S) - Σ (S), v_{sp} (S) v_{sp} (S)^{⊺} - v (S) v (S)^{⊺} ⟩

이때 $\forall M_{d \times d}$ 에 대해, 우리는 $S$ 에 의해 row 와 col 이 index 되도록 구성된 $M$ 의 submatrix $M (S)_{∣ S ∣ \times ∣ S ∣}$ 를 정의하자. 또 $\forall \in R^{d}$ 에 대해, $S$ 로 그것의 coordinate 가 index 된 x의 sub-vector $x (S) \in R^{∣ S ∣}$ 를 정의하자. 여기서 Matrix 에 대한 Holder ineq. 를 적용하는 것으로 이하가 생산된다.

v^{⊤} Σ v - v_{sp}^{⊤} Σ v_{sp} \leq Σ (S) - Σ (S)_{op} v_{sp} (S) v_{sp} (S)^{⊤} - v (S) v (S)^{⊤}_{1}

이제 thm 7.3 과 동일한 과정을 거치는 것으로 이하의 관계를 얻는다.

sin (∠ (\overset{v}{^}_{sp}, v)) \leq \frac{2}{θ} S : ∣ S ∣ = 2 k sup \hat{Σ} (S) - Σ (S)_{op}

증명을 마무리하기 위해 $sup_{S : ∣ S ∣ = 2 k} \hat{Σ} (S) - Σ (S)_{o p}$ 를 control 하는 일이 남아있다. 이를 위해 이하를 보이자.

\forall t \geq 0 : P (S : ∣ S ∣ = 2 k sup \hat{Σ} (S) - Σ (S)_{op} \geq t) \leq S : ∣ S ∣ = 2 k \sum P (\hat{Σ} (S) - Σ (S) lo g \geq t) \leq (i) (2 k d) \times 2 \times 9^{2 k} \times exp (- \frac{1}{2} min {\frac{n t}{16 σ ^{2}}, \frac{n t ^{2}}{1 6 ^{2} σ ^{4}}}) \leq (ii) (2 k d) 2 exp (- \frac{1}{2} min {\frac{n t}{16 σ ^{2}}, \frac{n t ^{2}}{1 6 ^{2} σ ^{4}}} + 2 k lo g 9 + k lo g (\frac{e n}{k}))

thm 5.1. 의 증명을 사용.
ineq. (7.2) 에 의해 증명.

이제 충분히 큰 $C > 0$ 에 대해서, 이하의 식에 의해 $t$ 에 대해 with probabilty at least $1 - δ$ 로 desired bound 가 성립하며, 그러한 $t$ 를 고르면 된다.

t \geq C σ^{2} max ⎩ ⎨ ⎧ \frac{k lo g ( \frac{e d}{k} ) + lo g ( \frac{2}{δ} )}{n}, \frac{k lo g ( \frac{e d}{k} ) + lo g ( \frac{2}{δ} )}{n} ⎭ ⎬ ⎫

Fin.

Quartz 4

Explorer