080. PCA

PCA

PCA는 상관관계 있는 반응변수 $y$ 의 집합을 상관관계 없는 더 작은 집합으로 바꿈. 이 더 작은 직합들의 이름은 principal components. 이는 더 작은 principal components들이 어쩌면 원본 데이터에 들어있는(available) 거의 대부분의 정보를 보유하고 있을지도 모른다는 생각에서 출발함.

Outlier
Cluster
Discriminant: Cov 매트릭스 invert 하려면 필요. 샘플 사이즈 작으면 $(n < p)$ 문제터져서 변수 갯수를 줄임.
Regression: predictors 사이에 multicollinearity 존재하는지 체크
Multivariate Nomality

semi-positive definite

벡터의 매트릭스 $X_{1 \times p}$ 의 Cov 매트릭스 $Σ$ , 이의 $e v$ $λ_{1} \leq \dots \leq λ_{p} \leq 0$ .

$a_{i}^{'}$ 는 $p \times 1$ 인 열벡터. 이것이 $i = 1 p$ 개만큼 존재. $Y_{i} = a_{i}^{'} X_{i}$ , 즉 $Y$ 는 $a$ 와 $X$ 의 선형결합.

C o v (Y_{1}, Y_{2}) = C o v (a_{1}^{'} X, a_{2}^{'} X) = a_{1}^{'} Σ a_{2} (= 0)

벡터와 스칼라 여부 주의. Transpose 여부 주의. 0이 되는 건 $a_{1}^{'}$ 과 $a_{2}$ 가 orthogonal.

Var가 클수록 정보량 많음. 1번은 분산이 가장 큼. 2번은 분산이 2번째로 크되 1번째의 $a_{1} X$ 과 orthogonal 해야함.

e.g. $C o v (a_{1}^{'} X a_{2}^{'} X)$ .

이를 반복.

1st principal component: $= e_{1}^{'} X$ .

$Va r (e_{1}^{'} X) = e_{1}^{'} Σ e_{1} = λ_{1}$ .
이때, $e v$ 의 정의에 의해 $Σ e_{1} = λ_{1} e_{1}$ .
$Va r (e_{1}^{'} X)$ 는 $e_{1}^{'} e_{1}$ 를 만족하는 값들 중 $Va r (e_{1}^{'} X)$ 를 최대화시키는 값.

2nd principal component: $= e_{2}^{'} X$ .

$Va r (e_{2}^{'} X) = e_{2}^{'} Σ e_{2} = λ_{2}$ 는 모든 $a_{2}^{'} X$ 중 $C o v (e_{1}^{'} X_{1} a_{2}^{'} X) = 0$ 과 $e_{2}^{'} e_{2}$ 를 만족하는 녀석.

즉 PC 자체는 $e_{i}^{'} X$ 로 정해짐. ==이건 proj의 일종인 모양.== 근데 이걸로 정해지는 이유가 상기의 조건을 만족해야 한다는 거고, 해당 체크 조건들을 $e_{i}^{'} X$ 가 모두 통과할 수 있으므로 이걸 PC로 삼는 것에 문제가 없다는 것.

i = 1 \sum p Va r (X_{i}) = t r (Σ) = σ_{11} + σ_{22} + \dots + σ_{pp} = λ_{1} + λ_{2} + \dots + λ_{p} = i = 1 \sum p Va r (Y_{i})

따라서 kth PC에 의해 유발되는 총 Var의 비율은 $\frac{λ _{k}}{\sum _{i = 1}^{p} λ _{i}} = \frac{λ _{k}}{\sum _{i = 1}^{p} Va r ( X _{i} )}$ .

이인즉 PCA를 거쳐도 p개의 variable 갯수를 유지한다면 설명력의 총합은 동일함. 하지만 우리는 설명력을 1만큼 잃고 변수를 10만큼 줄이기를 원함. 따라서 어느정도 설명력을 잃더라도 그 이상으로 변수의 갯수를 줄이는 선이면 하꼬변수를 쳐냄. 이는 PCA 분석때 기본적으로 분산의 80% 설명을 기준으로 함.

Cov 매트릭스 $Σ$ , PC $Y_{i} = e_{i}^{'} X$ . 이때 $ρ_{Y_{i}, X_{k}} = C orr (Y_{i}, X_{k}) = \frac{e _{ik} λ _{i}}{σ _{kk}}, i, k = 1, \dots, p$ .

다룰 때의 편의를 위해 PC 구성 단계에서 $Y_{i} = e_{i} (X - μ)$ 로 구성하는 경우도 잦음.

PC Score. n개의 관측 중에서 r번째 관측의 variable의 벡터를 $X_{r}$ 이라고 설정하자. 그렇다면 $Y_{r i} = e_{i}^{'} (X_{r} - μ_{r})$ . 이때 $r = 1, \dots, n$ . 이때 PC Score는 $\hat{Y}_{r i} = \hat{e_{i}}^{'} (X_{r} - \overset{μ}{^}_{r})$ 로 추정될 수 있다.

==elbow==

PCA prerequisite

variable들이 same unit
variable들이 have similar Var

해결책

$Z$ 로 표준화하고 PCA. $E (Z) = 0, C o v (Z) = ρ$
PCA 자체를 corr 매트릭스에 적용

i = 1 \sum p Va r (Y_{i}) = i = 1 \sum p Va r (λ_{i}) = t r (ρ) = i = 1 \sum p Va r (Z_{i}) = p

따라서 이때의 kth PC에 의해 유발되는 총 Var의 비율은 $\frac{λ _{k}}{\sum _{i = 1}^{p} λ _{i}} = \frac{λ _{k}}{p}$ .

$C orr$ 을 썼을 때 PC를 어디까지 쓸지를 솎아낼 때는 scree plot이나 $e v > 1$ 인지를 기준으로 한다. 모든 기존 변수들의 분산이 1이므로 최소한의 설명력이 1이라는건데, 1도 안되면 그냥 쓰레기들이므로.

Checking Multivariate Normal: 기존 데이터가 mv normal이라면, 각 PC Score는 normal로 분포되어 있다. 각 PC들을 QQ plot 사용해서 체크하면 답나옴.

Quartz 4

Explorer

080. PCA

PCA

Graph View