PCA
PCA는 상관관계 있는 반응변수 의 집합을 상관관계 없는 더 작은 집합으로 바꿈. 이 더 작은 직합들의 이름은 principal components. 이는 더 작은 principal components들이 어쩌면 원본 데이터에 들어있는(available) 거의 대부분의 정보를 보유하고 있을지도 모른다는 생각에서 출발함.
- Outlier
- Cluster
- Discriminant: Cov 매트릭스 invert 하려면 필요. 샘플 사이즈 작으면 문제터져서 변수 갯수를 줄임.
- Regression: predictors 사이에 multicollinearity 존재하는지 체크
- Multivariate Nomality
semi-positive definite
벡터의 매트릭스 의 Cov 매트릭스 , 이의 .
는 인 열벡터. 이것이 개만큼 존재. , 즉 는 와 의 선형결합.
벡터와 스칼라 여부 주의. Transpose 여부 주의. 0이 되는 건 과 가 orthogonal.
Var가 클수록 정보량 많음. 1번은 분산이 가장 큼. 2번은 분산이 2번째로 크되 1번째의 과 orthogonal 해야함.
- e.g. .
이를 반복.
1st principal component: .
- .
- 이때, 의 정의에 의해 .
- 는 를 만족하는 값들 중 를 최대화시키는 값.
2nd principal component: .
- 는 모든 중 과 를 만족하는 녀석.
즉 PC 자체는 로 정해짐. ==이건 proj의 일종인 모양.== 근데 이걸로 정해지는 이유가 상기의 조건을 만족해야 한다는 거고, 해당 체크 조건들을 가 모두 통과할 수 있으므로 이걸 PC로 삼는 것에 문제가 없다는 것.
따라서 kth PC에 의해 유발되는 총 Var의 비율은 .
이인즉 PCA를 거쳐도 p개의 variable 갯수를 유지한다면 설명력의 총합은 동일함. 하지만 우리는 설명력을 1만큼 잃고 변수를 10만큼 줄이기를 원함. 따라서 어느정도 설명력을 잃더라도 그 이상으로 변수의 갯수를 줄이는 선이면 하꼬변수를 쳐냄. 이는 PCA 분석때 기본적으로 분산의 80% 설명을 기준으로 함.
Cov 매트릭스 , PC . 이때 .
다룰 때의 편의를 위해 PC 구성 단계에서 로 구성하는 경우도 잦음.
PC Score. n개의 관측 중에서 r번째 관측의 variable의 벡터를 이라고 설정하자. 그렇다면 . 이때 . 이때 PC Score는 로 추정될 수 있다.
==elbow==
PCA prerequisite
- variable들이 same unit
- variable들이 have similar Var
해결책
- 로 표준화하고 PCA.
- PCA 자체를 corr 매트릭스에 적용
따라서 이때의 kth PC에 의해 유발되는 총 Var의 비율은 .
을 썼을 때 PC를 어디까지 쓸지를 솎아낼 때는 scree plot이나 인지를 기준으로 한다. 모든 기존 변수들의 분산이 1이므로 최소한의 설명력이 1이라는건데, 1도 안되면 그냥 쓰레기들이므로.
Checking Multivariate Normal: 기존 데이터가 mv normal이라면, 각 PC Score는 normal로 분포되어 있다. 각 PC들을 QQ plot 사용해서 체크하면 답나옴.