PCA

PCA는 상관관계 있는 반응변수 의 집합을 상관관계 없는 더 작은 집합으로 바꿈. 이 더 작은 직합들의 이름은 principal components. 이는 더 작은 principal components들이 어쩌면 원본 데이터에 들어있는(available) 거의 대부분의 정보를 보유하고 있을지도 모른다는 생각에서 출발함.

  1. Outlier
  2. Cluster
  3. Discriminant: Cov 매트릭스 invert 하려면 필요. 샘플 사이즈 작으면 문제터져서 변수 갯수를 줄임.
  4. Regression: predictors 사이에 multicollinearity 존재하는지 체크
  5. Multivariate Nomality

semi-positive definite

벡터의 매트릭스 의 Cov 매트릭스 , 이의 .

인 열벡터. 이것이 개만큼 존재. , 즉 의 선형결합.

벡터와 스칼라 여부 주의. Transpose 여부 주의. 0이 되는 건 가 orthogonal.

Var가 클수록 정보량 많음. 1번은 분산이 가장 큼. 2번은 분산이 2번째로 크되 1번째의 과 orthogonal 해야함.

  • e.g. .

이를 반복.


1st principal component: .

  • .
  • 이때, 의 정의에 의해 .
  • 를 만족하는 값들 중 를 최대화시키는 값.

2nd principal component: .

  • 는 모든 를 만족하는 녀석.

즉 PC 자체는 로 정해짐. ==이건 proj의 일종인 모양.== 근데 이걸로 정해지는 이유가 상기의 조건을 만족해야 한다는 거고, 해당 체크 조건들을 가 모두 통과할 수 있으므로 이걸 PC로 삼는 것에 문제가 없다는 것.

따라서 kth PC에 의해 유발되는 총 Var의 비율은 .

이인즉 PCA를 거쳐도 p개의 variable 갯수를 유지한다면 설명력의 총합은 동일함. 하지만 우리는 설명력을 1만큼 잃고 변수를 10만큼 줄이기를 원함. 따라서 어느정도 설명력을 잃더라도 그 이상으로 변수의 갯수를 줄이는 선이면 하꼬변수를 쳐냄. 이는 PCA 분석때 기본적으로 분산의 80% 설명을 기준으로 함.

Cov 매트릭스 , PC . 이때 .

다룰 때의 편의를 위해 PC 구성 단계에서 로 구성하는 경우도 잦음.

PC Score. n개의 관측 중에서 r번째 관측의 variable의 벡터를 이라고 설정하자. 그렇다면 . 이때 . 이때 PC Score는 로 추정될 수 있다.

==elbow==

PCA prerequisite

  • variable들이 same unit
  • variable들이 have similar Var

해결책

  • 로 표준화하고 PCA.
  • PCA 자체를 corr 매트릭스에 적용

따라서 이때의 kth PC에 의해 유발되는 총 Var의 비율은 .

을 썼을 때 PC를 어디까지 쓸지를 솎아낼 때는 scree plot이나 인지를 기준으로 한다. 모든 기존 변수들의 분산이 1이므로 최소한의 설명력이 1이라는건데, 1도 안되면 그냥 쓰레기들이므로.

Checking Multivariate Normal: 기존 데이터가 mv normal이라면, 각 PC Score는 normal로 분포되어 있다. 각 PC들을 QQ plot 사용해서 체크하면 답나옴.