Discriminant Analysis, DA

1. 판별분석의 정의 및 목적

정의: 2개 이상의 집단(Group, 모집단)이 알려져 있을 때, 새로운 관측값이 어느 집단에 속할지 특성에 기초하여 이미 알려진 집단 가운데 하나로 분류하는 기법
가정:
1. 모집단에 대한 다변량 정규성
2. 그룹 내 공분산 행렬의 동일성
3. 변수들 간 낮은 다중공선성
목적
1. 분류기(Classifier) 생성: 집단을 가장 잘 구분하는 변수들의 조합(판별식)을 찾음
2. 분류(Classification): 생성된 판별식으로 새로운 데이터를 특정 그룹에 할당.

2. 판별분석의 기하학적 원리

판별분석은 데이터의 차원을 축소하면서 두 집단 간의 겹치는 부분(에러)을 최소화하는 최적의 직선(축)을 찾는 과정

각 그룹별 95% 자료를 포함하는 타원을 그린다.
타원을 교차하는 두 점을 지나는 직선을 그린 후, 이 직선을 새로운 축에 사영(Projection) 시킨다.
사영된 새로운 단일분포 (histogram) 간의 중첩 (겹치는 부분) 을 최소로 하는 직선을 찾는다.

이 직선 (새로운 축) 은 기존의 축 $X_{1}$ 과 $X_{2}$ 의 선형결합이다. 이 직선을 A와 B를 가장 잘 분류하는 **판별식 (분류기)** 라고 부른다.

3. 판별분석의 종류

판별분석은 두 가지 서로 다른 방향에서 해석될 수 있다.

1) Fisher

첫 번째는 데이터의 중심 간에 최대의 분리가 일어나고 동시에 데이터의 각 그룹 내의 변동을 최소화하는 예측변수들의 선형결합(판별식)을 찾는 것이다. 이 방법은 Fisher가 제안한 그룹-내(within-class)공분산 대비 그룹-간(between-class) 공분산을 최대로 하는 예측변수들의 선형결합을 찾는 것과 동일하다.

p차원의 예측변수 X의 공분산 행렬 Σ(n×p행렬)은 군집-내 공분산 W와 군집-간 공분산 B로 다음과 같이 분해된다.

Σ = W + B

2) Bayesian

두 번째는 베이지안 관점으로 주어진 예측변수 x자료를 가장 큰 사후확률을 가지는 군집 또는 사후확률의 분자에 해당하는 식을 최대로 하는 군집으로 분류하는 것이다.

posteror π (y = C_{l} ∣ x) = prior π (y = C_{l}) * likelihood π (x ∣ y = C_{l})

1. LDA (선형판별분석)

조건부분포 $π (x ∣ y = C_{l})$ 에 대해 군집-특정적 평균벡터 $μ_{l}$ 과 공통의 공분산행렬 $Σ$ 를 가지는 다변량 정규분포 $N (μ_{l}, Σ)$ 를 가정한다.

$y$ 가 given되어 있어도 분포는 같고 그룹에 따라 평균벡터 $μ_{l}$ 만 다르므로 다변량 정규분포식과 유사하다고 생각하면 된다.

f (x; μ_{l}, Σ) l o g [f (x; μ_{l}, Σ)] = (2 π)^{- p /2} * d e t (Σ) * e x p [- \frac{1}{2} (x - μ_{l})^{T} Σ^{- 1} (x - μ_{l})] = - \frac{p}{2} l o g (2 π) + l o g (d e t (Σ)) - \frac{1}{2} (x - μ_{l})^{T} Σ^{- 1} (x - μ_{l}) = - \frac{p}{2} l o g (2 π) + l o g (d e t (Σ)) - \frac{1}{2} (x^{T} Σ^{- 1} x - 2 x^{T} Σ^{- 1} μ_{l} + μ_{l}^{T} Σ^{- 1} μ_{l})

사후확률의 분자는

P (y = C_{l} ∣ x) \propto f (x ∣ μ_{l}, Σ) \cdot π (y = C_{l})

여기에 로그 취하면

= = = lo g f (x ∣ μ_{l}, Σ) - \frac{p}{2} l o g (2 π) + l o g (d e t (Σ)) - \frac{1}{2} (x^{T} Σ^{- 1} x - 2 x^{T} Σ^{- 1} μ_{l} + μ_{l}^{T} Σ^{- 1} μ_{l}) 모든 l 에 공통 (제거) - \frac{p}{2} l o g (2 π) + 모든 l 에서 공통 가정, LDA 의 특징 (제거) l o g (d e t (Σ)) - \frac{1}{2} 특정 x 에 대해 모든 x 에서 공통 (제거) x^{T} Σ^{- 1} x - 2 x^{T} Σ^{- 1} μ_{l} + μ_{l}^{T} Σ^{- 1} μ_{l} x^{T} Σ^{- 1} μ_{l} + - \frac{1}{2} (μ_{l}^{T} Σ^{- 1} μ_{l}) + lo g [π (y = C_{l})] + lo g [π (y = C_{l})] + lo g [π (y = C_{l})] + lo g [π (y = C_{l})]

이를 판별함수(discriminant function)이라고 하며, 그룹 간 판별함수의 차이가 판별식이 된다.

판별함수 식이 간단하게 정리된 이유는 판별식을 구할 때 그룹간 동일한 항들은 제거되기 때문이다.

2. QDA (이차판별분석)

조건부분포 $π (x ∣ y = C_{l})$ 에 대해 군집-특정적 평균벡터 $μ_{l}$ 과 공통의 공분산행렬 $Σ_{l}$ 를 가지는 다변량 정규분포 $N (μ_{l}, Σ_{l}$ )를 가정한다.

이 때, 이차판별함수는 아래와 같다.

- 0.5 l o g (det (Σ_{l})) - 0.5 (x - μ_{l})^{T} Σ_{l}^{- 1} (x - μ_{l}) + l o g (π (y = C_{l}))

이후, 각 쌍의 군집 $k$ 와 $l$ 간의 결정 경계(decision boundary)는 이차식으로 표현된다.

QDA가 더 유연하게 자료를 분류한다.

QDA는 LDA (선형 판별 분석) 와 달리 모든 군집(클래스)이 동일한 공분산 행렬을 공유한다고 가정하지 않는다. 대신 각 군집 $k$ 마다 고유한 공분산 행렬 $Σ_{k}$ 를 추정한다.

추정 데이터량: 예측변수(Feature)의 개수를 $p$ , 군집의 개수를 $K$ 라고 할 때:

LDA: 하나의 공분산 행렬 Σ만 추정하면 되므로 약 $p^{2} /2$ 개의 모수를 추정
QDA: 각 군집마다 행렬을 추정하므로 $K \times (p^{2} /2)$ 개의 모수를 추정

판별함수의 연산은 공분산의 역행렬을 반드시 요구한다.

군집별 공분산 행렬 $Σ_{k}$ 가 역행렬( $Σ_{k}^{- 1}$ )을 가지기 위해서는 해당 행렬이 Full Rank 여야만 한다. (=singular matrix 여서는 안된다.)

Full Rank 이기 위해서는, 각 군집 내의 샘플 수 $n_{k}$ 가 예측변수의 수 $p$ 보다 커야만 한다. ( $n_{k} > p$ )

행렬곱의 Rank는 곱해지는 개별 행렬의 Rank보다 클 수 없으므로, $n_{k} < p$ 라면, 데이터 행렬의 Rank는 최대 $n_{k}$ 가 되며, p×p 크기인 공분산 행렬 $Σ_{k}$ 의 Rank 역시 최대 $n_{k}$ 가 된다.

따라서 QDA를 안정적으로 사용하기 위해서는 충분한 양의 데이터(nk≫p)가 확보되어야 한다.

데이터가 부족한 경우에는 LDA를 사용하거나, 공분산 행렬에 편향을 주어 정규화하는 RDA 를 대안으로 사용한다.

3. Regularized DA (일반화 판별분석)

LDA와 QDA 간의 타협적인 방법으로 QDA의 구분된 공분산을 LDA의 공통인 공분산 쪽으로 축소(shrink)를 허용하는 것이다.

Σ (α) = α Σ_{l} + (1 - α) Σ

$Σ$ 는 LDA에서 사용되는 공통의 공분산 행렬
$Σ_{l}$ 은 QDA에서 사용되는 군집-특정적 공분산 행렬

$α$ 는 0과 1 사이의 값. validation set 또는 cross-validation에 기초하여 최적의 성능을 나타내는 값으로 정해진다.

Quartz 5

Explorer

판별분석

1. 판별분석의 정의 및 목적

2. 판별분석의 기하학적 원리

3. 판별분석의 종류

1) Fisher

2) Bayesian

1. LDA (선형판별분석)

2. QDA (이차판별분석)

3. Regularized DA (일반화 판별분석)

Graph View

Table of Contents

Backlinks

Recent Notes

new_note

022. 지도학습

learning

앙상블

부스팅