분포 외 일반화
OOD(Out-of-Distribution) 일반화는 기계학습 모델이 훈련 데이터의 확률 분포와 상이한 테스트 데이터 분포에 대해 성능을 유지하고 정확한 예측을 수행하는 능력을 의미한다.
전통적인 기계학습 표본 학습 이론은 훈련 데이터와 테스트 데이터가 독립적이고 동일한 분포를 가진다는 IID(Independent and Identically Distributed) 가정을 전제로 한다. 그러나 실제 환경에서는 시간, 공간, 측정 장비 등의 변화로 인해 데이터 분포가 변화하므로, IID 가정이 위배되는 OOD 상황을 해결하기 위한 일반화 기술이 필수적으로 요구된다.
ID(In-Distribution)와 OOD(Out-of-Distribution) 비교
ID 상황과 OOD 상황의 기계학습 데이터 환경의 본질적 차이를 아래 표에 요약한다.
| 특성 | In-Distribution (ID) | Out-of-Distribution (OOD) |
|---|---|---|
| 통계적 가정 | IID 조건 만족 | IID 조건 위배 (분포의 이동 발생) |
| 결합 확률 분포 | ||
| 주요 학습 패러다임 | 경험적 위험 최소화 (Empirical Risk Minimization) | 불변 위험 최소화, 강건 최적화 등 |
| 예상 모델 성능 | 높음 (훈련 오차와 테스트 오차의 차이가 작음) | 성능 저하 발생 위험 높음 |
| 직관적 예시 | ’맑은 날’ 보행자 이미지로 훈련 및 평가 | ’맑은 날’ 이미지로 훈련 후 ‘눈 내리는 날’ 이미지로 평가 |
OOD 상황을 유발하는 주요 분포 변화 (Distribution Shift)
OOD 문제는 입출력 변수의 확률 분포 변화 유형에 따라 다음과 같이 분류된다.
- 공변량 변화 (Covariate Shift) 입력 데이터 의 주변 분포는 변하지만, 입력에 대한 출력 의 조건부 분포는 변하지 않는 상태. ( 이며 )
- 라벨 변화 (Label Shift) 출력 데이터 의 주변 분포는 변하지만, 출력에 대한 입력 의 조건부 분포는 변하지 않는 상태. ( 이며 )
- 개념 변화 (Concept Drift) 데이터의 특성은 동일하게 유지되나, 입력 요소 에 매핑되는 정답 의 조건부 확률 규칙 자체가 변경되는 상태. ()
OOD 일반화 달성을 위한 주요 접근법
OOD 데이터에 대한 강건성을 확보하기 위해 서구권 학계를 중심으로 다음과 같은 방법론들이 연구되고 있다.
- 불변 위험 최소화 (Invariant Risk Minimization, IRM) 다양한 훈련 환경(Domain) 전반에 걸쳐 불변하는(Invariant) 인과적(Causal) 상관관계를 학습하는 방법이다. 훈련 데이터 내에 존재하는 허위 상관관계(Spurious Correlation)를 무시하고 인과적 특성을 추출한다.
- 도메인 일반화 (Domain Generalization) 여러 도메인의 훈련 데이터를 활용하여, 특정 도메인에 종속되지 않는 공통 특성 표현(Representation)을 학습하는 방법론이다.
- 분포적 강건 최적화 (Distributionally Robust Optimization, DRO) 주어진 훈련 분포를 중심으로 하는 불확실성 집합(Uncertainty set)을 정의하고, 해당 집합 내에서 가장 최악의 분포(Worst-case distribution)에 대한 손실을 최소화하는 하향식 최적화 기법이다.
출처 (Sources)
- Shen, Z., Liu, J., He, Y., Zhang, X., Xu, R., Yu, H., & Cui, P. (2021). “Towards Out-Of-Distribution Generalization: A Survey.” arXiv preprint arXiv:2108.13624.
- Arjovsky, M., Bottou, L., Gulrajani, I., & Lopez-Paz, D. (2019). “Invariant Risk Minimization.” arXiv preprint arXiv:1907.02893. (New York University & Facebook AI Research).
- Quiñonero-Candela, J., Sugiyama, M., Schwaighofer, A., & Lawrence, N. D. (2008). Dataset Shift in Machine Learning. MIT Press.