Drop Column Importance
기계 학습(Machine Learning) 분야의 특성 선택(Feature Selection) 및 모델 해석 과정에서 사용되는 변수 중요도(Feature Importance) 평가 기법이다. 특정 열(Column, 변수 또는 특성)을 데이터셋에서 완전히 제거한 뒤 모델을 재학습시켜, 해당 열의 부재가 모델의 예측 성능에 미치는 영향을 정량적으로 측정한다. 학명으로는 Leave-One-Covariate-Out (LOCO) 인퍼런스 또는 Drop-Feature Importance 등으로 불린다.
평가 메커니즘은 다음과 같이 구성된다.
- 모든 특성이 포함된 전체 데이터셋으로 기준 모델(Baseline Model)을 학습하고 성능 평가 지표(Accuracy, RMSE 등)를 산출한다.
- 중요도를 판별할 특정 열을 데이터셋에서 단일 제거(Drop)한다.
- 축소된 데이터셋을 사용하여 새로운 모델을 처음부터 재학습시킨다.
- 새로운 모델의 성능을 측정하고, 기준 모델의 성능 지표와 비교한다. 성능 하락폭이 클수록 제거된 열의 중요도가 높은 것으로 판별한다.
기계 학습에서 주로 사용되는 세 가지 특성 중요도 평가 기법의 기술적 비교는 아래와 같다.
| 기술적 특성 | Drop Column Importance | Permutation Importance | Impurity-based Importance (Tree) |
|---|---|---|---|
| 작동 원리 | 열 데이터를 물리적으로 제거 후 모델 재학습 | 열 데이터의 순서를 무작위로 섞은(Shuffle) 후 검증 데이터로 성능 하락 측정 | 트리가 분할될 때 발생하는 불순도(Impurity) 감소량의 합을 계산 |
| 계산 비용 (오버헤드) | 매우 높음 (특성 개수 만큼 모델 재학습 필요) | 중간 (재학습 불필요, 검증 데이터 추론만 반복) | 낮음 (모델 학습 과정의 파생 결과물로 자동 획득) |
| 다중공선성(Collinearity) 영향 | 강한 상관관계를 가진 대체 변수가 존재할 경우 중요도가 과소평가(Underestimate) 됨 | 상관관계 변수 존재 시 통계적으로 불가능한 데이터 조합이 생성될 리스크 존재 | 상관관계 변수 중 하나에 중요도가 몰리거나 임의로 분산되는 왜곡 발생 |
| 모델 재학습 여부 | 필수 | 불필요 | 불필요 |
| 데이터 종속성 | 훈련 및 검증 데이터 세트 모두 적용 가능 | 주로 검증(Validation/Test) 데이터에 적용 | 훈련(Train) 데이터에 종속적 (과적합 리스크) |
Drop Column Importance는 특정 특성의 부재가 예측에 미치는 영향을 가장 근본적이고 정확하게 보여주지만, 연산 비용이 극도로 높아 수백 개 이상의 특성을 가진 대규모 데이터셋에서는 실무적 적용이 제한된다.
출처 (Sources):
- Lei, J., G’Sell, M., Rinaldo, A., Tibshirani, R. J., & Wasserman, L. Distribution-Free Predictive Inference for Regression (Leave-One-Covariate-Out Inference). Journal of the American Statistical Association, 2018.
- Howard, J., & Gugger, S. Deep Learning for Coders with fastai and PyTorch (Chapter on Tabular Data and Feature Importance). O’Reilly Media, 2020.
- Scikit-learn Developers. Permutation feature importance vs Random Forest feature importance. Scikit-learn Documentation.