Drop Column Importance

기계 학습(Machine Learning) 분야의 특성 선택(Feature Selection) 및 모델 해석 과정에서 사용되는 변수 중요도(Feature Importance) 평가 기법이다. 특정 열(Column, 변수 또는 특성)을 데이터셋에서 완전히 제거한 뒤 모델을 재학습시켜, 해당 열의 부재가 모델의 예측 성능에 미치는 영향을 정량적으로 측정한다. 학명으로는 Leave-One-Covariate-Out (LOCO) 인퍼런스 또는 Drop-Feature Importance 등으로 불린다.

평가 메커니즘은 다음과 같이 구성된다.

  1. 모든 특성이 포함된 전체 데이터셋으로 기준 모델(Baseline Model)을 학습하고 성능 평가 지표(Accuracy, RMSE 등)를 산출한다.
  2. 중요도를 판별할 특정 열을 데이터셋에서 단일 제거(Drop)한다.
  3. 축소된 데이터셋을 사용하여 새로운 모델을 처음부터 재학습시킨다.
  4. 새로운 모델의 성능을 측정하고, 기준 모델의 성능 지표와 비교한다. 성능 하락폭이 클수록 제거된 열의 중요도가 높은 것으로 판별한다.

기계 학습에서 주로 사용되는 세 가지 특성 중요도 평가 기법의 기술적 비교는 아래와 같다.

기술적 특성Drop Column ImportancePermutation ImportanceImpurity-based Importance (Tree)
작동 원리열 데이터를 물리적으로 제거 후 모델 재학습열 데이터의 순서를 무작위로 섞은(Shuffle) 후 검증 데이터로 성능 하락 측정트리가 분할될 때 발생하는 불순도(Impurity) 감소량의 합을 계산
계산 비용 (오버헤드)매우 높음 (특성 개수 만큼 모델 재학습 필요)중간 (재학습 불필요, 검증 데이터 추론만 반복)낮음 (모델 학습 과정의 파생 결과물로 자동 획득)
다중공선성(Collinearity) 영향강한 상관관계를 가진 대체 변수가 존재할 경우 중요도가 과소평가(Underestimate) 됨상관관계 변수 존재 시 통계적으로 불가능한 데이터 조합이 생성될 리스크 존재상관관계 변수 중 하나에 중요도가 몰리거나 임의로 분산되는 왜곡 발생
모델 재학습 여부필수불필요불필요
데이터 종속성훈련 및 검증 데이터 세트 모두 적용 가능주로 검증(Validation/Test) 데이터에 적용훈련(Train) 데이터에 종속적 (과적합 리스크)

Drop Column Importance는 특정 특성의 부재가 예측에 미치는 영향을 가장 근본적이고 정확하게 보여주지만, 연산 비용이 극도로 높아 수백 개 이상의 특성을 가진 대규모 데이터셋에서는 실무적 적용이 제한된다.

출처 (Sources):

  1. Lei, J., G’Sell, M., Rinaldo, A., Tibshirani, R. J., & Wasserman, L. Distribution-Free Predictive Inference for Regression (Leave-One-Covariate-Out Inference). Journal of the American Statistical Association, 2018.
  2. Howard, J., & Gugger, S. Deep Learning for Coders with fastai and PyTorch (Chapter on Tabular Data and Feature Importance). O’Reilly Media, 2020.
  3. Scikit-learn Developers. Permutation feature importance vs Random Forest feature importance. Scikit-learn Documentation.

Entities