SHAP

SHAP(SHapley Additive exPlanations)은 머신러닝 모델의 예측 결과를 설명하는 방법론이다. 이 기법은 협력 게임 이론의 섀플리 값(Shapley value)을 채택하여 수학적 일관성을 제공한다.

작동 방식은 모델의 각 입력 특성(Feature)을 게임에 참여하는 플레이어로 간주하고, 모델의 예측값을 게임의 결과물(보상)로 설정하는 것이다. 특정 입력 특성이 포함되었을 때와 포함되지 않았을 때의 예측값 차이를 계산한다. 이 과정을 모든 가능한 입력 특성 조합에 대해 수행하고 평균을 내어, 각 특성이 특정 예측 결과에 미친 한계 기여도(Marginal contribution)를 정량적 수치로 할당한다.

머신러닝 모델 해석을 위해 주로 사용되는 두 가지 방법론인 SHAP과 LIME(Local Interpretable Model-agnostic Explanations)의 비교 데이터는 다음과 같다.

특성SHAP (SHapley Additive exPlanations)LIME (Local Interpretable Model-agnostic Explanations)
기반 이론협력 게임 이론 (Shapley values)국소적 대리 모델 (Local surrogate models)
이론적 일관성보장됨 (특정 변수의 기여도가 커지는 방향으로 모델이 변하면 해당 변수의 할당값도 반드시 증가함)보장되지 않음
연산 비용높음 (모든 특성 조합을 계산해야 하므로 무거움. 단, TreeSHAP 등 트리 모델 전용 최적화 기법 존재)상대적으로 낮음 (데이터 주변을 샘플링하여 단순 선형 모델을 학습시킴)
설명 범위개별 예측(Local) 및 모델 전체(Global)에 대한 설명 기능 모두 제공주로 개별 예측(Local) 설명에 특화됨

출처:

  1. Lundberg, S. M., & Lee, S. I. (2017). “A Unified Approach to Interpreting Model Predictions.” Advances in Neural Information Processing Systems (NeurIPS).
  2. Molnar, C. (2022). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable.

Entities