SHAP
SHAP(SHapley Additive exPlanations)은 머신러닝 모델의 예측 결과를 설명하는 방법론이다. 이 기법은 협력 게임 이론의 섀플리 값(Shapley value)을 채택하여 수학적 일관성을 제공한다.
작동 방식은 모델의 각 입력 특성(Feature)을 게임에 참여하는 플레이어로 간주하고, 모델의 예측값을 게임의 결과물(보상)로 설정하는 것이다. 특정 입력 특성이 포함되었을 때와 포함되지 않았을 때의 예측값 차이를 계산한다. 이 과정을 모든 가능한 입력 특성 조합에 대해 수행하고 평균을 내어, 각 특성이 특정 예측 결과에 미친 한계 기여도(Marginal contribution)를 정량적 수치로 할당한다.
머신러닝 모델 해석을 위해 주로 사용되는 두 가지 방법론인 SHAP과 LIME(Local Interpretable Model-agnostic Explanations)의 비교 데이터는 다음과 같다.
| 특성 | SHAP (SHapley Additive exPlanations) | LIME (Local Interpretable Model-agnostic Explanations) |
|---|---|---|
| 기반 이론 | 협력 게임 이론 (Shapley values) | 국소적 대리 모델 (Local surrogate models) |
| 이론적 일관성 | 보장됨 (특정 변수의 기여도가 커지는 방향으로 모델이 변하면 해당 변수의 할당값도 반드시 증가함) | 보장되지 않음 |
| 연산 비용 | 높음 (모든 특성 조합을 계산해야 하므로 무거움. 단, TreeSHAP 등 트리 모델 전용 최적화 기법 존재) | 상대적으로 낮음 (데이터 주변을 샘플링하여 단순 선형 모델을 학습시킴) |
| 설명 범위 | 개별 예측(Local) 및 모델 전체(Global)에 대한 설명 기능 모두 제공 | 주로 개별 예측(Local) 설명에 특화됨 |
출처:
- Lundberg, S. M., & Lee, S. I. (2017). “A Unified Approach to Interpreting Model Predictions.” Advances in Neural Information Processing Systems (NeurIPS).
- Molnar, C. (2022). Interpretable Machine Learning: A Guide for Making Black Box Models Explainable.