기계론적 해석 가능성
기계론적 해석 가능성(Mechanistic Interpretability)은 심층 신경망, 특히 거대 언어 모델(LLM)의 내부 동작을 수학적이고 기계적인 수준에서 역공학(Reverse-engineering)하여, 모델이 특정 출력을 산출하는 방식을 인간이 이해할 수 있는 명시적인 알고리즘 형태로 규명하려는 인공지능 연구 분야이다.
이 연구는 모델을 입력과 출력만 존재하는 ‘블랙박스’로 취급하는 것을 거부한다. 대신, 컴파일된 소프트웨어 바이너리 코드를 분석하여 원본 소스 코드를 복원해 내는 보안 분석 과정과 유사하게 작동한다. 연구진은 모델 내부의 가중치(Weights), 개별 뉴런 단위의 활성화(Activations), 어텐션 헤드(Attention Heads)가 상호작용하며 형성하는 논리적 서브 그래프인 ‘회로(Circuits)‘를 발굴한다. 최근에는 신경망이 주어진 차원 수보다 훨씬 더 많은 개념적 특징(Features)을 압축하여 저장하는 현상인 ‘중첩(Superposition)‘을 풀기 위해 희소 오토인코더(SAE, Sparse Autoencoders)를 활용하는 방법론이 핵심 연구로 자리 잡았다.
인공지능의 의사 결정을 설명하기 위해 기존에 주로 활용되던 전통적인 설명 가능 인공지능(Traditional XAI)과 기계론적 해석 가능성 연구의 접근법 차이는 다음과 같다.
| 특징 | 기계론적 해석 가능성 (Mechanistic Interpretability) | 전통적 설명 가능 인공지능 (Traditional XAI / Behavioral) |
|---|---|---|
| 접근 철학 | 상향식(Bottom-up) 구조 탐색 및 신경망 내부 로직의 완벽한 화이트박스(White-box) 역공학 | 하향식(Top-down) 겉현상 관찰 및 입출력 간의 통계적 상관관계를 분석하는 블랙박스(Black-box) 해석 |
| 분석의 최소 단위 | 개별 뉴런, 활성화 벡터의 방향성(Features), 모델 내부에 자생적으로 형성된 논리 회로(Circuits) | 입력 데이터 세트(이미지 픽셀, 프롬프트 토큰)의 특이점 |
| 주요 목적 | 모델이 내부적으로 어떤 연산 과정을 거쳐 해당 결과에 도달했는지 수학적 매커니즘을 투명하게 입증함 | 최종 결과 도출에 있어 외부 입력값 중 어떤 변수가 가장 큰 영향을 미쳤는지 기여도를 추정함 |
| 대표적인 기법 | 사전 기반 학습(Dictionary Learning/SAE), 활성화 패칭(Activation Patching) | SHAP, LIME, 어텐션 가중치 시각화(Attention visualization) |
출처 (Sources):
- Olah, C. (2022), “Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases”. Anthropic. Available at: https://transformer-circuits.pub/2022/mech-interp-essay/index.html
- Elhage, N., et al. (2022), “Toy Models of Superposition”. Anthropic. Available at: https://transformer-circuits.pub/2022/toy_model/index.html
- Gao, L., et al. (2024), “Scaling and evaluating sparse autoencoders”. OpenAI. Available at: https://cdn.openai.com/papers/sparse-autoencoders.pdf