Heuristic Circuits

LLM(거대 언어 모델)에서의 휴리스틱 회로(Heuristic Circuits)란 모델 내부의 신경망을 역공학하여 작동 원리를 규명하는 기계론적 해석 가능성(Mechanistic Interpretability) 분야에서 사용되는 개념이다. 신경망을 구성하는 특정 어텐션 헤드(Attention Heads)와 다층 퍼셉트론(MLP) 계층들이 상호작용하여 형성하는 논리적 연결 구조(Sub-graph)를 지칭한다.

언어 모델은 문장을 처리할 때 완벽하고 연역적인 논리나 추론 알고리즘을 구동하는 것이 아니다. 대신, 방대한 훈련 데이터를 바탕으로 다음 단어를 빠르고 통계적으로 정확하게 예측하기 위해 특정한 ‘경험적 법칙(Heuristic)‘을 수행하는 서브 네트워크(회로)들을 내부에 스스로 구축한다.

대표적인 연구 사례로 간접 목적어 식별(IOI, Indirect Object Identification) 회로가 있다. “존과 메리가 상점에 갔다. 존은 우유를 [ ? ]에게 주었다”라는 문장에서, 모델은 복잡한 구문 분석을 수행하는 대신 내부의 특정 어텐션 헤드(Name Mover Heads)들을 가동하여 ‘문장에 등장한 이름 중 바로 직전에 사용되지 않은 나머지 이름을 찾아 그대로 복사출력한다’는 일종의 휴리스틱 숏컷(Shortcut) 연산을 수행한다.

데이터를 처리하기 위해 LLM 내부에서 자생적으로 형성된 휴리스틱 회로(Heuristic Circuits)와 인간이 하드코딩한 전통적인 알고리즘의 동작 특성 차이는 다음과 같다.

특징	LLM 휴리스틱 회로 (Heuristic Circuits)	전통적인 소프트웨어 알고리즘 (Traditional Algorithms)
연산의 성질	통계적 패턴 매칭과 경험적 숏컷에 의존하는 근사치 연산	엄밀한 수학 및 논리 연산에 기반한 확정적 처리
해석 가능성	가중치 행렬과 활성화 패턴을 역추적(Reverse-engineering)해야만 부분적인 구조 파악이 가능함	소스 코드 형태로 명시되어 있어 연산의 전체 흐름을 투명하게 확인 가능함
예외 상황 (Failure Mode)	기존 패턴(휴리스틱)에 부합하지 않는 낯선 프롬프트가 주어질 경우 할루시네이션(환각)이나 비논리적 오류가 발생함	사전 정의된 예외 처리(Exception Handling) 구문에 따라 시스템이 통제된 절차를 밟거나 오류 코드를 반환함
일반화 (Generalization)	훈련 데이터에 내재된 편향이나 의도치 않은 패턴(Spurious correlation)까지 얽혀 동작할 확률이 높음	개발자가 지정한 논리적 범위 내에서만 일관되게 동작함

출처 (Sources):

Wang, K., et al. (2022), “Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small”. arXiv preprint. Available at: https://arxiv.org/abs/2211.00593
Elhage, N., et al. (2021), “A Mathematical Framework for Transformer Circuits”. Anthropic. Available at: https://transformer-circuits.pub/2021/framework/index.html
Olah, C. (2022), “Mechanistic Interpretability, Variables, and the Importance of Interpretable Bases”. Anthropic. Available at: https://transformer-circuits.pub/2022/mech-interp-essay/index.html

song-ps

Explorer

Heuristic Circuits

Heuristic Circuits

Entities

Graph View

Table of Contents

Backlinks