중첩과 희소 오토인코더

중첩(Superposition)과 희소 오토인코더(SAE)는 인공신경망 내부의 블랙박스를 해독하는 기계론적 해석 가능성(Mechanistic Interpretability) 연구에서 각각 ‘근본적인 장애물’과 ‘이를 해결하는 해독 도구’의 역할을 수행하는 핵심 개념이다.

중첩 (Superposition) 중첩은 신경망이 자신이 가진 차원의 수(뉴런 또는 매개변수의 수)보다 훨씬 더 많은 수의 데이터 특징(Features)이나 개념을 벡터(Vector) 공간에 압축하여 저장하는 현상이다. 거대 언어 모델(LLM)은 방대한 세계의 지식을 효율적으로 처리하기 위해, 다수의 독립적인 개념들을 직교하지 않는(Non-orthogonal) 좁은 각도로 겹치게 하여 제한된 차원 안에 밀어 넣는다. 이 압축 과정의 결과로 하나의 개별 뉴런이 ‘사과’, ‘파이썬 코드’, ‘특정 수학 기호’ 등 전혀 무관한 여러 의미에 동시에 반응하는 다의성(Polysemanticity) 문제가 발생한다. 특정 뉴런이 활성화되어도 그것이 정확히 어떤 개념 때문에 반응했는지 역추적할 수 없으므로, 중첩은 모델 해석을 가로막는 가장 큰 수학적 장벽으로 작용한다.

희소 오토인코더 (SAE, Sparse Autoencoders) 희소 오토인코더는 거대 언어 모델의 중첩된 벡터 스페이스를 풀어헤쳐 인간이 읽을 수 있는 ‘사전(Dictionary)’ 형태로 변환하는 비지도 학습 기반의 보조 신경망 도구이다. SAE는 언어 모델 내부의 조밀하게 압축된 활성화 데이터를 입력받아, 차원이 훨씬 더 크지만 활성화 지점은 극도로 적은 ‘희소(Sparse)’ 공간으로 투영한다. 모델에게 한 번에 극소수의 특화된 뉴런만 켜지도록 수학적 제약(L1 정규화 등)을 강제하면, 여러 의미가 섞여 있던 데이터가 단 하나의 명확한 의미만 갖는 단의적(Monosemantic) 특징들로 분리된다. 이를 통해 연구진은 “이 방향의 벡터는 보안 취약점 코드에만 반응한다”라거나 “저 뉴런은 특정 인물의 감정 표현에만 반응한다”는 식의 구체적인 해석을 도출할 수 있다.

중첩 상태가 존재하는 대상 모델(LLM)의 기본 활성화 공간과, 이를 해석하기 위해 SAE를 통과시켜 얻어낸 특성 공간의 구조적 차이는 다음과 같다.

특징	대상 언어 모델 (LLM)의 내부 표현 공간	희소 오토인코더 (SAE)로 변환된 특징 공간
차원(Dimension) 크기	상대적으로 작음 (예: 수천 ~ 수만 차원의 병목 공간)	매우 큼 (원본 대비 수십 단위 배율로 인위적으로 차원을 확장함)
개념의 저장 방식	극심한 중첩(Superposition) 적용	중첩을 해소하여 개념들을 물리적으로 넓게 풀어서 격리함
특성(Feature)의 의미	다의적 (Polysemantic): 단일 뉴런이 복합적인 여러 외부 요인에 의해 무작위로 점화됨	단의적 (Monosemantic): 단일 뉴런이 인간이 인지할 수 있는 단 하나의 구체적 개념(예: ‘골든 리트리버’)에만 반응함
활성화(Activation) 밀도	조밀함 (Dense): 한 번의 연산에 네트워크 내부의 수많은 가중치와 뉴런이 동시에 활성화됨	희소함 (Sparse): 한 번의 연산에 전체 네트워크 중 극소수(보통 1% 미만)의 뉴런만 선별적으로 점화됨

출처 (Sources):

Elhage, N., et al. (2022), “Toy Models of Superposition”. Anthropic. Available at: https://transformer-circuits.pub/2022/toy_model/index.html
Bricken, T., et al. (2023), “Towards Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet”. Anthropic. Available at: https://transformer-circuits.pub/2023/monosemantic-features/index.html
Gao, L., et al. (2024), “Scaling and evaluating sparse autoencoders”. OpenAI. Available at: https://cdn.openai.com/papers/sparse-autoencoders.pdf

song-ps

Explorer

중첩과_희소_오토인코더

중첩과 희소 오토인코더

Entities

Graph View

Table of Contents