Lost in the Middle
거대 언어 모델(LLM) 생태계에서 사용자가 언급한 키워드는 인지 심리학의 특성과 유사한 모델의 정보 처리 한계를 지적하는 ‘중간 소실(Lost in the Middle) 현상’과 이를 평가하기 위한 ‘건초 더미에서 바늘 찾기(Needle in a Haystack)’ 테스트를 포괄하는 개념이다.
-
중간 소실 (Lost in the Middle) 현상 스탠퍼드 대학교(Stanford University)와 UC 버클리(UC Berkeley) 연구진이 논문으로 공식화한 현상이다. LLM에 매우 긴 컨텍스트(문서나 대화 기록)를 입력했을 때, 텍스트의 맨 처음이나 맨 끝에 위치한 정보는 높은 정확도로 검색하고 활용하지만, 문서의 중간 부분에 위치한 정보는 인식하지 못하고 누락하거나 환각(Hallucination)을 일으키는 성능 저하 현상을 뜻한다. 모델의 어텐션(Attention) 메커니즘이 방대한 토큰을 처리하는 과정에서 가중치를 잃고 정보가 희석되기 때문에 발생한다.
-
건초 더미에서 바늘 찾기 (Needle in a Haystack) 테스트 LLM의 문맥 처리(Context Window) 한계를 검증하기 위해 그레그 캄라트(Greg Kamradt)가 고안한 벤치마크 평가 방법이다. 방대한 양의 관련 없는 텍스트 더미(건초 더미) 속에 특정 사실이나 문장(바늘)을 임의의 위치(시작, 중간, 끝 단위의 퍼센티지)에 삽입한 뒤, 모델이 해당 ‘바늘’을 찾아 답변할 수 있는지 측정한다. 이 테스트 결과를 시각화(히트맵 형태)하면 대부분의 모델에서 중간 부분이 붉게(실패) 나타나는 전형적인 ‘Lost in the Middle’ 현상이 관측된다.
긴 입력 문서 내에서 목표 정보가 위치한 구간에 따른 LLM의 정보 검색(Recall) 성능 및 처리 특성을 비교하면 다음과 같다. 인간의 기억 모델인 ‘서열 위치 효과(Serial Position Effect)‘와 매우 유사한 U자형 성능 곡선을 보인다.
| 정보의 위치 | 연관 현상 용어 | 정보 검색(Recall) 성능 | LLM 어텐션 메커니즘(Attention Mechanism) 특성 |
|---|---|---|---|
| 시작 (Beginning) | 초두 효과 (Primacy Effect) | 매우 높음 | 초기 토큰은 절대적 위치 인코딩 시스템 안에서 프롬프트의 전제 조건 및 기준으로 작용하여 강력한 어텐션 가중치를 부여받아 유지됨 |
| 중간 (Middle) | 중간 소실 (Lost in the Middle) | 크게 저하됨 | 토큰의 길이가 길어질수록 어텐션 연산이 여러 곳으로 분산되며, 쿼리(질문)와의 거리가 멀어 상태적으로 중요도가 낮다고 계산되어 정보가 누락됨 |
| 끝 (End) | 최신 효과 (Recency Effect) | 매우 높음 | 텍스트의 끝부분은 최종적인 질문(Query) 프롬프트와 물리적으로 가장 가깝게 배치된 토큰들이므로 모델이 가장 강하게 참조함 |
출처 (Sources):
- Liu, N. F., et al. (2023), “Lost in the Middle: How Language Models Use Long Contexts”. Transactions of the Association for Computational Linguistics. Available at: https://arxiv.org/abs/2307.03172
- Kamradt, G. (2023), “Needle In A Haystack - Pressure Testing LLMs”. Available at: https://github.com/gkamradt/LLMTest_NeedleInAHaystack