Self-Knowledge Distillation

자가 지식 증류(Self-Knowledge Distillation)는 인공지능 모델의 학습 기법 중 하나로, 성능 여유가 있는 외부의 거대 모델(교사 모델, Teacher Model)을 사용하지 않고 모델 스스로가 생성한 내부 정보를 활용하여 자신의 성능을 향상시키는 방법론이다.

이 기법은 제프리 힌튼(Geoffrey Hinton) 등이 구글(Google) 재직 당시 제안한 ‘지식 증류(Knowledge Distillation)’ 개념에서 파생되었다. 전통적인 지식 증류는 거대한 교사 모델의 예측값(Soft labels)을 소형 학생 모델(Student Model)이 모방하도록 유도하지만, 자가 지식 증류는 단일 모델 내부에서 특정 계층(Layer)이나 특정 기능의 출력을 교사 신호로 삼아 모델의 다른 부분을 학습시킨다.

BGE-M3 텍스트 임베딩 모델의 훈련 파이프라인에 적용된 자가 지식 증류의 작동 원리는 다음과 같다.

  1. 단일 텍스트 쌍에 대해 모델 내부의 세 가지 검색 산출 모듈(Dense, Sparse, Multi-vector)이 연산 결과를 동시에 계산한다.
  2. 토큰 수준의 교차 결합을 수행하여 모델에서 연산 부하가 가장 크지만 표현력이 가장 높은 ‘다중 벡터(Multi-vector)’ 방식의 결과 점수를 교사(Teacher) 신호로 설정한다.
  3. 상대적으로 연산이 빠르고 가벼운 ‘밀집(Dense)’ 모델 단과 ‘희소(Sparse)’ 모델 단이 출력하는 값이 다중 벡터의 값과 유사해지도록 손실 함수(Loss function)를 조정해 동시에 학습을 진행한다.
  4. 결과적으로 밀집 임베딩 모듈은 모델의 파라미터 크기나 추론 지연 시간(Latency)의 증가 없이, 교사인 다중 벡터 시스템의 세밀한 매칭 능력을 내재화하여 단일 밀집 검색 성능 한계를 돌파한다.

지식 증류 방식 비교표

일반 지식 증류 기법과 자가 지식 증류 기법의 구조적 및 기능적 치이는 다음과 같다.

비교 항목일반 지식 증류 (Standard Knowledge Distillation)자가 지식 증류 (Self-Knowledge Distillation)
구조2개 이상의 독립적 모델 체인 (Teacher-Student)1개의 단일 모델 아키텍처
교사(Teacher)의 출처성능이 뛰어난 외부의 대형 아키텍처 모델동일 모델 내의 더 깊은 계층 또는 고도화된 기능 모듈
학습 시 자원 소모거대 교사 모델의 사전 학습 및 추론 자원 추가 요구됨단일 모델만 메모리에 올리므로 상대적으로 연산 효율적
주요 목적거대 모델의 성능을 소형 모델로 압축 및 경량화(Model Compression)내부 지식 전이를 통한 보정 효과 및 정규화(Regularization) 기능
BGE-M3 적용 구조해당사항 없음적용됨 (Multi-vector 점수를 Dense/Sparse 모듈 학습에 주입)

출처 (Sources)

  • 지식 증류(KD) 기본 개념: Hinton, G., Vinyals, O., & Dean, J. (2015). “Distilling the Knowledge in a Neural Network.” arXiv preprint arXiv:1503.02531. 작성 기관: Google Inc., University of Toronto. (https://arxiv.org/abs/1503.02531)
  • 자가 지식 증류의 정규화 메커니즘 증명: Mobahi, H., Farajtabar, M., & Bartlett, P. L. (2020). “Self-Distillation Amplifies Regularization in Hilbert Space.” Advances in Neural Information Processing Systems (NeurIPS) 33. 작성 기관: Google Research, UC Berkeley. (https://proceedings.neurips.cc/paper/2020/hash/258be18e31c8188555c2ff05b4d542c3-Abstract.html)
  • BGE-M3 훈련 방법론 및 논문: Chen, J., et al. (2024). “BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation.” arXiv preprint arXiv:2402.03216. 퍼블리셔: Cornell University. (https://arxiv.org/abs/2402.03216)

Entities