크로스 엔트로피

크로스 엔트로피(Cross-Entropy)는 정보 이론(Information Theory)에서 유래한 개념으로, 주어진 확률 변수나 사건 집합에 대해 두 확률 분포 간의 차이를 측정하는 척도다. 기계 학습 및 딥러닝 알고리즘에서 분류(Classification) 모델의 성능을 평가하고 최적화하기 위한 손실 함수(Loss Function)로 광범위하게 사용된다.

  1. 수학적 정의 (Mathematical Definition) 이산 확률 변수 에 대해 실제 확률 분포를 , 모델이 예측한 확률 분포를 라고 할 때, 크로스 엔트로피 는 다음 수식으로 정의된다.

이 수식은 실제 분포 를 바탕으로 예측 분포 를 사용해 데이터를 인코딩할 때 필요한 평균 정보량(비트 수)을 나타낸다. 모델의 예측 가 실제 정답 에 가까워질수록 크로스 엔트로피 값은 작아지며, 두 분포가 완전히 일치할 때 최소값을 가진다.

  1. 기계 학습에서의 작동 원리 주로 이진 분류(Binary Classification)에는 이진 크로스 엔트로피(BCE), 다중 클래스 분류(Multi-class Classification)에는 범주형 크로스 엔트로피(Categorical Cross-Entropy)가 적용된다. 모델 훈련 과정에서 예측 결괏값(주로 Softmax 또는 Sigmoid 함수의 출력값)과 실제 원-핫 인코딩(One-hot Encoding)된 라벨 간의 오차를 계산하고, 역전파(Backpropagation)를 통해 이 오차를 최소화하는 방향으로 매개변수를 업데이트한다.

  2. 손실 함수 비교 (Cross-Entropy와 MSE) 기계 학습에서 손실 함수를 선택할 때, 모델의 목적에 따라 적절한 함수를 사용해야 한다. 다음은 분류 문제에서 크로스 엔트로피가 평균 제곱 오차(Mean Squared Error, MSE)보다 선호되는 이유를 비교한 표다.

비교 항목Cross-EntropyMean Squared Error (MSE)
주요 적용 목적분류 (Classification)회귀 (Regression)
출력 계층 활성화 함수Softmax, SigmoidLinear (선형)
기울기(Gradient)의 성질오차가 클수록 기울기가 선형적으로 커져 학습 속도가 빠르다.Softmax/Sigmoid와 결합 시, 예측이 완전히 틀려도 기울기가 ‘0’에 수렴하는 기울기 소실(Vanishing Gradient) 문제가 발생할 수 있다.
이론적 기반베르누이/다항 분포에 대한 최대 우도 추정 (Maximum Likelihood Estimation)정규 분포(Gaussian Error)의 가정 하에 도출된 최대 우도 추정
  1. 참고 문헌 및 출처 (Sources)
  • Shannon, C. E. (1948). “A Mathematical Theory of Communication”. Bell System Technical Journal. (해당 문헌은 정보 이론의 토대를 마련하였으며, 엔트로피 개념의 수학적 기초를 제공함.)
  • Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (5장 및 6장에서 신경망의 최대 우도 추정(MLE)과 크로스 엔트로피 손실 함수 간의 수학적 동치성을 설명함.)
  • Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (4장 및 5장에서 분류 문제 시 크로스 엔트로피와 소프트맥스(Softmax) 함수의 결합이 오차 역전파에서 가지는 미적분학적 효율성을 증명함.)

Entities