크로스 엔트로피
크로스 엔트로피(Cross-Entropy)는 정보 이론(Information Theory)에서 유래한 개념으로, 주어진 확률 변수나 사건 집합에 대해 두 확률 분포 간의 차이를 측정하는 척도다. 기계 학습 및 딥러닝 알고리즘에서 분류(Classification) 모델의 성능을 평가하고 최적화하기 위한 손실 함수(Loss Function)로 광범위하게 사용된다.
- 수학적 정의 (Mathematical Definition) 이산 확률 변수 에 대해 실제 확률 분포를 , 모델이 예측한 확률 분포를 라고 할 때, 크로스 엔트로피 는 다음 수식으로 정의된다.
이 수식은 실제 분포 를 바탕으로 예측 분포 를 사용해 데이터를 인코딩할 때 필요한 평균 정보량(비트 수)을 나타낸다. 모델의 예측 가 실제 정답 에 가까워질수록 크로스 엔트로피 값은 작아지며, 두 분포가 완전히 일치할 때 최소값을 가진다.
-
기계 학습에서의 작동 원리 주로 이진 분류(Binary Classification)에는 이진 크로스 엔트로피(BCE), 다중 클래스 분류(Multi-class Classification)에는 범주형 크로스 엔트로피(Categorical Cross-Entropy)가 적용된다. 모델 훈련 과정에서 예측 결괏값(주로 Softmax 또는 Sigmoid 함수의 출력값)과 실제 원-핫 인코딩(One-hot Encoding)된 라벨 간의 오차를 계산하고, 역전파(Backpropagation)를 통해 이 오차를 최소화하는 방향으로 매개변수를 업데이트한다.
-
손실 함수 비교 (Cross-Entropy와 MSE) 기계 학습에서 손실 함수를 선택할 때, 모델의 목적에 따라 적절한 함수를 사용해야 한다. 다음은 분류 문제에서 크로스 엔트로피가 평균 제곱 오차(Mean Squared Error, MSE)보다 선호되는 이유를 비교한 표다.
| 비교 항목 | Cross-Entropy | Mean Squared Error (MSE) |
|---|---|---|
| 주요 적용 목적 | 분류 (Classification) | 회귀 (Regression) |
| 출력 계층 활성화 함수 | Softmax, Sigmoid | Linear (선형) |
| 기울기(Gradient)의 성질 | 오차가 클수록 기울기가 선형적으로 커져 학습 속도가 빠르다. | Softmax/Sigmoid와 결합 시, 예측이 완전히 틀려도 기울기가 ‘0’에 수렴하는 기울기 소실(Vanishing Gradient) 문제가 발생할 수 있다. |
| 이론적 기반 | 베르누이/다항 분포에 대한 최대 우도 추정 (Maximum Likelihood Estimation) | 정규 분포(Gaussian Error)의 가정 하에 도출된 최대 우도 추정 |
- 참고 문헌 및 출처 (Sources)
- Shannon, C. E. (1948). “A Mathematical Theory of Communication”. Bell System Technical Journal. (해당 문헌은 정보 이론의 토대를 마련하였으며, 엔트로피 개념의 수학적 기초를 제공함.)
- Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press. (5장 및 6장에서 신경망의 최대 우도 추정(MLE)과 크로스 엔트로피 손실 함수 간의 수학적 동치성을 설명함.)
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer. (4장 및 5장에서 분류 문제 시 크로스 엔트로피와 소프트맥스(Softmax) 함수의 결합이 오차 역전파에서 가지는 미적분학적 효율성을 증명함.)