정준상관분석
정준상관분석(Canonical Correlation Analysis, CCA)
정준상관분석은 ‘두 개의 변수 그룹(집단) 간에 어떤 상관관계가 있는가?‘를 밝혀내는 다변량 통계 기법입니다.
1. 왜 정준상관분석이 필요할까? (개념의 출발)
우리가 변수들 간의 관계를 볼 때, 변수의 개수에 따라 분석 방법이 달라집니다.
- 1 vs 1 (단순 상관분석): ‘키’와 ‘몸무게’의 관계 (변수 1개 vs 변수 1개)
- 다수 vs 1 (다중 회귀분석): ‘공부시간, 수면량, 학원 횟수’가 ‘수능 총점’에 미치는 영향 (변수 여러 개 vs 변수 1개)
- 다수 vs 다수 (정준상관분석): [공부시간, 수면량, 독서량]이라는 ‘학습 습관 그룹’과 [국어점수, 수학점수, 영어점수]라는 ‘학업 성취도 그룹’ 간의 관계
이처럼 원인(독립변수)도 여러 개이고, 결과(종속변수)도 여러 개일 때 두 집단 전체의 큰 그림(연관성)을 보고 싶을 때 사용하는 것이 정준상관분석입니다.
2. 정준상관분석의 작동 원리
두 개의 변수 그룹(X그룹과 Y그룹)이 있다고 가정해 봅시다. 그룹 안에 변수가 너무 많으면 이들 간의 관계를 한눈에 파악하기 어렵습니다. 그래서 정준상관분석은 다음의 과정을 거칩니다.
- 가상의 대표 변수(정준변수) 만들기: X그룹의 변수들을 적절히 짬뽕(선형결합)하여 X를 대표하는 가상의 변수 를 만듭니다. Y그룹의 변수들도 적절히 짬뽕하여 Y를 대표하는 가상의 변수 를 만듭니다.
- 상관관계 극대화: 이때 와 를 대충 만드는 것이 아니라, 와 사이의 상관계수가 가장 높아지도록 각 변수들의 가중치를 조절하여 만듭니다.
- 반복: 가장 상관관계가 높은 첫 번째 짝()을 찾고 나면, 이들과는 겹치지 않는(독립적인) 두 번째 짝()을 찾고, 세 번째 짝을 찾는 식으로 분석을 진행합니다.
3. 쉬운 예시
어느 대기업에서 [직원들의 건강 상태]가 [업무 성과]에 미치는 영향을 알고 싶습니다.
- 건강 상태 그룹 (X): 체지방률, 혈압, 콜레스테롤 수치, 주당 운동 시간
- 업무 성과 그룹 (Y): 연봉 인상률, 프로젝트 성공 횟수, 고객 만족도 점수
정준상관분석을 돌렸더니 다음과 같은 결과가 나왔다고 칩시다.
- 첫 번째 정준변수 짝: “운동을 많이 하고 체지방률이 낮은 특징(X대표)“은 “프로젝트 성공 횟수가 높은 특징(Y대표)“과 높은 상관관계가 있다.
- 해석: 아하! 전반적인 ‘기초 체력’은 ‘업무의 활력 및 실적’과 강한 관계를 가지는구나!
4. 꼭 알아야 할 주요 용어
- 정준변수 (Canonical Variate): 각 변수 그룹의 변수들을 조합해서 만든 ‘가상의 대표 변수’ (, )
- 정준상관계수 (Canonical Correlation Coefficient): X그룹의 정준변수()와 Y그룹의 정준변수() 간의 상관계수. 이 값이 1에 가까울수록 두 그룹 간의 연관성이 높다는 뜻입니다.
- 정준적재량 (Canonical Loading): 원래의 개별 변수(예: 체지방률)가 만들어진 대표 변수()에 얼마나 기여했는지를 나타내는 값입니다. 이 값이 커야 해당 변수가 의미가 있습니다.
5. 장점과 단점
장점:
- 전체적인 맥락 파악: 개별 변수끼리의 분석으로는 놓치기 쉬운, ‘그룹 간의 숨겨진 패턴’과 구조를 발견할 수 있습니다.
- 통계적 오류 감소: 변수들을 일일이 짝지어 상관분석을 여러 번 하면 우연히 상관성이 높게 나올 오류(1종 오류)가 커지는데, 정준상관분석은 이를 방지해 줍니다.
단점:
- 해석의 어려움: 변수들을 조합해서 만든 ‘가상의 변수(, )‘가 정확히 현실에서 무엇을 의미하는지(이름표를 붙이기가) 연구자의 주관에 따라 모호할 수 있습니다.
- 이상치에 민감: 극단적인 데이터(Outlier)가 있으면 결과가 크게 왜곡될 수 있습니다.
요약하자면: 정준상관분석은 “두 무리의 변수 떼거리들이 서로 어떻게 손을 잡고 돌아가는가?”를 수학적으로 가장 똑똑하게 찾아내어 요약해 주는 매력적인 다변량 통계 기법입니다.
Entities
추가 기록 (2026-05-05T16:10:05Z)
유의성 검정
도출된 정준상관계수가 통계적으로 유의미한지 판단하기 위해 유의성 검정을 수행합니다. 일반적으로 Wilks’ Lambda, Pillai’s trace, Hotelling-Lawley trace 등의 통계량을 사용하여 p-value를 계산하며, 이를 통해 해당 정준상관이 유의미한지 확인합니다.
비선형 관계의 한계 및 Kernel CCA
정준상관분석은 선형 결합에 기초하므로 변수 집단 간의 관계가 비선형적일 경우 이를 포착하지 못할 수 있습니다. 이러한 한계를 해결하기 위해 Kernel Canonical Correlation Analysis (Kernel CCA)와 같은 방법이 제안되었습니다. Kernel CCA는 커널 함수를 도입하여 데이터를 고차원 공간으로 매핑한 후 선형 CCA를 수행함으로써 비선형적인 연관 관계를 학습할 수 있습니다.
Entities
추가 기록 (2026-05-05T16:10:05Z)
정준변수의 수식 표현
정준변수는 각 그룹의 변수들의 선형결합으로 명시적으로 표현됩니다. 예를 들어, X 그룹에 가 있고 Y 그룹에 가 있다면, 와 같이 가중치 를 곱하여 합산한 형태입니다. CCA는 이 와 의 상관계수를 최대화하는 가중치를 찾습니다.
정준변수 쌍의 최대 개수
도출 가능한 정준변수 쌍의 개수는 두 변수 집단 중 변수의 개수가 적은 쪽의 개수로 제한됩니다. 예를 들어 X 그룹에 3개, Y 그룹에 5개 변수가 있다면 최대 3쌍의 정준변수를 얻을 수 있습니다.
차원 축소 관점의 장점
정준상관분석은 여러 변수들로 이루어진 두 집단 간의 복잡한 관계를 소수의 정준변수 쌍으로 요약함으로써 데이터의 차원을 축소하는 효과가 있습니다. 이를 통해 다차원 데이터의 본질적인 연관 구조를 단순화하여 파악할 수 있습니다.