Somers’ D
소머스 D (Somers’ )는 통계학에서 두 개의 ‘순서형 변수(Ordinal Variables)’ 사이에 어느 정도의 연관성(상관관계)이 있는지를 측정하는 지표입니다.
앞서 질문하신 ‘코헨의 d(Cohen’s d)‘가 집단 간의 ‘차이(효과 크기)‘를 본다면, ‘소머스 D’는 두 변수가 같이 움직이는 ‘상관관계’를 봅니다.
이해하기 쉽게 단계별로 설명해 드리겠습니다.
1. 언제 사용하는가? (순서형 데이터)
데이터가 연속된 숫자(예: 키, 몸무게)가 아니라, 순서나 등급이 있는 데이터일 때 사용합니다.
- 예시 1: 교육 수준 (중졸 / 고졸 / 대졸)
- 예시 2: 고객 만족도 (불만족 / 보통 / 만족)
- 예시 3: 소득 구간 (하위권 / 중위권 / 상위권)
“교육 수준이 높을수록 소득 구간도 높아질까?” 또는 “약물의 투여 용량(저/중/고)에 따라 통증 감소 효과(없음/조금/많음)가 커질까?” 같은 질문을 검증할 때 사용합니다.
2. 소머스 D의 가장 큰 특징: “방향성(비대칭성)”
순서형 변수의 상관관계를 보는 지표(예: 켄달의 타우, 스피어만 상관계수)는 여러 가지가 있지만, 소머스 D의 핵심 특징은 비대칭(Asymmetric)이라는 점입니다.
즉, 원인(독립변수 X)과 결과(종속변수 Y)를 명확히 구분합니다.
- X가 Y에 미치는 영향을 볼 때와, Y가 X에 미치는 영향을 볼 때 값이 다르게 계산됩니다.
- 예를 들어, 알코올 섭취량(X)으로 간 손상 등급(Y)을 예측하는 것과 예측의 반대 방향은 수학적으로 다르게 취급합니다. 결과(Y)에서 동점(Tie, 같은 등급이 나오는 경우)만 계산에 반영하기 때문입니다.
3. 어떻게 계산되는가? (간단한 원리)
소머스 D는 데이터를 두 개씩 짝지어서(Pair) 비교하는 방식을 씁니다.
- 일치쌍 (Concordant Pair): A가 B보다 학력도 높고 소득도 높은 경우 (우리가 예상한 긍정적 방향)
- 불일치쌍 (Discordant Pair): A가 B보다 학력은 높은데 소득은 낮은 경우 (예상과 엇나간 방향)
소머스 D는 전체 쌍 중에서 (일치쌍 - 불일치쌍)의 비율을 계산합니다. 일치쌍이 압도적으로 많으면 양(+)의 상관관계가 크게 나옵니다.
4. 해석하는 방법 (값의 범위)
소머스 D의 값은 -1.0 에서 +1.0 사이의 값을 갖습니다.
- +1.0 에 가까울수록: 완벽한 양(+)의 상관관계. (예: 교육 수준이 올라가면 소득 범위도 무조건 올라간다.)
- -1.0 에 가까울수록: 완벽한 음(-)의 상관관계. (예: 스트레스 등급이 올라가면, 수면의 질 등급은 무조건 떨어진다.)
- 0 에 가까울수록: 상관관계가 없음. (예: 좋아하는 계절과 수학 성적 등급 간에는 아무런 관련이 없다.)
💡 효과 크기 해석 기준 (절대값 기준, 분야마다 다를 수 있음)
- 0.00 ~ 0.20 : 관계가 거의 없음 / 매우 약함
- 0.20 ~ 0.40 : 약한 관계
- 0.40 ~ 0.60 : 중간 정도의 관계
- 0.60 ~ 0.80 : 강한 관계
- 0.80 ~ 1.00 : 매우 강한 관계
5. 요약
- 목적: 두 ‘순서형(등급)’ 변수 간의 상관관계 측정
- 특징: 독립변수(X)를 이용해 종속변수(Y)를 예측할 때 쓰는 비대칭적 지표
- 결과: -1 ~ 1 사이의 값으로 나오며, 0에서 멀어질수록 두 변수 간의 연관성이 강함을 의미합니다.