Somers’ D

소머스 D (Somers’ $D$ )는 통계학에서 두 개의 ‘순서형 변수(Ordinal Variables)’ 사이에 어느 정도의 연관성(상관관계)이 있는지를 측정하는 지표입니다.

앞서 질문하신 ‘코헨의 d(Cohen’s d)‘가 집단 간의 ‘차이(효과 크기)‘를 본다면, ‘소머스 D’는 두 변수가 같이 움직이는 ‘상관관계’를 봅니다.

이해하기 쉽게 단계별로 설명해 드리겠습니다.

데이터가 연속된 숫자(예: 키, 몸무게)가 아니라, 순서나 등급이 있는 데이터일 때 사용합니다.

“교육 수준이 높을수록 소득 구간도 높아질까?” 또는 “약물의 투여 용량(저/중/고)에 따라 통증 감소 효과(없음/조금/많음)가 커질까?” 같은 질문을 검증할 때 사용합니다.

순서형 변수의 상관관계를 보는 지표(예: 켄달의 타우, 스피어만 상관계수)는 여러 가지가 있지만, 소머스 D의 핵심 특징은 비대칭(Asymmetric)이라는 점입니다.

즉, 원인(독립변수 X)과 결과(종속변수 Y)를 명확히 구분합니다.

X가 Y에 미치는 영향을 볼 때와, Y가 X에 미치는 영향을 볼 때 값이 다르게 계산됩니다.
예를 들어, 알코올 섭취량(X)으로 간 손상 등급(Y)을 예측하는 것과 예측의 반대 방향은 수학적으로 다르게 취급합니다. 결과(Y)에서 동점(Tie, 같은 등급이 나오는 경우)만 계산에 반영하기 때문입니다.

소머스 D는 데이터를 두 개씩 짝지어서(Pair) 비교하는 방식을 씁니다.

소머스 D는 전체 쌍 중에서 (일치쌍 - 불일치쌍)의 비율을 계산합니다. 일치쌍이 압도적으로 많으면 양(+)의 상관관계가 크게 나옵니다.

소머스 D의 값은 -1.0 에서 +1.0 사이의 값을 갖습니다.

💡 효과 크기 해석 기준 (절대값 기준, 분야마다 다를 수 있음)

tags	ai_log, auto_generated
aliases	소머스 D

Quartz 5