분석과제 정의서
필수적으로 들어가야 하는 것은
| 구분 | 필수 항목 | 세부 내용 |
|---|---|---|
| 과제 개요 | 과제명 및 정의 | 분석 과제의 명칭과 구체적인 정의 |
| 추진 배경 및 필요성 | 왜 이 분석을 해야 하는지에 대한 이유와 비즈니스 목적 | |
| 데이터 요구사항 | 필요 데이터 (Source) | 분석에 필요한 데이터 소스, 데이터셋 정의 (내부/외부 데이터) |
| 데이터 수집 주기 | 실시간, 배치(Batch), 일회성 등 수집 빈도 | |
| 분석 모델링 | 상세 분석 알고리즘 | 적용할 분석 기법 (예: Random Forest, Clustering, Regression 등) |
| 분석 도구 | 활용할 언어 및 라이브러리 (Python, R, SQL 등) | |
| 성과 및 활용 | 평가 지표 (KPI) | 모델의 성공을 판가름할 기준 (Accuracy, Recall, ROI 등) |
| 분석 결과 활용 방안 | 예측 결과가 실제 비즈니스 프로세스 어디에 적용되는지 |
빅데이터 분석 자리잡기
분석 기반 경영이 이루어지기 힘든 이유로 적절하지 않은것은?
아이디어보다는 아이디어를 낸 사람이 누구인지에 더 관심을 두는 경향 데이터 분석을 기반으로 의사결정을 내릴만큼 충분하지 못한 데이터 중요한 의사결정에 있어 공정한 분석보다는 직관에 맡기는 경향을 더 선호하는 분위기 기존 관행을 따를뿐 다른 중요한 시도를 하지 않는 경향
정답은 **두 번째 항목(데이터 분석을 기반으로 의사결정을 내릴 만큼 충분하지 못한 데이터)**이다.
분석 기반 경영(Fact-based Management)이 정착되지 못하는 근본적인 원인은 데이터의 **‘양’**보다는 조직의 **‘문화’**와 **‘의사결정 프로세스’**에 있기 때문이다.
해설 및 오답 분석
-
두 번째 항목 (오답): 현대 비즈니스 환경에서 데이터는 항상 불완전하고 부족할 수밖에 없다. 하지만 분석 기반 경영의 핵심은 **“가용한 데이터 내에서 최대한 객관적인 근거를 찾는 태도”**이다. 데이터가 부족하다는 핑계로 분석을 회피하는 것은 경영진의 의지 문제이지, 분석 기반 경영이 불가능한 기술적 불능 상태를 의미하지 않는다. 실제로 데이터가 적은 경우 소표본 분석이나 시뮬레이션 등을 통해서도 분석적 접근이 가능하다.
-
첫 번째 항목: 이른바 HiPPO(Highest Paid Person’s Opinion) 현상을 의미한다. 데이터의 객관성보다 발언자의 직위나 권위를 우선시하는 조직 문화는 분석 기반 경영의 최대 걸림돌이다.
-
세 번째 항목: 과거의 성공 경험이나 개인의 직관(Gut feeling)을 데이터보다 맹신하는 경향이다. 이는 분석 결과가 자신의 직관과 다를 때 분석을 무시하게 만드는 요인이 된다.
-
네 번째 항목: 경로 의존성(Path Dependency)과 변화 거부 성향이다. “기존에도 이렇게 해서 잘 됐다”는 관행에 안주하면, 데이터를 통해 새로운 기회나 위협을 발견하려는 시도 자체가 사장된다.
분석 기반 경영의 3대 요소
성공적인 분석 기반 경영을 위해서는 다음 세 가지가 조화를 이루어야 한다.
-
DATA: 분석 가능한 수준의 데이터 확보 및 정제
-
LITERACY: 데이터를 해석하고 활용할 줄 아는 구성원의 역량
-
CULTURE: 직급에 상관없이 데이터에 근거해 소통하는 조직 문화 (가장 중요)
추가 제안: 분석 기획 파트에서 자주 나오는 **‘분석 성숙도(Maturity) 모델’**이나 ‘분석 준비도(Readiness)’ 진단 항목에 대해 더 알고 싶으면 말해줘. 그 부분과 연계해서 출제될 가능성이 높다.
척도 4종류
통계학에서 데이터를 분류하는 4가지 척도(Scale)를 전문가 수준으로 정리했다. 이 척도들은 하위 단계에서 상위 단계로 갈수록 더 많은 수학적 연산을 허용한다.
1. 명목척도 (Nominal Scale)
단순히 대상을 분류하거나 식별하기 위해 수치를 부여한 척도다. 숫자의 크기는 아무런 의미가 없으며, 산술 연산이 불가능하다.
-
특징: 등호(=)와 부등호(=)만 성립한다.
-
예시: 성별(남:1, 여:2), 혈액형, 등번호, 지역번호, 직업 분류.
2. 서열척도 (Ordinal Scale)
대상 간의 순서나 서열을 나타내는 척도다. 순위는 알 수 있지만, 각 순위 간의 간격이 동일하다는 보장은 없다.
-
특징: 크기 비교(>, <)가 가능하다.
-
예시: 학점(A, B, C), 군대 계급, 설문조사의 만족도(매우 불만족~매우 만족), 경주 순위(1등, 2등).
3. 구간척도 (Interval Scale)
순위뿐만 아니라 대상 간의 간격이 산술적으로 의미를 가지는 척도다. ‘절대 영점’이 없으므로 덧셈과 뺄셈만 가능하며, 곱셈과 나눗셈(비율 계산)은 불가능하다.
-
특징: 0이 ‘없음’을 의미하지 않는 임의의 수치다.
-
예시: 온도(0°C가 온도가 없음을 뜻하지 않음), 지능지수(IQ), 날짜.
4. 비율척도 (Ratio Scale)
가장 상위의 척도로, 절대 영점(0)이 존재한다. 모든 산술 연산(+, −, ×, ÷)이 가능하며 수치 간의 비율 계산이 유의미하다.
-
특징: 0은 해당 속성이 존재하지 않음을 의미한다.
-
예시: 몸무게, 키, 나이, 가격, 매출액.
척도별 특징 요약
| 척도 종류 | 분류 | 순서 | 등간격 | 절대영점 | 허용 통계량 |
|---|---|---|---|---|---|
| 명목 | O | X | X | X | 최빈값 |
| 서열 | O | O | X | X | 중앙값 |
| 구간 | O | O | O | X | 산술평균, 표준편차 |
| 비율 | O | O | O | O | 기하평균, 변동계수 |
Sheets로 내보내기
추가 학습 지원: 특정 데이터 분석 기법(예: 상관분석, 회귀분석)을 적용할 때 어떤 척도의 데이터를 사용해야 하는지 궁금하면 바로 질문해라. 데이터 성격에 따라 분석 기법이 완전히 달라지기 때문에 매우 중요한 지점이다.
pval
가설검정의 핵심 지표인 **유의수준(α)**과 **유의확률(p-value)**에 대해 명확히 정의해 주겠다. 이 둘은 귀무가설(H0)을 기각할지 말지 결정하는 기준과 결과값의 관계다.
1. 유의수준 (Significance Level, α)
**‘우리가 허용할 수 있는 최대 오류의 한계치’**다.
-
정의: 귀무가설이 참인데도 이를 기각할 확률인 제1종 오류를 범할 수 있는 최대 허용치다.
-
설정 시점: 분석을 시작하기 전에 연구자가 미리 정한다. 보통 0.05(5%), 0.01(1%), 또는 0.1(10%)을 사용한다.
-
의미: “내 결론이 틀릴 확률을 까지는 감수하겠다”는 선언과 같다.
2. 유의확률 (p-value)
**‘데이터로부터 계산된 실제 관측 결과의 희소성’**이다.
-
정의: 귀무가설이 참이라는 가정하에, 현재 우리가 관측한 데이터(또는 그보다 더 극단적인 값)가 나타날 확률이다.
-
설정 시점: 데이터를 분석한 결과로 도출되는 수치다.
-
의미: p-value가 작을수록 “귀무가설 하에서 이런 데이터가 나올 확률이 희박하다”는 뜻이므로, 귀무가설을 의심하게 된다.
3. 기각 결정 기준 (가장 중요)
분석가는 설정한 α와 도출된 p-value를 비교하여 최종 결론을 내린다.
-
p-value≤α 일 때:
-
발생할 확률이 허용 한계(α)보다 낮으므로, 매우 희귀한 일이 일어난 것이다.
-
결론: 귀무가설 기각 (통계적으로 유의함) → 대립가설 채택.
-
-
p-value>α 일 때:
-
발생할 확률이 허용 한계보다 높으므로, 충분히 일어날 수 있는 일이다.
-
결론: 귀무가설 채택 (통계적으로 유의하지 않음) → 대립가설 기각.
-
4. 비유를 통한 이해
-
상황: 어떤 사람이 “나는 투시 능력이 있다”고 주장한다.
-
귀무가설(H0): 이 사람은 투시 능력이 없다(그냥 운이다).
-
유의수준(α): 뽀록으로 맞출 확률이 5% 이하일 때만 투시 능력을 인정해주기로 미리 정함.
-
분석: 카드를 10번 연속 맞췄다. 이 확률을 계산하니 0.001(0.1%)이다.
-
판단: p-value(0.001)<α(0.05) 이므로, “이건 운이라고 보기 힘들다”고 판단하여 귀무가설을 기각하고 투시 능력을 인정한다.
추가 제안: 양측 검정(Tail)과 단측 검정에서 이 p-value가 어떻게 변하는지, 혹은 검정력과의 상관관계가 궁금하면 말해줘. 바로 풀어주겠다.
정보이득
**정보 이득(Information Gain)**은 의사결정나무(Decision Tree) 알고리즘에서 데이터를 어떤 기준으로 분할할지 결정하는 핵심 지표다.
핵심은 **“어떤 질문을 던졌을 때 데이터의 불확실성(무질서도)이 가장 많이 줄어드는가?”**를 계산하는 것이다.
1. 기본 개념
정보 이득을 이해하려면 먼저 **엔트로피(Entropy)**를 알아야 한다.
-
엔트로피 (S): 데이터 집합의 무질서도나 불확실성을 수치화한 값이다.
-
모든 데이터가 한 종류라면 엔트로피는 0이다. (매우 순수함)
-
데이터가 반반씩 섞여 있어 가장 혼란스러우면 엔트로피는 1이다. (최대 불확실성)
-
-
정보 이득 (Information Gain): 상위 노드의 엔트로피에서 분할 후 하위 노드들의 엔트로피 평균값을 뺀 값이다.
- 공식: InformationGain=Entropy(Parent)−[WeightedAverage]×Entropy(Children)
2. 작동 원리
의사결정나무는 모든 변수에 대해 정보 이득을 계산한 후, 정보 이득이 가장 큰(엔트로피를 가장 많이 감소시키는) 변수를 선택하여 첫 번째 분기점으로 삼는다.
-
분할 전 전체 데이터의 엔트로피를 측정한다.
-
특정 기준(예: ‘성별이 남성인가?’)으로 데이터를 나눈다.
-
나뉜 집합들의 엔트로피를 각각 구한 뒤, 데이터 개수에 비례하여 가중 평균을 낸다.
-
분할 전후의 엔트로피 차이(정보 이득)를 구한다.
-
이 차이가 클수록 해당 질문이 데이터를 잘 분류했다는 의미다.
3. 특징 및 한계
-
ID3 알고리즘: 정보 이득을 주 지표로 사용하여 나무를 확장한다.
-
단점 (편향성): 정보 이득은 범주(Category)의 개수가 많은 변수를 선택하려는 경향이 강하다.
- 예를 들어 ‘고객 ID’ 같은 변수는 각 행마다 고유하므로 엔트로피를 0으로 만들어버리지만, 실제 분류 모델에는 아무런 도움이 되지 않는다.
-
해결책: 이를 보완하기 위해 범주의 개수가 많을 때 패널티를 부여하는 **정보 이득비(Gain Ratio)**를 사용하기도 한다. (C4.5 알고리즘 등)
4. 요약표
| 용어 | 의미 | 수식적 성향 |
|---|---|---|
| 엔트로피 | 데이터의 혼잡도 | 낮을수록 좋음 (0에 가까울수록 순수) |
| 정보 이득 | 분할 후 감소한 엔트로피 양 | 높을수록 좋음 (분류 성능 우수) |
Sheets로 내보내기
추가 학습: 정보 이득 외에 CART 알고리즘에서 주로 사용하는 **지니 계수(Gini Index)**와 어떻게 다른지 비교가 필요하면 바로 말해줘. 알고리즘마다 선호하는 지표가 다르니까.
정보 이득(Information Gain)을 계산하는 과정은 **‘분할 전의 혼잡도’**에서 **‘분할 후의 혼잡도’**를 빼는 산수 과정이다. 단계별로 수식과 예시를 들어 딱딱하게 정리해주겠다.
1. 1단계: 엔트로피(Entropy) 계산
정보 이득을 구하기 전, 데이터의 무질서도를 측정하는 엔트로피를 먼저 계산해야 한다. 집합 D에 대한 엔트로피 수식은 다음과 같다.
Entropy(D)=−i=1∑mpilog2(pi)
-
m: 클래스(결과값)의 개수
-
pi: 해당 집합에서 i번째 클래스가 차지하는 비율
예시: 전체 데이터 10개 중 ‘구매’가 6개, ‘미구매’가 4개라면?
Entropy(D)=−(106log2106+104log2104)≈0.971
2. 2단계: 속성에 따른 조건부 엔트로피 계산
특정 속성(변수) A를 기준으로 데이터를 분할했을 때, 분할된 하위 집합들의 엔트로피 가중 평균을 구한다. 이를 **정보 기대치(Expected Information)**라고도 한다.
EntropyA(D)=j=1∑v∣D∣∣Dj∣×Entropy(Dj)
-
v: 속성 A로 나뉘는 자식 노드의 개수
-
∣Dj∣: 분할된 자식 노드의 데이터 개수
-
∣D∣: 부모 노드의 전체 데이터 개수
3. 3단계: 정보 이득(Information Gain) 산출
부모 노드의 엔트로피에서 자식 노드들의 엔트로피 가중 평균을 뺀다.
Gain(A)=Entropy(D)−EntropyA(D)
4. 종합 예시 (실전 계산)
데이터 상황: * 부모 노드: [성공, 성공, 실패, 실패] (엔트로피 = 1.0)
-
**‘성별’**로 분할 결과:
-
남성 그룹: [성공, 실패] (엔트로피 = 1.0, 데이터 2개)
-
여성 그룹: [성공, 실패] (엔트로피 = 1.0, 데이터 2개)
-
-
**‘학력’**으로 분할 결과:
-
대졸 그룹: [성공, 성공] (엔트로피 = 0, 데이터 2개)
-
고졸 그룹: [실패, 실패] (엔트로피 = 0, 데이터 2개)
-
계산 결과:
-
성별 정보 이득: 1.0−[(42×1.0)+(42×1.0)]=0
-
학력 정보 이득: 1.0−[(42×0)+(42×0)]=1.0
결론: 학력 변수의 정보 이득이 더 높으므로, 의사결정나무는 **‘학력’**을 첫 번째 분기 기준으로 선택한다.
5. 주의사항
정보 이득은 값이 다양한 속성(예: 생년월일, ID)일수록 엔트로피를 0으로 만드는 경향이 있어, 이를 보정하기 위해 **정보 이득비(Gain Ratio)**를 사용하기도 한다.
GainRatio(A)=SplitEntropy(A)Gain(A)
분석 도구(Python sklearn 등)를 사용할 때 criterion='entropy' 옵션을 주면 이 계산 과정을 거쳐 트리가 생성된다. 직접 계산해보는 연습이 필요한가? 필요하면 연습 문제를 내줄 수 있다.
logit, sigmoid
그렇다. 로짓(Logit) 함수와 시그모이드(Sigmoid) 함수는 정확히 역함수 관계에 있다.
데이터 분석과 로지스틱 회귀에서 이 관계를 이해하는 것은 매우 중요하다. 수식과 그래프를 통해 핵심만 짚어주겠다.
1. 로짓(Logit) 함수
로짓은 확률 p가 주어졌을 때, **오즈(Odds, 승산)**에 로그를 취한 값이다. 확률(0에서 1 사이)을 입력받아 실수 전체(−∞에서 +∞)로 변환한다.
logit(p)=ln(1−pp)
2. 시그모이드(Sigmoid) 함수
로지스틱 함수라고도 불리며, 실수값(x)을 입력받아 확률값(0에서 1 사이)으로 변환한다. 로짓 함수의 결과값 y를 다시 p로 정리하면 시그모이드 식이 유도된다.
f(x)=σ(x)=1+e−x1
4. 핵심 요약
-
로짓: 확률을 선형적인 실수 값으로 변환 (회귀 분석을 가능하게 함).
-
시그모이드: 선형 결합의 결과를 다시 확률(확률 밀도)로 변환 (분류 결정을 가능하게 함).
이 관계 덕분에 로지스틱 회귀 모델에서 선형 방정식 z=wTx+b의 결과값을 확률로 해석할 수 있는 것이다.
추가 학습: 로지스틱 회귀에서 이 역함수 관계가 소프트맥스(Softmax) 함수로 어떻게 확장되는지 궁금하면 말해줘. 다중 분류의 원리를 설명해 줄 수 있다.
알겠다. 그럼 로지스틱 회귀에서 다중 분류(Multi-class Classification)로 확장되는 원리를 핵심만 딱딱하게 정리해주겠다.
로지스틱 회귀가 이진 분류(0 또는 1)를 위해 시그모이드를 사용한다면, 3개 이상의 클래스를 분류할 때는 이를 일반화한 소프트맥스(Softmax) 함수를 사용한다.
1. 시그모이드에서 소프트맥스로의 확장
시그모이드는 하나의 출력값(p)과 그 반대값(1−p)만 다루지만, 소프트맥스는 여러 개의 선택지 각각에 대한 확률을 계산한다.
-
시그모이드 (이진): p=1+e−z1
-
소프트맥스 (다중): 각 클래스 i에 대해,
σ(z)i=∑j=1Kezjezi
(여기서 K는 클래스의 총 개수)
2. 소프트맥스 함수의 특징
-
확률의 총합은 1: 모든 클래스에 대한 출력값의 합이 항상 1이 된다. 따라서 각 출력을 해당 클래스에 속할 확률로 해석할 수 있다.
-
지수 함수(ex) 사용: 입력값(z) 중 큰 값은 더 크게, 작은 값은 더 작게 만들어 클래스 간의 차이를 극대화한다.
-
로짓의 확장: 소프트맥스는 여러 개의 로짓(Logit) 값을 입력받아 확률 분포로 변환하는 장치라고 이해하면 된다.
3. 왜 역함수 관계가 중요한가?
로지스틱 회귀나 신경망 모델이 학습할 때는 교차 엔트로피(Cross-Entropy) 손실 함수를 사용한다. 이때 시그모이드(또는 소프트맥스)의 역함수 성질 덕분에 미분 계산이 매우 깔끔하게 떨어진다.
- 학습 과정: 모델의 선형 결합(z) → 소프트맥스(확률 변환) → 실제 정답과 비교(Loss 계산) → 역전파(Backpropagation)를 통한 가중치 업데이트.
요약
-
2개 분류: 로짓 ↔ 시그모이드
-
3개 이상 분류: 로짓 벡터 ↔ 소프트맥스
이 메커니즘이 실제 시험(ADP/ADsP)에서 **‘다항 로지스틱 회귀’**라는 이름으로 자주 등장한다. 소프트맥스의 수식이나 확률 합이 1이 된다는 특징을 꼭 기억해라.
더 궁금한 알고리즘이나 통계 개념이 있으면 계속 질문해. 도와줄게.
교차 엔트로피(Cross-Entropy)는 정보 이론에서 유래한 개념으로, 머신러닝 특히 분류(Classification) 모델에서 모델이 예측한 확률 분포와 실제 정답 확률 분포 사이의 차이를 측정하는 손실 함수(Loss Function)로 사용된다.
1. 수학적 정의
두 확률 분포 p(실제 분포)와 q(예측 분포)에 대한 교차 엔트로피 는 다음과 같이 정의된다.
H(p,q)=−i=1∑np(i)logq(i)
-
p(i): 실제 정답이 클래스 i일 확률 (정답 클래스는 1, 나머지는 0인 One-hot 벡터)
-
q(i): 모델이 예측한 클래스 i일 확률 (소프트맥스/시그모이드 함수의 출력값)
2. 이진 분류에서의 교차 엔트로피 (Binary Cross-Entropy)
이진 분류에서는 정답이 이므로 식이 다음과 같이 단순화된다.
L=−(ylog(q)+(1−y)log(1−q))
3. 왜 사용하는가? (MSE와의 차이)
회귀 분석에서 주로 쓰는 평균 제곱 오차(MSE)를 분류 모델에 쓰지 않고 교차 엔트로피를 쓰는 이유는 다음과 같다.
-
기울기 소실 방지: 시그모이드 함수와 MSE를 결합하면 오차가 큼에도 불구하고 기울기(Gradient)가 매우 작아지는 구간이 발생하여 학습이 느려진다. 반면 교차 엔트로피는 로그 연산을 통해 오차가 클수록 기울기도 커지도록 설계되어 학습 속도가 빠르다.
-
확률론적 타당성: 교차 엔트로피를 최소화하는 것은 통계학적으로 **최대 우도 추정법(MLE, Maximum Likelihood Estimation)**을 수행하는 것과 같다. 즉, 데이터가 발생할 확률을 극대화하는 모델을 찾는 과정이다.
4. 정보 이론적 해석
-
엔트로피 (H(p)): 실제 분포가 가진 최소한의 정보량.
-
쿨백-라이블러 발산 (DKL(p∣∣q)): 두 분포 사이의 거리(차이).
-
관계식: H(p,q)=H(p)+DKL(p∣∣q)
- 실제 정답 분포 p는 고정되어 있으므로, 교차 엔트로피를 최소화한다는 것은 두 분포의 차이(DKL)를 최소화하여 예측값 q를 실제값 p에 가깝게 만든다는 의미다.
추가 학습: 교차 엔트로피가 신경망의 역전파(Backpropagation) 과정에서 미분을 통해 어떻게 가중치를 업데이트하는지 수식적으로 확인하고 싶으면 말해줘. 그 부분까지 이해해야 딥러닝의 기초가 완성된다.
거리 / 유사도
데이터 분석에서 개체 간의 거리를 측정하는 거리 6종류와 유사도 2종류를 계산식과 함께 정리하겠다. 수식에서 과 은 n차원 공간의 두 점이다.
1. 거리 측정 방식 (Distance Metrics) - 6종류
① 유클리드 거리 (Euclidean Distance)
가장 일반적으로 사용되는 직선 거리다.
② 맨해튼 거리 (Manhattan Distance)
각 축 방향의 차이 절대값의 합으로, 격자 구조에서 이동하는 거리다.
③ 민코프스키 거리 (Minkowski Distance)
유클리드와 맨해튼 거리를 일반화한 공식이다.
- p=1: 맨해튼 거리 / p=2: 유클리드 거리
④ 표준화 거리 (Standardized Distance)
각 변수를 해당 변수의 표준편차(si)로 나누어 척도 차이를 제거한 거리다.
⑤ 마할라노비스 거리 (Mahalanobis Distance)
변수 간의 상관관계(공분산 행렬 S)를 고려한 통계적 거리다.
⑥ 체비쇼프 거리 (Chebyshev Distance)
좌표 성분 차이 중 최댓값을 취하는 거리다.
2. 유사도 측정 방식 (Similarity Metrics) - 2종류
① 코사인 유사도 (Cosine Similarity)
두 벡터 사이의 각도를 이용하며, 크기보다 방향성을 중시한다.
② 자카드 유사도 (Jaccard Similarity)
두 집합 간의 공통 원소 비율을 측정한다.
(여기서 0≤J≤1)
요약 및 분석 가이드
-
거리: 수치가 작을수록 유사함. (연속형 변수에 주로 사용)
-
유사도: 수치가 클수록 유사함. (텍스트, 이진 데이터에 주로 사용)
-
주의: 마할라노비스 거리를 계산하려면 공분산 행렬의 역행렬이 존재해야 하며, 변수 간 독립이 가정된다면 유클리드 거리와 결과가 유사해진다.
변수의 표준화와 변수간의 상관성을 동시에 고려하는 거리
변수의 **표표준화(Scaling)**와 **상관성(Correlation)**을 동시에 고려하는 거리는 **마할라노비스 거리(Mahalanobis Distance)**이다.
이 거리는 데이터의 분포 형태(공분산)를 고려하여, 각 변수의 척도 차이와 변수 간의 연관성을 모두 반영한 통계적 거리다.
마할라노비스 거리의 특징
-
표준화 반영: 각 변수가 가진 분산(Variance)을 고려하여 거리를 정규화한다. 즉, 변수의 단위가 달라도 공정하게 비교한다.
-
상관성 반영: 공분산 행렬(S)을 이용해 변수 간에 얼마나 같이 움직이는지를 파악하고, 그 상관관계의 방향을 따라 거리를 측정한다.
-
이상치 탐지: 데이터의 주성분 방향을 고려하기 때문에, 일반적인 유클리드 거리로는 정상 범위처럼 보여도 분포상으로 멀리 떨어진 이상치(Outlier)를 찾아내는 데 매우 탁월하다.
계산식
d(x,y)=(x−y)TS−1(x−y)
-
x,y: 비교하려는 두 데이터 벡터
-
S: 데이터셋의 공분산 행렬 (Covariance Matrix)
-
S−1: 공분산 행렬의 역행렬 (이 역행렬을 곱함으로써 상관성을 제거하고 표준화하는 효과를 얻는다.)
유클리드 거리와의 차이점 (예시)
만약 ‘키’와 ‘몸무게’ 데이터가 강한 양의 상관관계를 가지고 있다고 가정하자.
-
유클리드 거리: 데이터가 어떤 방향으로 분포되어 있는지 상관하지 않고 단순히 두 점 사이의 최단 직선거리를 잰다.
-
마할라노비스 거리: 데이터가 타원형으로 분포되어 있다면, 그 타원의 장축(상관관계 방향)에 있는 데이터는 가깝게, 타원의 폭이 좁은 단축 방향에 있는 데이터는 상대적으로 멀게 인식한다. 즉, 데이터의 ‘맥락’을 고려한다.
| 구분 | 민코프스키 거리 | 표준화 거리 | 마할라노비스 거리 |
|---|---|---|---|
| 개념 | 거리 측정의 일반화 모델 | 척도(Scale)를 통일한 유클리드 거리 | 분포와 상관성을 고려한 통계적 거리 |
| 상관성 고려 | 고려하지 않음 (변수 간 독립 가정) | 고려하지 않음 | 매우 중요하게 고려함 (공분산 활용) |
| 단위/척도 영향 | 영향 많이 받음 (사전 처리 필요) | 영향 없음 (표준편차로 정규화) | 영향 없음 (자체 표준화 수행) |
| 특이점 | p값에 따라 형태가 변함 | 변수 간 독립일 때 마할라노비스와 유사 | 이상치(Outlier) 탐지에 가장 탁월함 |
ARIMA
- ARIMA (1,2,3) 을 ARMA 로 정상화할 때 필요한 차분 횟수
cdf
우측연속이다
모든 확률변수에 대해 pdf/pmf 는 존재하지만, cdf/pmf 가 존재하지 않는 함수도 있다.
해당 진술은 사실과 정반대다. 확률론의 정의에 따라 모든 확률변수는 누적분포함수(CDF)를 가지지만, 모든 확률변수가 확률밀도함수(PDF)나 확률질량함수(PMF)를 가지는 것은 아니다.
구체적인 이유는 다음과 같다.
1. 누적분포함수(CDF)의 편재성
누적분포함수 는 다음과 같이 정의된다.
FX(x)=P(X≤x)
이 정의는 확률공간 에서 정의된 모든 확률변수 X에 대해 항상 유효하다. CDF는 다음의 네 가지 수학적 성질만 만족하면 반드시 존재한다.
-
비감소성: x1<x2⟹F(x1)≤F(x2)
-
우연속성: limh→0+F(x+h)=F(x)
-
극한값: limx→−∞F(x)=0 및 limx→∞F(x)=1
2. 확률밀도함수(PDF) 및 확률질량함수(PMF)의 부재 사례
모든 확률변수가 PDF나 PMF를 갖지 않는 이유는 확률변수의 종류가 이산형과 연속형으로만 나뉘지 않기 때문이다.
-
연속형이지만 PDF가 없는 경우 (특이 연속 분포): 대표적으로 **칸토어 분포(Cantor Distribution)**가 있다. 이 분포의 CDF는 모든 곳에서 연속이지만, 거의 모든 곳(almost everywhere)에서 미분계수가 0이다. 따라서 이를 적분하여 CDF를 만들 수 있는 PDF(f(x))가 존재하지 않는다.
-
혼합형 확률변수 (Mixed Random Variable): 이산형과 연속형이 섞여 있는 경우, 전체 구간에 대해 단일한 PMF나 PDF로 정의할 수 없다. (예: 특정 값에서 확률 질량이 존재하면서 동시에 나머지 구간은 연속적인 경우)
-
PMF의 제한: PMF는 오직 이산 확률변수(Discrete Random Variable)에서만 정의된다. 연속 확률변수에서는 P(X=x)=0이므로 PMF의 개념이 성립하지 않는다.
3. 비교 요약
| 구분 | 누적분포함수 (CDF) | 확률밀도함수 (PDF) | 확률질량함수 (PMF) |
|---|---|---|---|
| 존재 여부 | 모든 확률변수에서 존재 | 절대 연속인 경우에만 존재 | 이산 확률변수에서만 존재 |
| 정의 | P(X≤x) | FX′(x) | P(X=x) |
평균
산술, 기하, 조화
종속변수를 설명하는데 가장 중요한 독립변수
종속변수를 설명하는데 가장 중요한 독립변수로 적절한것은?
- pvalue 가 가장 작은 변수
- 표준화 자료로 추정한 계수가 가장 큰 변수
- 원자료로 추정한 계수가 가장 큰 변수
- 종속변수과의 상관관계분석에서, 상관계수가 가장 큰 변수
정답은 2. 표준화 자료로 추정한 계수가 가장 큰 변수다.
분석 및 이유
1. 표준화 계수(Standardized Coefficient)의 역할
다중회귀분석에서 각 독립변수는 서로 다른 단위를 가진다. 예를 들어, ‘나이(세)‘와 ‘소득(원)‘은 단위의 크기가 다르므로, 회귀계수의 절대적 크기만으로 종속변수에 미치는 영향력을 직접 비교할 수 없다.
-
표준화(z-score transformation): 모든 변수의 평균을 0, 표준편차를 1로 변환한다.
-
비교 가능성: 표준화된 데이터를 바탕으로 산출된 계수(베타 계수, β)는 단위의 영향이 제거된 상태다. 따라서 이 계수의 절대값이 클수록 종속변수에 미치는 상대적 영향력이 크다고 판단한다.
z=σx−μ
2. 오답 분석
-
1. p-value가 가장 작은 변수: p-value는 해당 변수가 통계적으로 유의미한지(귀무가설을 기각할 수 있는지)를 나타내는 지표일 뿐, 영향력의 크기나 중요도를 직접적으로 나타내지 않는다. 샘플 크기가 커지면 영향력이 미미해도 p-value는 매우 작아질 수 있다.
-
3. 원자료로 추정한 계수가 가장 큰 변수: 원자료의 계수(비표준화 계수)는 측정 단위에 따라 값이 결정된다. 예를 들어, 거리 단위를 ‘km’에서 ‘m’로 바꾸면 계수 값은 1,000배 차이가 나게 되므로 중요도 판단의 척도가 될 수 없다.
-
4. 상관계수가 가장 큰 변수: 상관계수는 두 변수 간의 일대일 선형 관계만을 나타낸다. 다른 독립변수들과의 상호작용이나 다중공선성 등을 고려하지 않기 때문에, 다변량 모델 내에서 해당 변수의 순수한 기여도를 설명하기에는 한계가 있다.
요약 표
| 항목 | 특징 | 중요도 판단 적절성 |
|---|---|---|
| 표준화 계수 | 단위 제거 후 상대적 영향력 측정 | 가장 적절함 |
| p-value | 통계적 유의성(우연히 발생했을 확률) | 부적절 (유의성만 판단) |
| 비표준화 계수 | 원자료 단위당 종속변수 변화량 | 부적절 (단위 의존적) |
| 상관계수 | 두 변수 간 단순 선형 관계 | 부적절 (다변량 맥락 무시) |
Sheets로 내보내기
이와 관련하여 다중공선성(VIF)이 표준화 계수의 해석에 미치는 영향에 대해 추가적인 설명이 필요한가?
군집분석과 연관분석 차이
군집분석(Cluster Analysis)과 연관분석(Association Analysis)은 모두 비지도 학습(Unsupervised Learning)에 속하나, 분석의 목적과 데이터의 구조 측면에서 명확한 차이가 있다.
1. 군집분석 (Cluster Analysis)
데이터 간의 유사성(Similarity) 혹은 **거리(Distance)**를 측정하여 유사한 특성을 가진 개체들을 하나의 그룹으로 묶는 기법이다.
-
목적: 개체들을 서로 배타적인 집단으로 분류하여 집단 내 동질성과 집단 간 이질성을 극대화함.
-
분석 대상: 관측치(Rows). 즉, ‘누가 누구와 비슷한가’를 분석함.
-
핵심 지표: 유클리드 거리, 맨해튼 거리 등 거리 척도.
-
주요 알고리즘: K-means, 계층적 군집분석, DBSCAN 등.
-
응용 사례: 고객 세분화(Segmentation), 이미지 압축, 이상치 탐지.
2. 연관분석 (Association Analysis)
데이터 내 항목들 간의 결합 패턴이나 동시 발생 확률을 찾아내어 규칙을 도출하는 기법이다. 흔히 ‘장바구니 분석’으로 불린다.
-
목적: 항목 간의 조건부 확률을 계산하여 ‘A를 구매할 때 B도 구매할 가능성’과 같은 규칙을 발견함.
-
분석 대상: 변수/항목(Items). 즉, ‘무엇과 무엇이 함께 일어나는가’를 분석함.
-
핵심 지표: 지지도(Support), 신뢰도(Confidence), 향상도(Lift).
-
지지도: P(A∩B)
-
신뢰도: P(B∣A)=P(A)P(A∩B)
-
향상도: P(B)P(B∣A)
-
-
주요 알고리즘: Apriori, FP-Growth.
-
응용 사례: 상품 배치 최적화, 추천 시스템, 웹 로그 분석.
3. 주요 차이점 비교
| 구분 | 군집분석 | 연관분석 |
|---|---|---|
| 핵심 개념 | 유사성 및 거리 | 항목 간의 동시 발생 패턴 |
| 분석 단위 | 개체(Observation) 단위의 그룹화 | 항목(Item) 간의 관계 법칙 추출 |
| 데이터 구조 | 연속형/범주형 변수를 가진 데이터셋 | 트랜잭션(Transaction) 형태의 데이터 |
| 결과 형태 | 군집(Cluster) 결과물 | ”If A, then B” 형태의 규칙 |
| 대표 기법 | K-means, Gaussian Mixture | Apriori, FP-Growth |
Sheets로 내보내기
요약: 군집분석은 **‘유사한 성격의 데이터들을 그룹핑’**하는 것이고, 연관분석은 **‘항목 간의 숨겨진 상관관계나 규칙을 발견’**하는 것이다. ADP 실기 시험 등의 맥락에서는 데이터의 스케일링(군집분석)이나 희소 행렬 변환(연관분석) 등 전처리 방식의 차이에도 유의해야 한다.
연관분석의 핵심 지표인 향상도(Lift)의 해석 방법이나 계산 예시가 필요한가?
PCA
SUMMARY(PCA) 공분산 행렬을 사용하여 주성분 분석을 시행한 것이다.
summary(pca_result) 출력 결과에서 주성분(PC)들의 표준편차(Standard Deviation) 값을 보면 즉시 확인 가능하다.
구체적인 판별 기준은 다음과 같다.
1. 표준편차(Standard Deviation)의 합 확인
가장 확실한 방법은 각 주성분의 표준편차를 제곱한 값(분산)들의 총합을 구하는 것이다.
-
상관계수 행렬(Correlation Matrix): 모든 변수를 표준화(μ=0,σ=1)한 상태에서 분석한 것이므로, 전체 분산의 합은 변수의 개수(p)와 정확히 일치한다.
i=1∑p(Standard Deviationi)2=p
-
공분산 행렬(Covariance Matrix): 원본 데이터의 스케일을 그대로 사용하므로, 분산의 합이 변수의 개수와 일치하지 않으며 원본 데이터 변수들의 분산 총합과 같다.
2. 표준편차 값의 크기 관찰
계산 없이 수치만 보고도 짐작할 수 있다.
-
상관계수 행렬일 경우:
-
첫 번째 주성분(PC1)의 표준편차는 보통 1보다 크다.
-
뒤로 갈수록 표준편차는 작아지며, 보통 마지막 주성분들의 표준편차는 1보다 매우 작은 값을 가진다.
-
모든 표준편차 값이 1 근처에서 놀거나, 제곱 합이 변수 개수와 맞아떨어진다면 100% 상관계수 행렬이다.
-
-
공분산 행렬일 경우:
-
데이터의 단위(Unit)에 의존한다. 예를 들어 소득(원) 데이터가 포함되어 있다면 표준편차 값이 수백, 수천 단위로 나올 수 있다.
-
반대로 소수점 단위의 데이터라면 표준편차가 매우 작게 나타난다. 즉, 값이 1이라는 기준과 상관없이 제각각이다.
-
3. 예시 비교
사례 A: 상관계수 행렬 (변수가 3개인 경우)
| PC1 | PC2 | PC3 | |
|---|---|---|---|
| Standard deviation | 1.565 | 0.812 | 0.334 |
-
제곱 합: 1.5652+0.8122+0.3342≈2.45+0.66+0.11=3.22 (반올림 오차 감안 시 변수 개수 3에 근접)
-
결론: 상관계수 행렬 사용 가능성이 매우 높음.
사례 B: 공분산 행렬
| PC1 | PC2 | PC3 | |
|---|---|---|---|
| Standard deviation | 150.21 | 12.45 | 0.003 |
-
표준편차 값이 극단적으로 크거나 작으며, 제곱 합이 변수 개수인 3과 전혀 관련이 없음.
-
결론: 공분산 행렬 사용.
지표
지표가 통계적 모델을 만들때 포함된다면, 모델의 설명력이 과대평가될 수 있다.
비모수
1. 단일 표본 및 랜덤성 검정
런 검정 (Run Test, Wald-Wolfowitz Run Test)
-
로직: 연속적인 관측값이 두 개의 범주(예: +/−, A/B, 중앙값 초과/미만)로 주어졌을 때, 동일한 범주가 이어지는 묶음(Run)의 개수를 세어 데이터의 무작위성을 측정한다. 런의 개수가 너무 적거나 너무 많으면 무작위성이 없다고 판단한다.
-
사용 상황: 시계열 데이터의 독립성 검정, 회귀 모델의 잔차 분석에서 관측값들이 무작위로 발생했는지 확인할 때 사용한다.
-
H0: 데이터가 무작위로 배열되어 있다. (독립적이다)
-
H1: 데이터가 무작위가 아니다. (연관성이 있다)
-
부호 검정 (Sign Test)
-
로직: 중위수와의 차이에 대한 부호(+ 또는 −)만을 이용한다.
-
사용 상황: 데이터 분포가 매우 비대칭이거나 측정값의 크기 자체가 큰 의미가 없을 때 사용한다.
윌콕슨 부호 순위 검정 (Wilcoxon Signed-Rank Test)
-
로직: 차이의 부호와 함께 그 차이값들의 절대적 순위를 고려한다.
-
사용 상황: 단일 표본 중위수 검정 또는 대응 표본(Paired) T-검정의 비모수 대안으로 사용한다.
2. 두 독립 표본 및 다중 표본 검정
맨-휘트니 U 검정 (Mann-Whitney U Test)
-
로직: 두 그룹을 합쳐 순위를 매긴 뒤, 그룹별 순위 합의 차이를 분석한다.
-
사용 상황: 독립 표본 T-검정의 비모수 대안이다.
크러스컬-월리스 검정 (Kruskal-Wallis Test)
-
로직: 3개 이상 집단의 순위 합 평균을 비교한다.
-
사용 상황: 일원배치 분산분석(One-way ANOVA)의 비모수 대안이다.
프리드먼 검정 (Friedman Test)
-
로직: 블록 디자인 내에서 순위를 매겨 반복 측정 데이터의 차이를 비교한다.
-
사용 상황: 반복측정 분산분석(Repeated Measures ANOVA)의 비모수 대안이다.
3. 통합 요약표
| 분석 종류 | 모수 검정 | 비모수 검정 | 측정 척도 및 특징 |
|---|---|---|---|
| 무작위성 | (해당 없음) | Run Test | 범주의 연속성(Run) 개수 |
| 단일 표본 | One-sample T-test | Sign Test, Wilcoxon Signed-Rank | 중위수 기준 부호 및 순위 |
| 두 대응 표본 | Paired T-test | Wilcoxon Signed-Rank | 차이값의 순위 |
| 두 독립 표본 | Independent T-test | Mann-Whitney U | 집단 간 순위 합 |
| K-독립 표본 | One-way ANOVA | Kruskal-Wallis | 3개 이상 집단 순위 합 평균 |
| K-대응 표본 | Repeated ANOVA | Friedman | 블록 내 순위 |
엔트로피
결론부터 말하면, 수학적 구조는 유사하지만 사용되는 목적과 맥락이 다르다. 의사결정나무(Decision Tree)의 분리 규칙에서 말하는 엔트로피는 정확히는 **‘샤논 엔트로피(Shannon Entropy)‘**를 의미한다.
1. 샤논 엔트로피 (Shannon Entropy)
의사결정나무에서 불순도(Impurity)를 측정하기 위해 사용하는 지표다. 하나의 집단 내에 서로 다른 클래스가 얼마나 섞여 있는지를 나타낸다.
-
수식:
H(S)=−i=1∑cpilog2(pi)
(pi는 해당 집단에서 클래스 i가 차지하는 비율)
-
특징: 집단 내 클래스 비율이 균등할수록(무질서할수록) 최대값 1을 가지며, 하나의 클래스로만 구성될수록 0에 수렴한다.
-
역할: 정보 이득(Information Gain)을 계산하여 분기점을 결정하는 기준이 된다.
2. 크로스 엔트로피 (Cross Entropy)
두 개의 확률 분포 p(실제값)와 q(예측값) 사이의 차이를 측정하는 지표다. 주로 로지스틱 회귀나 신경망의 손실 함수(Loss Function)로 사용된다.
-
수식:
H(p,q)=−x∑p(x)logq(x)
-
특징: 실제 분포 p와 모델이 예측한 분포 q가 얼마나 일치하는지 측정한다. 두 분포가 완벽히 일치하면 크로스 엔트로피는 샤논 엔트로피와 같아진다.
3. 주요 차이점 비교
| 구분 | 샤논 엔트로피 (의사결정나무) | 크로스 엔트로피 (딥러닝/로지스틱) |
|---|---|---|
| 핵심 목적 | 데이터 집합의 불순도(Impurity) 측정 | 실제값과 예측값의 차이(오차) 측정 |
| 대상 | 단일 확률 분포 (현재 노드의 데이터 상태) | 두 확률 분포 (실제 레이블 vs 모델 출력) |
| 응용 | 정보 이득(IG) 계산을 통한 최적 분할 | 손실 함수 최적화를 통한 가중치 업데이트 |
Sheets로 내보내기
4. 왜 혼용되는가?
수학적으로 크로스 엔트로피는 다음과 같이 분해될 수 있다.
H(p,q)=H(p)+DKL(p∣∣q)
(는 실제 데이터의 엔트로피, 은 쿨백-라이블러 발산)
분류 문제에서 실제값 p가 고정되어 있다면(즉, 데이터셋이 주어져 있다면), 는 상수이므로 크로스 엔트로피를 최소화하는 것은 결국 두 분포의 차이(DKL)를 최소화하는 것과 같다. 의사결정나무에서도 자식 노드들의 엔트로피 합(불순도)을 최소화하는 방향으로 학습하므로, 결과적으로 ‘정보 손실을 최소화한다’는 관점에서 맥락이 닿아 있다.
특히 Scikit-learn 같은 라이브러리에서는 분류 트리에서 엔트로피 기준을 log_loss라고 표현하기도 하는데, 이는 크로스 엔트로피와 통계적으로 동일한 개념이다.
요약: 의사결정나무의 기준은 샤논 엔트로피다. 하지만 모델의 예측 확률 분포와 실제 분포의 차이를 계산한다는 관점을 확장하면 크로스 엔트로피의 특수한 케이스로 볼 수 있다.
이와 관련하여 지니 계수(Gini Impurity)와 엔트로피의 계산상 차이점에 대해 더 알고 싶은가?
빅데이터 시각화
- 정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 정보 디자인은 데이터의 디테일을 나타낸다. ② 데이터 시각화는 정보형 메시지를 전달한다. ③ 인포 시각화는 설득형 메시지를 전달한다. ④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.
틀린 이유 분석
① 정보 디자인은 데이터의 디테일을 나타낸다.
- 교정: 데이터의 디테일과 패턴을 직접적으로 보여주는 것은 **데이터 시각화(Data Visualization)**의 영역이다. **정보 디자인(Information Design)**은 방대한 데이터를 가공하여 특정 메시지를 효과적으로 전달하기 위해 정보를 조직화하고 구조화하는 데 초점을 맞춘다. 즉, 데이터 자체의 세부 사항보다는 그 데이터가 담고 있는 **‘의미(Meaning)‘나 ‘메시지’**를 명확하게 전달하는 것이 목적이다.
각 시각화 영역별 특징 (옳은 지문 설명)
-
② 데이터 시각화는 정보형 메시지를 전달한다.
- 데이터 시각화는 탐색적 분석(Exploratory Analysis)의 성격이 강하며, 사용자가 데이터에서 직접 통찰(Insight)을 얻을 수 있도록 객관적인 정보를 제공하는 것이 주된 목적이다.
-
③ 인포 시각화(Infographics)는 설득형 메시지를 전달한다.
- 인포그래픽은 특정 주제나 이야기에 맞춰 데이터를 가공하고 디자인 요소를 추가한다. 제작자가 의도한 결론이나 메시지를 독자에게 효과적으로 각인시키려는 설득(Persuasive) 및 스토리텔링 목적이 강하다.
-
④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.
- 빅데이터 시각화는 대규모 데이터셋 속에 숨겨진 상관관계나 추세(Trend)를 발견하는 데 집중한다. 데이터의 양이 워낙 방대하기 때문에 특정 결론을 강요하기보다, 현상을 그대로 투영하여 정보를 전달하는 정보형(Informational) 성격이 짙다.
시각화 분류 비교표
| 구분 | 데이터 시각화 (Data Vis) | 정보 디자인 / 인포그래픽 |
|---|---|---|
| 핵심 목적 | 데이터 탐색 및 패턴 발견 | 메시지 전달 및 이해 증진 |
| 메시지 성격 | 정보형 (Informational) | 설득형 (Persuasive) |
| 표현 대상 | 원천 데이터의 속성과 수치 | 가공된 정보와 맥락 |
| 사용자 역할 | 직접 인사이트를 찾아냄 | 제시된 스토리를 수용함 |
Sheets로 내보내기
출처: 데이터분석전문가(ADP) 가이드 - 시각화 전략 파트
이와 관련하여 시각화의 3요소인 **‘정보(Information)’, ‘설계(Design)’, ‘매체(Medium)‘**의 유기적 관계에 대해서도 추가 설명이 필요한가?401