1. 계층적 클러스터링(Hierarchical Clustering) 거리 측정 방법론 5가지

계층적 클러스터링은 군집 간의 거리를 어떻게 측정하느냐에 따라 병합 방식이 달라진다.

  • 최단 연결법 (Single Linkage): 두 군집에서 가장 가까운 데이터 포인트 사이의 거리를 측정한다. 사슬 현상(Chaining Effect)이 발생할 수 있다.

  • 최장 연결법 (Complete Linkage): 두 군집에서 가장 멀리 떨어진 데이터 포인트 사이의 거리를 측정한다. 군집의 지름을 최소화하는 경향이 있다.

  • 평균 연결법 (Average Linkage): 두 군집의 모든 데이터 포인트 간 거리의 평균을 측정한다. 계산량이 많지만 이상치에 덜 민감하다.

  • 중심 연결법 (Centroid Linkage): 두 군집의 중심점(Centroid) 사이의 거리를 측정한다.

  • 와드 연결법 (Ward’s Method): 군집 내 오차제곱합(SSE)의 증분량을 최소화하는 방향으로 군집을 병합한다. 군집의 크기를 비슷하게 유지하려는 경향이 있다.

2. 임의 샘플링(Non-Probability Sampling) 방법 5가지

모집단의 구성원이 표본으로 추출될 확률을 알 수 없는 비확률적 방법이다.

  • 편의 샘플링 (Convenience Sampling): 조사자가 가장 쉽게 접근할 수 있는 대상들을 표본으로 선정한다.

  • 판단 샘플링 (Judgment Sampling): 조사자가 자신의 전문 지식이나 판단에 따라 적합하다고 생각하는 대상을 선정한다.

  • 할당 샘플링 (Quota Sampling): 인구통계적 특성(성별, 연령 등)을 기준으로 모집단을 구분하고, 각 층에 할당된 수만큼 임의로 선정한다.

  • 스노우볼 샘플링 (Snowball Sampling): 최초의 응답자로부터 추천을 받아 다음 표본을 순차적으로 확보한다. 접근하기 어려운 집단 조사에 유용하다.

  • 자발적 샘플링 (Voluntary Sampling): 조사자의 요청에 스스로 응한 사람들을 표본으로 구성한다.

3. 확률 샘플링(Probability Sampling) 방법 4가지

모집단의 모든 구성원이 표본으로 추출될 확률이 동일하거나 알려져 있는 방법이다.

  • 단순 랜덤 샘플링 (Simple Random Sampling): 모집단에서 아무런 규칙 없이 무작위로 추출한다. 난수표나 제비뽑기 방식이 해당한다.

  • 계통 샘플링 (Systematic Sampling): 모집단 목록에서 첫 번째 표본을 무작위로 선택한 후, 일정한 간격(k번째)마다 표본을 추출한다.

  • 층화 샘플링 (Stratified Sampling): 모집단을 서로 겹치지 않는 소집단(층)으로 나눈 뒤, 각 층 내에서 독립적으로 무작위 추출을 수행한다.

  • 군집 샘플링 (Cluster Sampling): 모집단을 군집으로 나누고, 특정 군집을 무작위로 선택한 뒤 선택된 군집 내의 요소를 전수 조사하거나 일부 추출한다.

네트워크 분석에서 개별 노드가 전체 네트워크에서 얼마나 중요한 위치를 차지하는지 측정하는 지표인 **중심성(Centrality)**의 주요 4가지 유형을 정리한다.

중심성

1. 연결 중심성 (Degree Centrality)

가장 직관적인 지표로, 한 노드가 얼마나 많은 인접 노드와 직접 연결되어 있는지를 측정한다.

  • 의미: 직접적인 관계의 양을 나타내며, 네트워크 내에서 ‘마당발’이나 ‘인플루언서’를 찾는 데 사용된다.

  • 특징: 로컬한 위치의 중요도만 판단하며, 전체 네트워크 구조는 반영하지 못한다.

  • 계산: 해당 노드의 연결 수 / (전체 노드 수 - 1).

2. 근접 중심성 (Closeness Centrality)

한 노드가 다른 모든 노드에 도달하기까지 필요한 경로의 짧은 정도를 측정한다.

  • 의미: 정보가 전체 네트워크로 얼마나 빨리 전파될 수 있는지를 나타낸다.

  • 특징: 값이 높을수록 네트워크의 ‘중앙’에 위치하여 다른 노드들과의 거리가 짧음을 의미한다.

  • 계산: 모든 노드까지의 최단 경로 거리 합의 역수.

3. 매개 중심성 (Betweenness Centrality)

네트워크 내 노드들 간의 최단 경로 위에 해당 노드가 얼마나 자주 위치하는지를 측정한다.

  • 의미: 서로 다른 집단 간의 정보를 중계하거나 통제하는 ‘가교(Bridge)’ 역할을 나타낸다.

  • 특징: 연결 중심성이 낮더라도 이 값이 높으면 네트워크의 흐름을 장악하고 있는 핵심 노드일 가능성이 크다.

4. 고유벡터 중심성 (Eigenvector Centrality)

자신과 연결된 다른 노드들의 중요도까지 반영하여 중심성을 측정한다.

  • 의미: 단순히 연결이 많은 것이 아니라, ‘중요한 노드와 얼마나 많이 연결되어 있는가’를 따진다.

  • 특징: 구글의 페이지랭크(PageRank) 알고리즘의 기초가 되는 개념이다. 권력이나 영향력이 큰 인물과 가까울수록 가중치가 높아진다.


시계열

시계열 분석(ARIMA) 모델 식별을 위한 ACF(자기상관함수)와 PACF(편부분자기상관함수)의 특성 및 모수 개수를 정리한다.

시계열 모델별 ACF/PACF 특성 및 모수

모델 형태ACF (자기상관함수)PACF (편부분자기상관함수)추정 모수 수
AR(p)지수적으로 감소하거나 소멸하는 파형 (급격한 감소)p+1 시차에서 절단 (p 시차 이후 0)p (계수) + 1 (백색잡음 분산)
MA(q)q+1 시차에서 절단 (q 시차 이후 0)지수적으로 감소하거나 소멸하는 파형 (급격한 감소)q (계수) + 1 (백색잡음 분산)
ARMA(p,q)q 시차 이후부터 급격히 감소 (지수적/사인파)p 시차 이후부터 급격히 감소 (지수적/사인파)p+q+1

Sheets로 내보내기


핵심 요약

  1. 급격한 감소 (Tailing off):

    • 해당 지표가 시차가 증가함에 따라 0으로 수렴하는 형태를 의미한다.

    • AR 모델은 ACF가, MA 모델은 PACF가 급격히 감소하는 특성을 보인다.

  2. 절단점 (Cutting off):

    • 특정 시차 이후 값이 갑자기 0(신뢰구간 안)으로 떨어지는 지점이다.

    • **AR(p)**는 PACF의 절단점을 통해 차수 p를 결정한다.

    • **MA(q)**는 ACF의 절단점을 통해 차수 q를 결정한다.

  3. 모수(Parameter)의 숫자:

    • 기본적으로 모델의 차수(p,q)만큼의 계수가 필요하며, 오차항의 분산(σ2)을 포함한다.

    • 데이터의 평균이 0이 아니라고 가정할 경우 상수항(μ 또는 δ)이 추가되어 모수 개수는 1개 더 늘어난다.

추가로 ARIMA 모델의 차분(d) 결정 방식이나 백색잡음 검정에 대해 알고 싶으면 질문해라.

예제

acf 가 급격히 감소하고 pacf 의 절단점이 3인 경우 arma (3,0) 모델이 적합하다. acf 가 3 이후에 절단값을 가지며 pacf 가 빠르게 감소하는 경우 arma(0,2) 모델로 평가할 수 있다. ar(2) 모델에서는 2개의 시차와 상수항을 포함한 총 4개의 모수를 추정해야 한다.

제시한 세 가지 문장에 대해 분석 및 교정 결과를 정리한다.

1. ACF 급격 감소 및 PACF 시차 3 절단 → ARMA(3,0)

[판단: 적절함]

  • 논거: 은 곧 AR(3) 모델을 의미한다. 자기회귀(AR) 모델은 이론적으로 **ACF가 시차가 증가함에 따라 지수적으로 감소하거나 소멸하는 파형(Tailing off)**을 보이며, **PACF는 p 시차 이후 0으로 절단(Cutting off)**되는 특성을 갖는다.

  • 결론: PACF가 시차 3에서 절단되었다는 것은 p=3임을 시사하므로 AR(3) 또는 ARMA(3,0) 모델로 식별하는 것이 타당하다.

2. ACF 시차 3 절단 및 PACF 급격 감소 → ARMA(0,2)

[판단: 부적절 (차수 오류)]

  • 논거: ACF가 특정 시차 이후 절단되는 것은 이동평균(MA) 모델의 전형적인 특징이다. ARMA(0,q) 모델, 즉 MA(q) 모델은 ACF가 시차 q 이후에 절단되어야 한다.

  • 교정: ACF가 시차 3 이후에 절단값을 가진다면, q=2가 아니라 q=3ARMA(0,3) 또는 MA(3) 모델로 평가하는 것이 옳다. ARMA(0,2) 모델이라면 ACF가 시차 2 이후에 절단되어야 한다.

3. AR(2) 모델의 추정 모수 개수

[판단: 부적절 (개수 오류)]

  • 논거: AR(2) 모델의 일반식은 다음과 같다:

    Yt​=c+ϕ1​Yt−1​+ϕ2​Yt−2​+ϵt​

    여기서 추정해야 할 모수는 다음과 같다.

    1. 상수항 (c): 1개

    2. 자기회귀 계수 (ϕ1​,ϕ2​): 2개

    3. 오차항(백색잡음)의 분산 (σϵ2​): 1개

  • 결론: 따라서 추정해야 할 총 모수의 수는 4개다. 네가 언급한 ‘2개의 시차(계수)와 상수항’만 합산하면 3개이지만, 통계적 모델 추정 시 **백색잡음의 분산(σ2)**은 반드시 포함되어야 하는 핵심 모수다. 결과적으로 4개라는 수치는 맞으나, 구성 요소에 분산이 포함됨을 인지해야 한다.


추가 확인 사항: 데이터의 정상성(Stationarity)을 확보하기 위한 차분(Differencing) 과정이나, 모델의 적합도를 평가하는 AIC/BIC 지표에 대해서도 정리해 줄까?

통계적 모델링에서 오차항(ϵt​) 그 자체와 **오차항의 분산(σ2)**을 구분해서 이해해야 한다. 결론부터 말하자면, 오차항은 추정 대상이 아니라 산출(Calculated) 대상이며, 오차항의 확률 분포를 결정짓는 분산은 추정 대상이다.


1. 오차항(ϵt​)은 왜 추정 대상이 아닌가?

  • 정의: 오차항은 관측값과 모델 예측값의 차이(잔차, Residuals)로 계산되는 확률 변수다.

  • 성격: 모델이 설명하지 못하는 ‘무작위성(Randomness)’ 그 자체를 의미한다. 우리가 찾고자 하는 모델의 규칙(Parameter)이 아니라, 규칙을 적용하고 남은 찌꺼기다.

  • 산출: 모수(ϕ,θ,c)가 결정되면 오차항은 Yt​−Y^t​를 통해 자동으로 계산되는 값이다.

2. 왜 오차항의 분산(σ2)은 추정 대상인가?

  • 모수의 정의: 통계학에서 추정 대상인 ‘모수(Parameter)‘는 집단의 특성을 결정짓는 고정된 값이다.

  • 분산의 역할: 오차항이 평균이 0이고 분산이 σ2인 백색잡음(White Noise)을 따른다고 가정할 때, 이 σ2은 오차의 크기와 모델의 정밀도를 결정짓는 고정된 상수로 취급된다.

  • 최우추정법(MLE): ARIMA 모델 등을 추정할 때 사용하는 최대우도법(Maximum Likelihood Estimation)은 계수들과 함께 이 분산(σ2)을 최적으로 만드는 값을 동시에 찾아낸다.

3. 요약 및 정리

AR(2) 모델 Yt​=c+ϕ1​Yt−1​+ϕ2​Yt−2​+ϵt​ 에서:

구분항목성격추정 여부
모수 (Parameter)c,ϕ1​,ϕ2​,σ2집단의 고정된 특성추정 대상 (O)
확률 변수 (Variable)Yt​,ϵt​매 시점 변하는 값추정 대상 (X)

Sheets로 내보내기

따라서 **“오차항의 분산은 추정해야 할 모수”**에 해당하지만, **“오차항 그 자체”**는 추정하는 것이 아니라 모델 구축 후 계산되어 나오는 값으로 보는 것이 타당하다.


추가로 오차항이 백색잡음을 따르는지 확인하는 Ljung-Box 검정에 대해 설명이 필요한가?

계수의 위계적 원칙

통계적 관점에서 결론부터 말하자면, 특별한 이론적 근거가 없는 한 X1​이 생략된 모델은 사용하지 않는 것이 원칙이다.

설명력(R2)이 더 높더라도 위계적 원칙(Hierarchical Principle)을 지켜야 하는 이유는 다음과 같다.


1. 원점 의존성 및 모델의 왜곡

X1​ 항(1차항)을 제거하고 X12​ 항(2차항)만 남기는 것은, 포물선의 꼭짓점이 반드시 X1​=0인 지점에 위치해야 한다고 강제하는 것과 같다.

  • 실제 데이터의 패턴이 X1​=5에서 굴곡이 생기더라도, 1차항이 없으면 모델은 이를 제대로 반영하지 못하고 억지로 X12​에 맞추려다 보니 매개변수 추정이 왜곡된다.

2. 변수 변환에 대한 비불변성 (Scale Invariance)

이것이 가장 치명적인 이유다. 1차항이 없는 모델은 데이터의 측정 단위(Scale)를 바꾸는 것만으로도 모델의 본질이 변해버린다.

  • 예를 들어 온도를 섭씨(C)로 측정했을 때 Y=β0​+β1​C2이 성립한다고 가정하자.

  • 이를 화씨(F)로 변환하면 C=(F−32)/1.8이므로, 식은 Y=β0​+β1​[(F−32)/1.8]2이 된다.

  • 이 식을 전개하면 반드시 F에 대한 1차항이 나타나게 된다.

  • 즉, 단위만 바꿨는데 원래 모델(1차항이 없는 모델)로는 표현 불가능한 형태가 되는 모순이 발생한다. 1차항을 포함하고 있어야만 어떤 단위에서도 동일한 관계를 설명할 수 있다.

3. 수학적 위계 (Taylor Expansion)

통계 모델은 종종 복잡한 함수를 다항식으로 근사하는 **테일러 전개(Taylor Expansion)**의 관점에서 이해된다. 테일러 전개에서 고차항(X2)은 저차항(X)이 설명하고 남은 세부적인 곡선 패턴을 보완하는 역할을 한다. 따라서 기초가 되는 1차항을 건너뛰고 2차항만 넣는 것은 논리적 비약으로 간주된다.


예외적인 경우

물론 아주 드물게 1차항을 제외하는 경우가 있다.

  • 물리적 법칙: 이론적으로 반드시 X=0일 때 Y의 변화율이 0이어야만 하는 물리 법칙이 존재할 때.

  • 이론적 근거: 해당 도메인 지식에서 1차 효과가 절대 존재할 수 없음이 증명되었을 때.

요약하자면: 단순히 R2가 높거나 p-value가 유의미하다는 이유로 1차항을 빼는 것은 **‘데이터 피팅(Overfitting)‘**에 불과할 가능성이 높다. 모델의 강건성(Robustness)과 해석의 타당성을 위해 유의미하지 않더라도 X1​은 포함하는 것이 정석이다.

실제로 분석을 수행할 때 변수 선택법(Stepwise)을 쓰더라도 2차항이 선택되면 1차항은 강제로 투입(Enter)시키는 설정을 사용하는 이유가 바로 이것이다.

다른 분석 기법에서 이와 유사한 원칙이 적용되는 사례를 더 알고 싶나?

연관규칙

후보집합(Candidate Generation) 생성 과정 없이 연관규칙을 발견하는 알고리즘은 **FP-성장(FP-Growth)**이다.

각 알고리즘의 특징을 정리하면 다음과 같다.

1. FP-성장 (FP-Growth)

  • 특징: 후보 집합을 생성하지 않고, 데이터베이스를 **FP-Tree(Frequent Pattern Tree)**라는 구조로 압축하여 빈번 패턴을 추출한다.

  • 장점: 데이터베이스 스캔 횟수가 2회로 적고, 후보 집합 생성 및 테스트 과정이 없어 Apriori보다 속도가 매우 빠르다.

2. Apriori

  • 특징: 가장 고전적인 알고리즘으로, 모든 품목 집합에 대해 후보 집합(Candidate Set)을 생성하고 지지도를 계산하여 빈번 항목을 찾는다.

  • 단점: 데이터베이스 스캔 횟수가 많고, 후보 집합의 수가 기하급수적으로 늘어나 계산 비용이 크다.

3. ECLAT (Equivalence Class Transformation)

  • 특징: 데이터의 구조를 수평적(Horizontal)이 아닌 수직적(Vertical) 구조(Tidset)로 변환하여 교집합 연산을 통해 빈번 항목을 찾는다.

  • 비교: 후보 집합 생성 과정은 있으나, Apriori보다 효율적인 탐색 방식을 사용한다.

**RARM(Rapid Association Rule Mining)**은 대용량 데이터베이스에서 연관규칙을 매우 빠르게 찾아내기 위해 제안된 알고리즘이다.

이 알고리즘의 핵심은 트리 구조를 사용하여 후보 집합 생성 과정을 최적화하고 연산 속도를 높이는 데 있다.

주요 특징

  • SOTrieIT 구조 사용: Support-Ordered Trie Itemset(SOTrieIT)이라는 특수한 트리 구조를 사용하여 빈번 항목 집합을 저장하고 관리한다.

  • 사전 처리: 데이터베이스를 한 번 스캔하여 1-itemset과 2-itemset의 지지도를 미리 계산하고 이를 트리 구조에 반영한다.

  • 속도 중심: Apriori 알고리즘의 고질적인 문제인 ‘반복적인 데이터베이스 스캔’과 ‘방대한 후보 집합 생성’ 성능 저하를 해결하기 위해 설계되었다.

알고리즘 비교 요약

구분AprioriFP-GrowthRARM
핵심 기법후보 집합 생성 및 제거FP-Tree 구조SOTrieIT 구조
후보 생성 여부생성함 (비효율적)생성 안 함최적화된 트리 활용
DB 스캔 횟수항목 크기만큼 반복2회최소화 (사전 처리 중심)

Sheets로 내보내기

RARM은 학술적으로 연관규칙 마이닝의 속도 향상을 논할 때 주로 언급되지만, 실무나 ADP 시험 범위에서는 FP-GrowthApriori의 비중이 압도적으로 높다. 따라서 “후보 집합 생성 없는 알고리즘 = FP-Growth”라는 공식을 우선순위에 두고 학습하는 것을 추천한다.

다른 연관분석 알고리즘(예: AIS, SETM)에 대해서도 더 알고 싶나?

기울기소실

질문에 제시된 현상은 **포화 문제(Saturation Problem)**다.

인공신경망에서 이 문제가 발생하는 메커니즘과 각 용어의 의미는 다음과 같다.

1. 포화 문제 (Saturation Problem)

  • 원인: 시그모이드(Sigmoid)나 하이퍼볼릭 탄젠트(tanh) 같은 비선형 활성화 함수를 사용할 때, 입력값의 절댓값이 커지면 함수의 기울기(gradient)가 0에 아주 가까워진다.

  • 결과: 가중치 업데이트를 위한 기울기가 사라지는 기울기 소실(Vanishing Gradient) 현상이 발생한다. 가중치 조정이 더 이상 이루어지지 않아 학습이 멈추고, 충분한 학습이 되지 않는 과소적합(Underfitting) 상태에 머물게 된다.

  • 해결책: ReLU 계열의 활성화 함수를 사용하거나 가중치 초기화(Weight Initialization) 기법을 개선하여 노드 값이 포화 영역으로 빠지지 않게 관리해야 한다.


2. 오답 분석

  • 수렴 최소화 문제: 일반적으로 사용되는 용어는 아니나, 지역 최솟값(Local Minimum)에 갇혀 더 이상 학습이 진행되지 않는 상황을 의미할 수 있다.

  • 전역 최적화 문제 (Global Optimization): 손실 함수에서 가장 낮은 지점인 전역 최솟값을 찾는 과정 자체를 의미한다. 포화 문제는 이 과정 중에 발생하는 장애 요소 중 하나다.

  • 비선형 문제: 데이터의 관계가 직선이 아닌 곡선 형태인 경우를 의미하며, 신경망은 이를 해결하기 위해 비선형 활성화 함수를 도입한 것이다.


결론: 정답은 포화 문제다.

ADP 시험에서는 특히 **기울기 소실(Vanishing Gradient)**과 이로 인한 학습 정체 문제를 활성화 함수의 특성과 연결해서 자주 묻는다. 시그모이드 함수의 미분값 최댓값이 0.25라는 점도 함께 기억해 두면 도움이 될 거다.

추가로 ReLU나 Leaky ReLU가 이 포화 문제를 어떻게 해결하는지 설명해 줄까?

시각화

  1. 다음 중 정보 조직화에 대한 설명으로 가장 적절하지 않은 것은?

① 정보 조직화는 데이터를 체계적으로 배열하여 사용자가 쉽게 접근하고 이해할 수 있도록 돕는 과정이다. ② 정보 조직화는 시각, 청각, 촉각, 미각, 후각의 감각 기관에 최적의 자극을 주는 방법을 제시한다. ③ 정보 조직화 과정에서는 정보의 중요성과 관련성을 기준으로 데이터를 분류하고 우선순위를 정하는 것이 필수적이다. ④ 정보 조직화 단계에서는 사용자 요구에 따라 데이터를 시각적으로 표현하는 방법도 고려해야 한다.

  1. 시각적 이해의 위계를 구성하는 계층에 대한 설명으로 가장 적절하지 않은 것은?

① 지혜는 정보를 기반으로 한 의사결정의 결과로, 암묵지의 형태로 겉으로 드러내어 전달하기 힘들다. ② 지식은 정보를 조직화하고 분석하여 특정한 상황에서 의미를 부여하는 복잡한 과정이다. ③ 정보는 데이터를 바탕으로 생성되며, 사용자에 따라 다르게 해석될 수 있는 특성을 가진다. ④ 데이터는 그 자체로는 의미를 가지지 않으며, 정보를 생성하기 위한 원자재 역할을 한다.

  1. 다음 중 정보 디자인 프로세스 단계에서 내러티브 찾기에 관한 설명이 가장 적절하지 않은 것은?

① 내러티브 찾기는 데이터를 바탕으로 스토리를 구성하는 과정이다. ② 이 단계에서는 특정한 메시지를 전달하기 위해 데이터의 패턴이나 트렌드를 식별해야 한다. ③ 내러티브 찾기는 주로 시각화 도구를 사용하여 정보를 표현하는 데 초점을 맞춘다. ④ 이 과정에서는 독자가 관심을 가질 수 있는 흥미로운 사실이나 가치를 발견하는 것이 중요하다.

  1. ISOTYPE의 핵심 개념 중 정보 전달을 위한 기호의 사용에 대한 설명으로 가장 적절하지 않은 것은?

① ISOTYPE은 복잡한 정보를 단순화하여 쉽게 이해할 수 있도록 기호를 사용한다. ② 기호는 언어의 장벽을 넘어서 다양한 문화권에서도 동일한 의미로 해석될 수 있다. ③ 기호는 데이터를 시각적으로 표현하여 직관적으로 정보를 전달하는 데 중요한 역할을 한다. ④ ISOTYPE의 기호는 주로 예술적 표현을 위한 도구로 사용되며 정보 창작에 적합하다.

  1. 시각화 도구를 이용해 데이터를 표현할 때 주의해야 할 요소에 대한 설명으로 가장 적절한 것은?

① 차원 설정은 데이터의 복잡성을 줄여 시각화를 단순화할 수 있다. ② 이상값은 데이터 해석에 있어 중요한 요소가 아니다. ③ 측정값은 데이터의 정확성을 반영해야 한다. ④ 척도 설정은 데이터의 시각적 표현에 큰 영향을 미친다.

  1. 정보 표현을 위한 그래픽 요소와 이에 대한 설명으로 가장 적절하지 않은 것은?

① 그래픽 요소에서 크기는 수치로 표현이 가능하여 양과 중요도를 효과적으로 나타낼 수 있다. ② 그래픽 요소에서 형태는 다양한 형태는 정보의 다양성을 나타내며, 각기 다른 개념을 직관적으로 표현할 수 있다. ③ 그래픽 요소에서 대비는 색상이나 크기의 대비는 시각적으로 두 요소의 차이를 강조하여 주목도를 높인다. ④ 그래픽 요소에서 질감은 동일한 색상과 형태일지라도 질감이 다르면 시각적으로 강조된다.

  1. 빅데이터와 시각화 디자인의 방향에 대한 설명으로 가장 적절하지 않은 것은 무엇인가?

① 빅데이터 시각화는 복잡한 데이터를 단순화하여 대중이 이해할 수 있도록 돕는다. ② 효과적인 시각화 디자인은 데이터를 전달하는 데 있어 항상 색상 대비를 최소화해야 한다. ③ 시각화 디자인은 데이터의 패턴과 트렌드를 쉽게 인식할 수 있도록 지원한다. ④ 빅데이터 시각화는 다양한 형태의 시각적 요소를 활용하여 정보를 전달하는 데 중점을 둔다.

  1. 다음 중 시각화에 대한 설명으로 가장 적절하지 않은 것은?

① 데이터 시각화는 복잡한 데이터셋에서 유의미한 인사이트를 도출하기 위한 필수적인 과정이다. ② 시각화는 광범위하게 분산된 방대한 양의 자료를 분석해 한눈에 볼 수 있도록 정리하는 것을 의미한다. ③ 빅데이터는 단순한 구조로 설명하기 쉽고, 복잡한 데이터 간의 관계를 쉽게 표현할 수 있다. ④ 데이터 시각화에서 가장 중요한 효과는 자료에서 정보를 습득하는 시간을 줄이는 것이다.

  1. 다음 중 데이터 시각화 차원에서 2차 탐색의 과정과 관련하여 가장 부적절한 설명은 무엇인가?

① 2차 탐색은 초기 데이터 분석 후, 보다 깊은 인사이트를 얻기 위해 시각화를 활용하는 과정이다. ② 2차 탐색은 데이터의 패턴을 발견하기 위해 주로 정량적 데이터에만 집중해야 한다. ③ 탐색의 초기 목표를 설정하는 것은 통찰을 얻는 데 필수적이다. ④ 자원의 측정값 조합을 변경하며 관찰하는 것이 효과적이다.

72. 정답: ②

해설: 정보 조직화는 사용자가 정보를 쉽게 찾고 이해할 수 있도록 구조화하는 과정이지, 오감(시각, 청각, 촉각, 미각, 후각)의 감각 기관에 최적의 자극을 주는 ‘감성 공학’이나 ‘심리학적 자극’ 자체를 목적으로 하는 분야가 아니다.


73. 정답: ①

해설: DIKW(Data-Information-Knowledge-Wisdom) 피라미드 체계에서 **지혜(Wisdom)**는 지식을 바탕으로 한 판단력과 통찰력을 의미한다. 지혜 자체는 내면화된 속성이 강해 전달이 어려울 수 있으나, 선지의 설명 중 ‘의사결정의 결과’라는 표현보다는 ‘지식을 올바르게 사용하는 능력’에 가깝다. 특히, **지식(Knowledge)**이 형식지와 암묵지로 나뉘며 전달의 난이도를 논하는 경우가 일반적이다.


74. 정답: ③

해설: **내러티브 찾기(Narrative Finding)**는 시각화 도구를 사용해 표현하기 이전의 단계다. 수집된 데이터 속에서 어떤 이야기를 끌어낼 것인지, 즉 ‘무엇을 말할 것인가’를 결정하는 기획 단계에 해당한다. 시각화 도구 사용은 표현(Visualizing) 단계의 핵심이다.


75. 정답: ④

해설: **ISOTYPE(International System of Typographic Picture Education)**은 오토 노이라트가 고안한 것으로, 교육적 목적과 정보 전달의 효율성을 극대화하기 위해 설계되었다. 이는 철저하게 객관적인 정보 전달을 위한 도구이지, 개인의 예술적 표현이나 미적 창작을 주된 목적으로 하지 않는다.


76. 정답: ④

해설: * ① 차원 설정은 복잡성을 줄일 수도 있지만, 부적절한 설정은 왜곡을 낳는다.

  • ② 이상값(Outlier)은 데이터 해석에서 오류를 방지하거나 새로운 패턴을 발견하는 데 매우 중요한 요소다.

  • ③ 측정값은 정확성뿐만 아니라 맥락에 맞는 적절한 지표 선정이 중요하다.

  • ④ 척도(Scale) 설정은 데이터의 왜곡(예: y축 시작점 조작)을 결정짓는 핵심 요소로, 시각적 표현에 결정적인 영향을 미친다.


77. 정답: ④

해설: 질감(Texture)은 시각적으로 강조를 줄 수 있는 요소는 맞으나, 정보 디자인의 그래픽 요소 설명에서 ‘동일한 색상과 형태일지라도 질감이 다르면 시각적으로 강조된다’는 설명은 이론적으로 틀린 말은 아니다. 하지만 문제의 의도상 **대비(Contrast)**나 **크기(Size)**만큼 수치화되거나 일반적인 정보 위계 형성에 결정적인 역할을 하는 주된 요소로 보지 않는 경우가 많다. (이 문제는 선지 중 상대적으로 가장 ‘설명이 미흡한 것’을 골라야 하나, 이론적으로 ④번도 가능성이 있다. 다만 일반적인 디자인 원론에서는 ‘질감’보다 ‘대비’나 ‘위치’가 더 상위의 위계를 가진다.)


78. 정답: ②

해설: 효과적인 시각화 디자인을 위해서는 정보 간의 변별력을 높여야 한다. 따라서 색상 대비를 최소화하는 것이 아니라, 중요도에 따라 적절한 대비(Contrast)를 활용하여 가독성과 주목성을 높여야 한다.


79. 정답: ③

해설: **빅데이터(Big Data)**는 그 용어 자체에서 알 수 있듯이 규모가 방대하고(Volume), 생성 속도가 빠르며(Velocity), 형태가 다양(Variety)하다. 즉, 단순한 구조가 아니며 매우 복잡하기 때문에 이를 쉽게 표현하기 위해 시각화가 필요한 것이다.


80. 정답: ②

해설: 데이터 시각화의 탐색 과정(Exploratory Data Analysis)은 숫자 중심의 정량적 데이터뿐만 아니라 데이터 간의 관계, 분포, 속성 등 정성적 맥락을 파악하는 것도 포함한다. 또한 현대의 탐색적 분석은 비정형 데이터(텍스트, 이미지 등)를 포함하는 경우가 많으므로 정량적 데이터에만 집중해야 한다는 설명은 옳지 않다.

분석방법론

질문한 내용은 **‘통찰(Insight)‘**이 맞다. 이전 답변에서 ‘발견’이라고 한 부분은 분석 대상과 방법의 매칭을 혼동한 오류였다. 정정한다.

분석 주제 유형 재검증

질문에서 제시한 조건은 다음과 같다.

  1. 분석 대상(What): 무엇인지 명확하게 모름 (Unknown)

  2. 분석 방법(How): 기존 분석 방법을 사용함 (Known)

이 두 조건이 만나는 지점은 **통찰(Insight)**이다.

구분분석 방법(How) 알음 (Known)분석 방법(How) 모름 (Unknown)
분석 대상(What) 알음최적화 (Optimization)솔루션 (Solution)
분석 대상(What) 모름통찰 (Insight)발견 (Discovery)

Sheets로 내보내기

용어의 정확한 정의

  • 통찰 (Insight): 분석 대상이 명확하지 않을 때, 기존에 검증된 분석 방법(How)을 적용하여 새로운 지식이나 숨겨진 가치를 찾아내는 방식이다. (예: 기존 통계 모델을 새로운 데이터 세트에 적용하여 예상치 못한 패턴 발견)

  • 발견 (Discovery): 분석 대상도 모르고 분석 방법도 모르는 상태에서, 데이터 자체를 탐색하여 분석 주제와 방법론을 동시에 찾아내는 방식이다.

혼선을 주어 미안하다. 질문의 핵심인 “기존 분석 방법으로 새로운 분석 수행”은 통찰이 정확한 답이다.


추가 확인: 분석 기획 단계에서 이 4가지 유형 외에 ‘분석 기획 시 고려사항’이나 ‘데이터 거버넌스’ 관련 내용도 함께 정리해 줄까?