정보 디자인 프로세스 단계별 분석
정답은 **모든 것을 읽기(Read Everything)**다.
정보 디자인 프로세스 단계별 분석
정보 디자인 프로세스는 수집된 로우 데이터(Raw Data)를 의미 있는 메시지로 변환하는 체계적인 과정을 거친다. 질문에서 언급된 단계들의 흐름과 역할은 다음과 같다.
-
데이터 수집 (Data Collection): 분석 목적에 부합하는 다양한 소스로부터 자료를 확보하는 기초 단계다.
-
모든 것을 읽기 (Read Everything): 수집된 정보를 심층적으로 이해하고 분석하는 단계다. 단순히 훑어보는 것이 아니라 데이터 간의 관계, 누락된 부분, 맥락을 파악하여 정보에 몰입하는 과정이다.
-
내러티브 찾기 (Finding the Narrative): 분석된 정보를 바탕으로 전달하고자 하는 핵심 스토리와 메시지를 도출하는 단계다.
-
시각 접근 방법 결정하기 (Determining the Visual Approach): 도출된 내러티브를 가장 효과적으로 전달할 수 있는 그래프, 다이어그램, 일러스트레이션 등의 시각적 형식을 선택하는 단계다.
주요 단계 요약
| 단계 | 주요 활동 | 목적 |
|---|---|---|
| 데이터 수집 | 자료 확보 | 기초 재료 마련 |
| 모든 것을 읽기 | 맥락 파악 및 분석 | 데이터의 완전한 이해 |
| 내러티브 찾기 | 메시지 및 스토리 구성 | 전달할 가치 정의 |
| 시각 접근 결정 | 시각적 매체 선정 | 효과적인 전달 방법 확립 |
Sheets로 내보내기
시계열 변동
- 다음 중 시계열 성분에 대한 설명으로 가장 적절하지 않은 것은?
① 추세란 장기적으로 변해가는 큰 흐름을 나타내는 것으로 자료가 장기적으로 커지거나 작아지는 변화를 나타내는 요소이다.
② 계절변동은 일정한 주기를 가지고 반복적으로 같은 패턴을 보이는 변화를 나타내는 요소이다.
③ 순환변동은 산업생산지수, 주택수요와 같은 순환변동을 갖는 시계열 등의 경제 전반이나 특정 산업의 부침을 나타내주는 것을 말한다.
④ 불규칙변동은 불규칙하게 변동하는 급격한 환경변화, 천재지변 같은 것으로 발생하는 변동을 말한다.
정답은 ③번이다.
틀린 이유 분석
③ 순환변동은 산업생산지수, 주택수요와 같은 순환변동을 갖는 시계열 등의 경제 전반이나 특정 산업의 부침을 나타내주는 것을 말한다.
-
교정: 산업생산지수는 데이터분석전문가(ADP) 공식 가이드 및 일반적인 통계학 교재에서 **추세변동(Trend Variation)**의 대표적인 예시로 분류된다.
-
이유: 물론 산업생산지수 데이터 안에 순환적인 성분이 포함될 수는 있으나, 장기적인 경제 성장이나 산업의 확장을 설명하는 **추세(Trend)**를 설명할 때 가장 먼저 인용되는 지표다.
-
개념적 차이: 순환변동(Cyclical Variation)은 계절변동과 달리 주기가 일정하지 않으며, 보통 2~10년 단위로 발생하는 경제의 완만한 기복(경기변동)을 의미한다.
나머지 보기 설명 (적절한 지문)
-
① 추세변동(Trend): 인구 증가, 기술 변화 등과 같이 장기간에 걸쳐 일정한 방향(상승 또는 하락)으로 움직이는 흐름을 정확히 설명하고 있다.
-
② 계절변동(Seasonal): 요일, 월, 분기 등 1년 이내의 일정한 주기를 가지고 반복되는 패턴을 의미한다.
-
④ 불규칙변동(Irregular): 천재지변, 전쟁, 파업 등 예기치 못한 우연한 사고에 의해 발생하는 변동으로, 시계열 분해 후 남는 잔차(Residual)에 해당한다.
시계열 구성 성분 요약표
| 성분명 | 영문명 | 주요 특징 | 주기성 |
|---|---|---|---|
| 추세변동 | Trend | 장기적인 상승/하락 흐름 (예: 인구, 산업생산지수) | 없음 (장기적) |
| 계절변동 | Seasonal | 1년 이내의 고정된 반복 패턴 (예: 명절, 계절 상품) | 고정됨 (1년 이내) |
| 순환변동 | Cyclical | 경기 순환에 따른 장기적 부침 (예: 경기 변동) | 일정하지 않음 (2~10년) |
| 불규칙변동 | Irregular | 예측 불가능한 돌발 요인 (예: 지진, 코로나19) | 없음 (무작위) |
결론: ADP 시험에서는 산업생산지수를 추세변동의 예시로 매칭하는 것이 표준이다. 따라서 이를 순환변동의 예시로 든 ③번은 개념적으로 부적절하다.
빅데이터 거버넌스
- 기존 데이터 거버넌스와 비교하여 ‘빅데이터 거버넌스’ 체계 수립 시 추가적으로 고려해야 할 항목으로 가장 적절하지 않은 것은?
① 비용과 규제준수를 포함한 보관 및 폐기 정책 ② 개인정보 보호 및 활용방안 ③ 데이터 백업 주기의 조정 ④ 다양한 데이터의 관리체계 및 카테고리별 관리 책임자
정답 및 이유
③ 데이터 백업 주기의 조정
-
이유: 데이터 백업 주기를 조정하는 것은 전통적인 데이터 관리(Data Management)나 일반적인 IT 운영 영역에서 수행하는 일상적인 작업이다. 이는 데이터의 규모나 형태가 변하더라도 항상 고려되는 항목이며, ‘빅데이터 거버넌스’만의 독합적인 추가 고려 사항으로 보기 어렵다.
-
비교: 빅데이터 거버넌스는 단순한 운영 관리를 넘어, **데이터의 방대함(Volume), 다양성(Variety), 신속성(Velocity)**이라는 특성에 대응하기 위한 전략적 관리 체계를 의미한다.
빅데이터 거버넌스 수립 시 추가 고려 사항
기존 데이터 거버넌스와 달리 빅데이터 환경에서는 다음의 항목들이 더욱 중요하게 다뤄진다.
-
① 데이터 수명 주기 관리 (Data Lifecycle Management):
- 방대한 양의 데이터를 무한정 보관할 수 없으므로, 비용 효율성과 규제 준수를 고려하여 보관 및 폐기 정책을 더 정교하게 수립해야 한다.
-
② 개인정보 보호 및 활용 (Privacy & Security):
- 비정형 데이터(SNS, 위치 정보 등)의 수집이 늘어남에 따라 개인정보 식별 위험이 커진다. 따라서 데이터 익명화(Anonymization) 및 보안 준수와 동시에 이를 어떻게 안전하게 활용할지에 대한 구체적 방안이 필요하다.
-
④ 데이터 다양성 관리 (Variety Management):
- 정형 데이터뿐만 아니라 반정형, 비정형 데이터에 대한 카테고리별 관리 체계를 세우고, 각 데이터 유형에 최적화된 관리 책임자(Data Steward)를 지정해야 한다.
요약: 데이터 거버넌스 비교
| 구분 | 기존 데이터 거버넌스 | 빅데이터 거버넌스 (추가 사항) |
|---|---|---|
| 핵심 대상 | 정형 데이터 (ERP, DW 등) | 정형 + 반정형/비정형 데이터 |
| 주요 과제 | 데이터 품질, 표준화, 마스터 데이터 | 수명 주기(비용), 개인정보 보호, 유연한 조직 |
| 인프라 | 관계형 데이터베이스 (RDBMS) | Hadoop, NoSQL, 클라우드 환경 |
Sheets로 내보내기
출처: 데이터분석전문가(ADP) 가이드 - 데이터 기획 파트
빅데이터 거버넌스의 3대 요소인 데이터 품질, 데이터 보안, 데이터 전략 중 특정 분야에 대해 더 깊이 있는 설명이 필요한가?
데이터 준비 단계
- 다음 중 빅데이터 분석 방법론의 데이터 준비 단계에서 수행되는 주요 과제(Task)로 가장 적절하지 않은 것은?
① 데이터 정의 ② 데이터 스토어 설계 ③ 분석용 데이터 세트 준비 ④ 데이터 수집 및 정합성 점검
정답은 ①번입니다.
정답 및 해설
① 데이터 정의 (Data Definition)
-
단계: 1단계인 ‘분석 기획(Analysis Planning)’ 단계의 과제입니다.
-
이유: 데이터 정의는 분석에 필요한 데이터 소스, 데이터 유형, 데이터 속성 등을 식별하고 정의하는 과정으로, 실제 데이터를 수집하기 전인 기획 단계에서 수행됩니다.
빅데이터 분석 방법론 단계별 주요 과제 (K-BigData 기준)
빅데이터 분석 방법론은 보통 5단계로 구성되며, 각 단계별 주요 과제는 다음과 같습니다. 질문에서 언급된 데이터 준비 단계는 2단계에 해당합니다.
| 단계 | 주요 과제 (Task) | 비고 |
|---|---|---|
| 1. 분석 기획 | 비즈니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 데이터 정의 | 분석의 목적과 데이터 종류 확정 |
| 2. 데이터 준비 | 데이터 수집 및 정합성 점검, 데이터 스토어 설계 및 적재 | 원천 데이터 확보 및 저장 환경 구축 |
| 3. 데이터 분석 | 분석용 데이터 준비, 텍스트 분석, 탐색적 분석(EDA), 모델링, 모델 평가 | 모델 개발 및 마트(Mart) 생성 |
| 4. 시스템 구현 | 설계 및 구현, 시스템 테스트 및 운영 | 분석 모델의 시스템화 |
| 5. 평가 및 전개 | 모델 평가, 프로젝트 평가 및 보고 | 최종 성과 측정 및 운영 전개 |
Sheets로 내보내기
오답 분석
-
② 데이터 스토어 설계: 데이터를 저장할 물리적·논리적 공간(HDFS, NoSQL 등)을 설계하는 과정으로, 2단계 데이터 준비의 핵심 과제입니다.
-
③ 분석용 데이터 세트 준비: 3단계인 데이터 분석 단계의 첫 번째 과제입니다. 비록 2단계 ‘준비’와 용어가 비슷하여 혼동하기 쉬우나, 방법론 상으로는 분석 마트를 생성하고 데이터를 정제하는 3단계 과정으로 분류됩니다. 하지만 **데이터 정의(1단계)**가 가장 먼저 선행되는 기획 단계의 과제이므로, 1번이 가장 적절하지 않은 항목으로 꼽힙니다.
-
④ 데이터 수집 및 정합성 점검: 실제 데이터를 가져오고 데이터가 올바른지 확인하는 과정으로, 2단계 데이터 준비 단계에서 수행됩니다.
의사결정나무
- 다음 중 의사결정나무모형의 불순도 측도에 대한 설명으로 가장 적절하지 않은 것은? (단, P_i는 i 범주에 속하는 데이터의 비율을, c는 범주의 개수를 의미) ① 카이제곱통계량은 각 셀에 대한 의 합으로 정의되며, 카이제곱통계량이 최대가 되는 분리를 사용한다. ② 지니지수(Gini Index)는 1 - \sum_{i=1}^c P_i^2으로 정의되며, 지니 지수가 최소가 되는 분리를 선택한다. ③ 엔트로피 지수(Entropy Index)는 -\sum_{i=1}^c P_i \log_2 P_i으로 정의되며, 엔트로피 지수가 최소가 되는 분리를 선택한다. ④ 분산분석에서의 F-통계량을 사용하는 방법은 예측오차를 최소화하는 것과 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적 분리에 의해 자식마디가 생성되는 방법이다.
정답은 ④번이다.
틀린 이유 분석
④ 분산분석에서의 F-통계량을 사용하는 방법은 … 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적 분리에 의해 …
-
알고리즘의 차이: F-통계량(F-statistic)을 사용하여 분리하는 것은 주로 CHAID(Chi-square Automatic Interaction Detection) 알고리즘의 방식이고, 예측오차(SSE)의 최소화나 분산의 감소량을 최대화하는 것은 CART(Classification and Regression Trees) 알고리즘의 방식이다.
-
기준의 차이: F-통계량은 그룹 간의 차이가 통계적으로 **유의미(Significance)**한지를 p-value를 통해 판단한다. 반면, 분산의 감소량은 순수하게 에러(Error)의 크기를 줄이는 데 집중한다.
-
결정적 차이: CHAID는 다지분리(Multi-way split)가 가능하므로 자식 마디의 개수(k)가 가변적이다. F-통계량은 자유도(마디의 개수)를 고려하여 계산되지만, CART의 분산 감소량은 마디의 개수를 고려하지 않는다. 따라서 두 방법이 선택하는 ‘최적 분리’ 결과는 서로 다를 수 있으며, 이를 “동일한 기준”이라고 표현하는 것은 부적절하다.
나머지 보기 설명 (옳은 지문)
-
① 카이제곱 통계량: CHAID 알고리즘에서 이산형(범주형) 종속변수의 분리 기준으로 사용된다. 기대도수와 실제도수의 차이가 클수록(통계량이 최대일수록) 자식 마디 간의 이질성이 크다는 뜻이므로, 이를 최대화하는 방향으로 분리한다.
-
② 지니 지수 (Gini Index): CART 알고리즘에서 범주형 종속변수의 불순도를 측정하는 기준이다. 집합이 깨끗할수록(한 종류만 있을수록) 0에 가까워지며, 이를 최소화하는 분리 규칙을 선택한다.
-
③ 엔트로피 지수 (Entropy Index): ID3, C4.5 알고리즘에서 주로 사용된다. 무질서도를 측정하며, 정보 이득(Information Gain)을 최대화하기 위해 자식 마디들의 엔트로피 합이 최소가 되는 지점을 찾는다.
정보 디자인의 빅데이터 시각화 영역
- 정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 정보 디자인은 데이터의 디테일을 나타낸다. ② 데이터 시각화는 정보형 메시지를 전달한다. ③ 인포 시각화는 설득형 메시지를 전달한다. ④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.
정답은 ①번이다.
틀린 이유 분석
① 정보 디자인은 데이터의 디테일을 나타낸다.
- 교정: 데이터의 디테일과 패턴을 직접적으로 보여주는 것은 **데이터 시각화(Data Visualization)**의 영역이다. **정보 디자인(Information Design)**은 방대한 데이터를 가공하여 특정 메시지를 효과적으로 전달하기 위해 정보를 조직화하고 구조화하는 데 초점을 맞춘다. 즉, 데이터 자체의 세부 사항보다는 그 데이터가 담고 있는 **‘의미(Meaning)‘나 ‘메시지’**를 명확하게 전달하는 것이 목적이다.
각 시각화 영역별 특징 (옳은 지문 설명)
-
② 데이터 시각화는 정보형 메시지를 전달한다.
- 데이터 시각화는 탐색적 분석(Exploratory Analysis)의 성격이 강하며, 사용자가 데이터에서 직접 통찰(Insight)을 얻을 수 있도록 객관적인 정보를 제공하는 것이 주된 목적이다.
-
③ 인포 시각화(Infographics)는 설득형 메시지를 전달한다.
- 인포그래픽은 특정 주제나 이야기에 맞춰 데이터를 가공하고 디자인 요소를 추가한다. 제작자가 의도한 결론이나 메시지를 독자에게 효과적으로 각인시키려는 설득(Persuasive) 및 스토리텔링 목적이 강하다.
-
④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.
- 빅데이터 시각화는 대규모 데이터셋 속에 숨겨진 상관관계나 추세(Trend)를 발견하는 데 집중한다. 데이터의 양이 워낙 방대하기 때문에 특정 결론을 강요하기보다, 현상을 그대로 투영하여 정보를 전달하는 정보형(Informational) 성격이 짙다.
시각화 분류 비교표
| 구분 | 데이터 시각화 (Data Vis) | 정보 디자인 / 인포그래픽 |
|---|---|---|
| 핵심 목적 | 데이터 탐색 및 패턴 발견 | 메시지 전달 및 이해 증진 |
| 메시지 성격 | 정보형 (Informational) | 설득형 (Persuasive) |
| 표현 대상 | 원천 데이터의 속성과 수치 | 가공된 정보와 맥락 |
| 사용자 역할 | 직접 인사이트를 찾아냄 | 제시된 스토리를 수용함 |
Sheets로 내보내기
하향식 접근법
하향식 접근법의 4단계 요약
| 단계 | 주요 내용 |
|---|---|
| 1. 문제 탐색 (Discovery) | 비즈니스 모델, 거시적 관점 등을 통해 분석 기회(What) 발굴 |
| 2. 문제 정의 (Definition) | 발굴된 문제를 데이터 분석 문제로 변환 및 정의 |
| 3. 솔루션 탐색 (Search) | 정의된 문제를 해결하기 위한 구체적인 기법 및 솔루션(How) 탐색 |
| 4. 타당성 검토 (Feasibility) | 경제적, 기술적, 데이터 타당성 검토를 통한 과제 확정 |
HDFS
- 하둡 분산파일시스템(HDFS)의 동작 방식에 대한 설명으로 틀린 것은?
① 네임노드는 fsimage와 edit 2종류의 파일로 메타데이터를 관리한다. ② 모든 데이터노드는 구동 시점에 블록 보고서를 네임노드에 보낸다. ③ HDFS 클라이언트는 읽기·쓰기 작업을 직접 네임노드에 접속해서 수행한다. ④ 특정 데이터노드에 장애가 발생하면 장애가 발생한 노드에 블록들이 다른 데이터노드로 복사된다.
정답은 ③번이다.
틀린 이유 분석
③ HDFS 클라이언트는 읽기·쓰기 작업을 직접 네임노드에 접속해서 수행한다.
-
교정: HDFS 클라이언트는 네임노드로부터 **메타데이터(블록의 위치 정보)**만 받아온다. 실제 데이터의 읽기 및 쓰기(I/O) 작업은 네임노드를 거치지 않고 해당 데이터노드(DataNode)와 직접 통신하여 수행한다.
-
이유: 모든 데이터 전송이 네임노드를 거치게 되면 네임노드에 과도한 부하가 걸려 시스템 전체의 병목 현상이 발생하기 때문이다.
나머지 보기 설명 (옳은 지문)
-
① 네임노드는 fsimage와 edits 2종류의 파일로 메타데이터를 관리한다.
-
fsimage: 파일 시스템의 네임스페이스(디렉토리 구조, 파일 권한 등)를 담고 있는 스냅샷 파일이다. -
edits: 파일 시스템의 최근 변경 이력(파일 생성, 삭제 등)을 기록한 로그 파일이다.
-
-
② 모든 데이터노드는 구동 시점에 블록 보고서를 네임노드에 보낸다.
- 데이터노드는 시작될 때 자신이 보유한 블록 리스트를 네임노드에 보고(Block Report)하여 네임노드가 전체 시스템의 블록 배치 상태를 파악할 수 있게 한다.
-
④ 특정 데이터노드에 장애가 발생하면 장애가 발생한 노드의 블록들이 다른 데이터노드로 복사된다.
- 네임노드는 하트비트(Heartbeat)를 통해 데이터노드의 상태를 감시한다. 특정 노드에 장애가 발생하면 해당 노드의 블록 복제본 수(Replication Factor)를 유지하기 위해 정상적인 다른 노드들로 블록 복제를 지시한다.
요약표: HDFS 구성 요소별 역할
| 구성 요소 | 주요 역할 |
|---|---|
| 네임노드 (NameNode) | 메타데이터 관리, 데이터노드 모니터링, 블록 배치 정책 결정 |
| 데이터노드 (DataNode) | 실제 데이터(블록) 저장, 클라이언트의 읽기/쓰기 요청 처리 |
| 보조 네임노드 (Secondary NameNode) | fsimage와 edits를 병합(Checkpointing)하여 네임노드의 부하 경감 |
Sheets로 내보내기
자크 베르탱 관점에서 풀이
- 다음 중 정보 표현을 위한 그래픽 요소와 이에 대한 설명으로 가장 적절하지 않은 것은? 보기: ① 색상은 감정/의미 전달에 효과적이며 시각적 효과를 극대화한다. ② 크기는 데이터 양/중요도 표현에 유용하나 왜곡의 위험이 있다. ③ 형태는 정보의 다양성을 나타내며 복잡한 정보를 도형으로 변환한다. ④ 질감은 시각적으로 강조할 수 있는 요소로, 동일한 색상 내에서도 차별화된 느낌을 줄 수 있다.
자크 베르탱(Jacques Bertin)의 시각적 변수(Visual Variables) 이론을 근거로 분석한 결과, 가장 적절하지 않은 것은 ③번이다.
79번 문항 해설
정답: ③
분석 및 근거
자크 베르탱은 그의 저서 《그래픽의 기호학(Semiology of Graphics)》에서 정보를 전달하는 7가지 시각적 변수(위치, 크기, 값, 질감, 색상, 방향, 형태)를 정의하고, 각 변수가 가진 지각적 특성(선택적, 연합적, 순서적, 양적)을 구분했다.
1. ③번이 적절하지 않은 이유 (형태 - Shape)
-
지각적 한계: 베르탱에 따르면 **형태(Shape)**는 ‘연합적(Associative)’ 특성은 가지지만, ‘선택적(Selective)’ 특성이 매우 낮다. 즉, 수많은 기호 중에서 특정 형태(예: 삼각형만 찾기)를 순식간에 골라내는 효율성이 다른 변수(색상, 크기 등)에 비해 현저히 떨어진다.
-
설명의 오류: 보기에서 “복잡한 정보를 도형으로 변환한다”는 설명은 추상적인 다이어그램의 정의에 가까우며, 시각적 변수로서의 ‘형태’가 가진 기능적 한계를 간과하고 있다. 형태는 주로 질적(Nominal)인 차이를 나타낼 때 사용되나, 정보의 밀도가 높아지면 인지 부하가 급격히 증가한다.
2. 나머지 보기에 대한 베르탱의 관점
-
① 색상 (Color/Hue): 베르탱은 색상을 ‘선택적’이고 ‘연합적’인 변수로 분류했다. 비록 베르탱의 이론이 논리적 체계에 집중되어 있으나, 현대 시각화에서는 색상의 심리학적 영향(감정/의미 전달)을 결합하여 시각적 효과를 극대화하는 도구로 간주한다.
-
② 크기 (Size): 크기는 베르탱이 정의한 변수 중 ‘양적(Quantitative)’ 정보를 전달할 수 있는 가장 강력한 변수다(위치 제외). 다만 면적이나 부피로 표현될 때 인간의 지각 오류(지수적 왜곡)가 발생할 위험이 있다는 점은 데이터 시각화의 전형적인 주의사항이다.
-
④ 질감 (Texture): 질감은 ‘순서적(Ordered)‘이며 ‘선택적(Selective)‘인 특성을 갖는다. 동일한 색상 영역 내에서도 망점의 밀도나 패턴의 변화를 통해 데이터의 계층이나 차이를 시각적으로 강조할 수 있다.
요약 테이블: 베르탱의 시각적 변수 특성
| 변수 | 선택적 (Selective) | 연합적 (Associative) | 순서적 (Ordered) | 양적 (Quantitative) |
|---|---|---|---|---|
| 위치 (Position) | O | O | O | O |
| 크기 (Size) | O | O | O | O |
| 색상 (Hue) | O | O | X | X |
| 값 (Value) | O | O | O | X |
| 형태 (Shape) | X | O | X | X |
Sheets로 내보내기
출처: Bertin, J. (1967). Sémiologie Graphique. (데이터 분석 전문가(ADP) 및 시각화 이론 교재 공통 사항)
데이터 분석 기획 시 고려해야 할 사항
- 데이터 분석 기획 시 고려해야 할 사항으로 가장 적절한 것은?
① 분석 기획이란 데이터로 어떤 비즈니스 가치 창출이 가능한지를 미리 판단하여 분석의 진행 여부를 결정하는 과정을 말한다. ② 분석을 기획할 때는 기존에 구현되어 활용되고 있는 유사 분석 시나리오는 가능한 배제하며 기존과 다른 새로운 비즈니스 가치를 발견할 수 있도록 하여야 한다. ③ 분석을 기획할 때 제일 먼저 고려해야 할 사항은 분석의 기본이 되는 데이터이다. ④ 분석을 기획할 때는 비용보다는 분석 정확도를 높이는 방법을 최우선으로 고려해야 한다.
정답은 ①번이다.
각 보기에 대한 분석 및 교정
① 분석 기획의 정의 (적절)
분석 기획은 단순히 분석 모델을 만드는 단계가 아니다. 분석을 통해 어떤 **비즈니스 가치(Value)**를 창출할 수 있는지 정의하고, 데이터의 가용성이나 경제적 타당성 등을 검토하여 분석 프로젝트의 **진행 여부(Go/No-Go)**를 결정하는 전략적 수립 과정을 의미한다.
② 유사 시나리오 활용 (부적절)
기존에 구현된 유사 분석 시나리오는 분석 기획 단계에서 매우 중요한 자산이다. 이를 통해 시행착오를 줄이고, 검증된 로직을 기반으로 더 나은 비즈니스 가치를 창출할 수 있다. 무조건적인 배제보다는 기존 사례의 벤치마킹과 재사용성을 우선적으로 고려해야 한다.
③ 분석의 출발점 (부적절)
분석 기획에서 가장 먼저 고려해야 할 사항은 데이터가 아니라 ‘비즈니스 이슈(Problem)’ 또는 **‘분석의 목적(Goal/Objective)‘**이다. 해결해야 할 문제가 정의되지 않은 상태에서 데이터부터 살피는 것은 수단이 목적을 압도하게 되어 본질적인 가치를 놓칠 위험이 크다.
④ 비용과 정확도의 관계 (부적절)
데이터 분석 기획은 비즈니스 프로젝트의 일환이므로 투자 대비 효과(ROI) 관점이 필수적이다. 무리하게 정확도만을 높이는 것은 비용과 시간의 낭비를 초래할 수 있다. 따라서 정확도, 비용, 시간 사이의 **균형(Trade-off)**을 맞추는 최적화가 필요하다.
[참고] 분석 기획 시 3대 요소 (3P)
분석 기획 시에는 다음과 같은 요소들이 유기적으로 고려되어야 한다.
-
데이터 (Data): 분석 가능한 데이터의 확보 및 품질 확인.
-
모델 (Model): 적절한 분석 기법 및 알고리즘의 선택.
-
사람 (People): 분석을 수행할 조직 구조 및 전문가 확보.
결론: 분석 기획은 비즈니스 가치 중심의 의사결정 과정이다. 데이터나 정확도에만 매몰되지 않고 전체적인 가치 사슬(Value Chain) 내에서 분석의 역할을 규명하는 것이 핵심이다.
분석 기획의 대표적인 접근 방식인 **하향식(Top-Down)**과 **상향식(Bottom-Up)**의 혼합 방식(Hybrid)에 대해 추가 설명이 필요한가?
파티셔닝
제시된 문항 중 데이터베이스 파티셔닝의 이점으로 보기 어려운 것은 **세 번째 항목(데이터 일관성 강화)**이다. ADP 필기 시험(데이터 처리 기술 이해) 관점에서 각 항목을 분석한 결과는 다음과 같다.
13. 데이터베이스 파티셔닝의 이점 분석
① 데이터 검색 속도 향상 (성능 개선)
-
분석: 파티셔닝을 통해 **파티션 프루닝(Partition Pruning)**이 가능해진다. 쿼리 조건에 맞는 특정 파티션만 스캔하므로 I/O 성능이 비약적으로 향상된다.
-
ADP 관점: VLDB(Very Large Database) 관리에서 쿼리 성능 최적화를 위한 핵심 기법으로 다뤄진다.
② 시스템 확장성 증가 (관리 효율성)
-
분석: 대용량 데이터를 논리적으로는 하나지만 물리적으로는 여러 개로 분할하여 관리함으로써, 데이터 증가에 따른 성능 저하를 방지하고 스토리지 효율을 높인다.
-
ADP 관점: 데이터 아키텍처 설계 시 수평적 확장 및 유지보수 편의성을 제공하는 요소다.
③ 데이터 일관성 강화 (부적절)
-
분석: 파티셔닝은 물리적인 저장 방식의 분할일 뿐, 데이터의 **일관성(Consistency)**이나 **무결성(Integrity)**을 직접적으로 강화하는 기술이 아니다. 오히려 분산된 파티션 간의 트랜잭션 관리는 더 복잡해질 수 있다.
-
ADP 관점: 일관성은 DBMS의 ACID 특성이나 제약 조건(Constraint)에 의해 보장되는 영역이지, 파티셔닝의 주요 목적이 아니다.
④ 고가용성 제공
-
분석: 특정 파티션에 장애가 발생하더라도 나머지 파티션은 정상적으로 사용 가능하며, 독립적인 백업 및 복구가 가능하다.
-
ADP 관점: 가용성(Availability) 측면에서 관리 포인트의 분산을 통한 리스크 경감 효과를 강조한다.
[ADP 핵심 요약: 파티셔닝의 3대 이점]
| 구분 | 주요 내용 |
|---|---|
| 성능 (Performance) | 파티션 단위 조회를 통한 I/O 분산 및 인덱스 크기 감소 |
| 가용성 (Availability) | 장애 범위 최소화 및 개별 파티션 독립적 복구 |
| 관리성 (Manageability) | 데이터 삭제(Drop), 백업 및 아카이빙 작업의 효율화 |
Sheets로 내보내기
결론: 데이터베이스 파티셔닝은 성능, 가용성, 관리 편의성을 위해 수행하며, 데이터의 일관성 강화와는 직접적인 상관관계가 없다.
추가로 ADP 실기 시험과 관련하여 파티셔닝된 데이터를 활용한 대용량 데이터 처리 기법(예: 병렬 처리)에 대해 알고 싶은가?