- 스쿱(Sqoop)을 이용해서 데이터베이스로부터 하둡으로 데이터를 전송하는 스크립트 순서로 적절한 것은?
(가) 데이터를 가져올 데이터베이스 접속 정보를 입력한다. (나) 가져올 데이터에 대한 SQL을 입력한다. (다) 동시에 몇 개의 프로세스를 실행하여 데이터를 가져올지 지정한다. (라) 데이터베이스의 키 칼럼을 입력한다. (마) 데이터베이스로부터 가져온 데이터를 저장할 하둡 상의 경로를 지정한다.
① (가) → (나) → (라) → (마) → (다) ② (나) → (가) → (다) → (라) → (마) ③ (가) → (나) → (다) → (마) → (라) ④ (가) → (나) → (다) → (라) → (마)
- 사용자가 쉽게 사용할 수 있도록 SQL 기반의 쿼리 언어와 JDBC를 지원하여, 하둡에서 많이 사용되는 병렬 처리 기능인 하둡-스트리밍을 쿼리 내부에 삽입해 사용할 수 있는 데이터 웨어하우징 인프라는?
① Apache Pig ② Apache Impala ③ Apache Hive ④ Apache Mahout
- MapReduce 연산에서 Mapper의 중간 Output이 Input으로 사용되는 단계로 적절한 것은?
① Map Task ② Shuffle Task ③ Reduce Task ④ Map Task, Shuffle Task, Reduce Task
- 하둡 분산파일시스템(HDFS)의 동작 방식에 대한 설명으로 틀린 것은?
① 네임노드는 fsimage와 edit 2종류의 파일로 메타데이터를 관리한다. ② 모든 데이터노드는 구동 시점에 블록 보고서를 네임노드에 보낸다. ③ HDFS 클라이언트는 읽기·쓰기 작업을 직접 네임노드에 접속해서 수행한다. ④ 특정 데이터노드에 장애가 발생하면 장애가 발생한 노드에 블록들이 다른 데이터노드로 복사된다.
- 대용량 비정형 데이터 수집 시스템의 특징으로 적절하지 않은 것은?
① 인터페이스 상속을 통한 애플리케이션 기능 축소 ② 다양한 수집과 저장 플러그인 ③ 데이터 전송 보장 매커니즘 ④ 초고속 수집 성능과 확장성
- 다음 중 분석 주체 유형을 분류할 때 데이터 분석 방법과 다양한 분석 구조의 활용은 충분히 이해하고 있으나, 조직 내 분석 대상이 무엇인지 인지하지 못하는 유형은 무엇인가?
① 최적화 ② 솔루션 ③ 발견 ④ 통찰(Insight)
- 분석 과제의 주요 5가지 특성 중 정확도와 정밀도에 대한 설명으로 적절하지 않은 것은?
① 정밀도는 모델을 지속적으로 반복했을 때의 편차 수준을 나타낸다. ② 모델의 안정성 측면에서는 정확도가 중요하다. ③ 정확도와 정밀도는 트레이드-오프(Trade-off)되는 경우가 많다. ④ 정확도는 모델과 실제값 사이의 차이를 평가한다.
- 데이터 분석 과제 발굴 중 하향식 접근법(Top-down Approach)의 내용으로 적절한 것은?
① 문제탐색 단계에서는 발생하는 가치에 중점을 두는 것이 아니라 세부적인 구현 및 솔루션에 초점을 둔다. ② 분석 역량을 확보하였으며, 기존의 분석 기법 및 시스템이 존재하지 않는다면 전문업체 Sourcing이 필요하다. ③ 타당성 검토 단계에서는 복잡한 문제이기 때문에 다양한 사람들의 의견 조합이 필요하다. ④ 분석 유즈 케이스는 분석 기회들을 구체적인 과제로 만들고 난 뒤에 표기한다.
- 데이터 분석 도입의 필요성이 적은 분야로 적절한 것은?
① 지역별 일별 강수량 ② 기상 조건에 따른 미세먼지의 변화량 ③ 차량 운행 속도에 따른 교통사고 비율 ④ 2021년 국민생활 만족도 조사 결과
- 다음 중 하향식 접근법에서 문제 탐색단계에 대한 내용 중 틀린 것은?
① 과제 발굴단계에서는 세부적인 구현 및 솔루션에 중점을 둔다. ② 시장의 니즈 탐색 관점에서는 현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다. ③ 현재 경쟁자는 아니지만, 향후 시장에 대해 파괴적인 역할을 수행할 수 있는 잠재적 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회를 도출한다. ④ 거시적 관점의 메가트랜드에서는 현재의 조직 및 해당 산업에 폭넓게 영향을 미치는 사회·경제적 요인을 사회·기술·경제·환경·정치 영역으로 나누어서 좀 더 폭넓게 기회 탐색을 수행한다.
- 다음 중 아래의 데이터 거버넌스 체계가 설명하는 항목은?
메타데이터 관리, 데이터 사전관리, 데이터 생명주기 관리
① 데이터 표준화 ② 데이터 관리 체계 ③ 데이터 저장소 관리 ④ 표준화 활동
- 통계적 추론에서 모집단의 모수를 검증하기 위해 사용하는 모수적 방법과 비교하여 비모수적 방법의 특징으로 가장 부적절한 것은?
① 비모수적 검정은 모집단의 분포에 대해 아무런 제약을 가하지 않는다. ② 관측된 자료가 특정 분포를 따른다고 가정할 수 없는 경우에 이용된다. ③ 분포의 모수에 대한 가설을 설정하지 않고 분포의 형태에 대해 가설을 설정한다. ④ 비모수 검정에서는 관측값의 절대적 크기에 의존하여 평균, 분산 등을 이용해 검정을 실시한다.
- 로지스틱 회귀모형은 독립변수(x)와 종속변수(y) 사이의 관계를 설명하는 모형으로서 종속변수가 범주형(y=0 또는 y=1) 값을 갖는 경우에 사용하는 방법이다. 다음 중 로지스틱 회귀모형에 대한 설명으로 가장 부적절한 것은?
① 이러한 데이터에 대해 선형회귀모형을 적용하는 것이 기술적으로 가능하지만, 선형회귀의 문제점은 0이하의 값이나 1이상의 값을 예측값으로 줄 수 있다는 것이며 따라서 이를 확률값으로 직접 해석할 수 없다. ② 로지스틱 회귀모형은 클래스가 알려진 데이터에서 설명변수들의 관점에서 각 클래스내의 관측치들에 대한 유사성을 찾는 데 중점을 둔다. ③ 로짓(logit) 변환을 사용하여 설명변수들의 선형함수로 모형화하기 때문에 이 모형을 로지스틱 회귀모형이라고 한다. ④ Odds(오즈)란 클래스 0에 속할 확률(1−p)이 클래스 1에 속할 확률 p의 비로 나타낸다. 즉, 로 나타낸다.
- 다음 중 lasso 회귀모형에 대한 설명으로 부적절한 것은?
① 모형에 포함된 회귀계수들의 절대값의 크기가 클수록 penalty를 부여하는 방식이다. ② 자동적으로 변수선택을 하는 효과가 있다. ③ Lambda 값으로 penalty의 정도를 조정한다. ④ L2 penalty를 사용한다.
이미지 44 (1000051083) 4과목 / 통계분석 방법론
- Chickwts는 71마리의 병아리들에게 서로 다른 모이(feed)를 6주간 먹인 후 무게(weight)를 측정한 자료이다. 아래는 첨가물 그룹 간 평균 무게에 차이가 있는지 검정하기 위해 분산분석을 한 결과이다. 설명이 가장 부적절한 것은?
R Output: summary(aov(weight ~ feed, chickwts)) feed: Df 5, Sum Sq 231129, Mean Sq 46226, F value 15.37, Pr(>F) 5.94e-10 ***
① 귀무가설은 “첨가물 그룹 간의 평균이 모두 동일하다”이다.
② 첨가물의 개수는 5개다.
③ 유의수준 0.05하에서 첨가물 그룹 간의 무게 평균이 동일하지 않다는 통계적으로 유의한 증거가 있다.
④ 위의 가설검정은 F 통계량을 기반으로 한다.
- 아래는 데이터프레임 mtcar를 이용해 회귀분석을 수행한 R 명령의 결과이다. 다음 중 이 결과에 대한 설명으로 가장 부적절한 것은?
R Output: summary(lm(mpg ~ ., data=mtcars)) Residual standard error: 2.65 on 21 degrees of freedom Multiple R-squared: 0.869, Adjusted R-squared: 0.8066 F-statistic: 13.93 on 10 and 21 DF, p-value: 3.793e-07
① 오차의 표준편차 추정치는 2.65이다. ② 모든 독립변수가 유의수준 0.1에서 유의하지 않다. ③ 후진 제거법을 적용할 때 가장 먼저 제거될 독립변수는 cyl이다. ④ 유의수준 0.01하에서 이 회귀모형은 유의하다.
- 다음 중 k-평균 군집의 장점으로 적절한 것은?
① 전체적으로 최적화된 군집 분석 결과를 보장한다. ② 계층적 군집보다 많은 양의 자료를 다룰 수 있다. ③ 잡음이나 이상값에 영향을 받지 않는다. ④ 명목형 변수에도 적용이 가능하다.
- 신경망 모형은 동물의 뇌신경계를 모방하여 분류를 위해 만들어진 모형이다. 신경망의 학습 및 기억 특성들은 인간의 학습과 기억 특성을 닮았고 특정 사건으로부터 일반화하는 능력도 갖고 있다. 다음 중 신경망 모형에 대한 설명으로 부적절한 것은?
① 은닉층(hidden layer)의 뉴런 수와 개수를 정하는 것은 신경망을 설계하는 사람의 직관과 경험에 의존한다. 뉴런수가 너무 많으면 과적합(overfitting)이 발생하고 뉴런 수가 너무 적으면 입력 데이터를 충분히 표현하지 못하는 경우가 발생한다. ② 신경망 모형에서 뉴런의 주요 기능은 입력과 입력 강도의 가중합을 구한 다음 활성화 함수에 의해 출력을 내보내는 것이다. 따라서 입력 변수의 속성에 따라 활성화 함수를 선택하는 방법이 달라지게 된다. ③ 역전파(back propagation) 알고리즘은 신경망 모형의 목적함수를 최적화하기 위해 사용된다. 연결강도를 갱신하기 위해서 예측된 결과와 실제값의 차이인 에러(error)를 통해 가중치를 조정하는 방법이다. ④ 신경망 모형은 변수의 수가 많거나 입출력 변수 간에 복잡한 비선형관계가 존재할 때 유용하며, 다양한 데이터 유형에 대해 유연하게 적응할 수 있는 능력을 가지고 있다.
- 다음 중 자기조직화지도(Self-Organizing Maps, SOM)에 대한 것으로 옳지 않은 것은?
① SOM 모델은 입력층과 경쟁층으로 구성되어 있다. ② 입력층의 뉴런은 경쟁층에 있는 뉴런들과 부분적으로(locally) 연결되어 있다. ③ 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다. ④ 경쟁 학습으로 연결 강도를 반복적으로 재조정하여 학습한다.
- 아래는 근로자의 임금 등에 대한 데이터에 대한 분석 결과이다. 다음 중 유의수준 0.05에서 이에 대한 설명으로 가장 적절하지 않은 것은?
R Output: model <- lm(wage ~ age + jobclass + age * jobclass, data=Wage) age: estimate 0.719, p-value 2.75e-16 jobclass2.Information: estimate 22.73, p-value 5.56e-05 age:jobclass2.Information: estimate -0.160, p-value 0.21
① 직업군이 동일할 때, 나이가 많을수록 임금이 올라가는 경향이 있다. ② 나이가 동일할 때, Information 직군이 Industrial 직군에 비해 평균적으로 임금이 높다. ③ 나이에 따라 두 직군 간의 임금의 평균 차이가 유의하게 변하지 않는다. ④ 위의 회귀식은 유의수준 0.05에서 임금의 변동성을 설명하는데 유의하지 않다.
- EM 알고리즘을 사용하여 혼합분포 모형을 추정하고자 한다. 아래와 같은 그래프가 도출되었을 때, 다음 중 가장 적절한 해석은?
Graph: Observed Data Log-Likelihood vs Iteration (반복 2회 만에 수렴하는 모습)
① 반복횟수 2회만에 로그-가능도 함수가 최대가 되었다. ② 정규혼합분포가 2가지로 관찰되었다. ③ 모수의 추정을 위해 10회 이상의 반복횟수가 필요하다. ④ 로그-가능도 함수의 최소값이 -1040이다.
- 다음 중 지니 지수의 설명 중 부적절한 것은?
① 지니 지수는 ‘불확실성’을 의미하며 같은 특성을 가진 객체들끼리 잘 모여 있는지를 판단한다. ② 지니 지수 값이 작을수록 이질적이며 순수도(purity)가 낮다고 할 수 있다. ③ 지니 지수는 데이터의 통계적 분산 정도를 정량화해서 표현한 값이다. ④ 지니 지수는 이진 분류로 나뽈 때 사용된다.
- Default 데이터셋은 10000명의 신용카드 고객에 대한 카드대금 연체여부(default = Yes/No), 학생여부(student = Yes/No)를 포함한다. 아래의 독립성 검정 결과 중 틀린 것은?
R Output: chisq.test(Defaultstudent) X-squared = 12.117, df = 1, p-value = 0.0004997
① 카이제곱 검정은 범주형 데이터를 대상으로 범주 간의 차이를 분석한다. ② 귀무가설은 ‘학생과 비학생의 연체는 같다.‘이다. ③ 학생과 비학생 간에 연체의 차이가 5% 유의수준에서 존재한다. ④ 학생과 비학생 간의 연체는 서로 독립이다.
- Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 후보 빈발항목집합을 생성하지 않고, 데이터베이스를 스캔하는 횟수가 작고, 빠른 속도로 분석이 가능한 알고리즘은 무엇인가?
① FP-Growth 알고리즘 ② DENCLUE ③ Diana ④ Genetic 알고리즘
- 다음 중 비모수 검정 방법 중 하나로 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법은?
① 런 검정(run test) ② 만-위트니의 U 검정 ③ 부호 검정(sign test) ④ 스피어만 순위상관계수
- 정보 디자인의 빅데이터 시각화 영역에 대한 설명으로 부적절한 것은?
① 정보 디자인은 데이터의 디테일을 나타낸다. ② 데이터 시각화는 정보형 메시지를 전달한다. ③ 인포 시각화는 설득형 메시지를 전달한다. ④ 빅데이터 시각화는 정보형 메시지를 전달하는 경향이 강하다.