1. 연관규칙
- 연관규칙분석의 개념
- 흔히 Market Basket Analysis (장바구니 분석), Sequence Analysis (서열 분석)으로 불림
- 기업 DB 에서 상품의 구매, 서비스 등 일련의 거래 또는 사건 간의 규칙을 발견하기 위해 적용
- 연관규칙의 형태 If-Then
- A가 일어나면, B도 일어난다
- 절차
- 최소 지지도 결정
- 품목 중 최소 지지도를 넘는 품목 분류
- 최소 지지도보다 큰 집합만을 대상으로, 높은 지지도를 갖는 품목 집합을 찾는 것
- 처음에 너무 높은 최소 support 를 선정하는 건 많은 리소스가 소모되므로 부적절. 보통 시작은 5%
- 2가지 품목 집합 생성
- 반복적으로 수행해 빈발품목 집합을 찾음
연관규칙의 측도
| 지지도 (Support) | 전체 거래 중, A 와 B를 동시에 포함하는 거래의 비율 | |
| 신뢰도 (Confidence) | 항목 B 를 포함한 거래 중, 항목 A와 B가 같이 포함될 확률. 연관성의 정도를 파악 | |
| 향상도 (Lift) | A와 B의 동시 발생 확률이, 두 사건이 독립적일 때의 기대 확률 대비 얼마나 큰가 연관규칙 B→A 는, 품목 A와 B가 관계가 없을 때 향상도가 1이 된다 |
장점과 단점
| 장점 | 단점 | 개선방안 |
|---|---|---|
| 탐색적인 기법이므로, 조건 반응으로 표현되는 연관성 분석의 결과를 쉽게 이해할 수 있음 | 품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 증가함 | - 이를 개선하기 위해 유사한 품목을 한 범주로 일반화함 - 연관 규칙의 신뢰도 하한을 새롭게 정의해, 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외함 |
| 강력한 비목적성 분석기법으로, 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용 가능 | 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면, 의미없는 분석이 될 수도 있다 | 적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후, 그 결과 중에서 세부적으로 연관 규칙을 찾는 작업을 수행할 수 있음 |
| 사용이 편리한 분석 데이터의 형태로 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 구조를 가짐 | 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견시 제외하기가 쉬움 | 이런 경우, 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면, 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함시킬 수 있음 |
| 분석을 위한 계산이 간단함 |
순차패턴 (Sequence Analysis)
동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에, 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것이다. 연관성분석에서의 데이터 형태에서, 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.
2. 기존 연관분석의 이슈
- 대용량 데이터의 연관분석 불가능
- 시간이 많이 걸리거나, 기존 시스템에서 실행시 시스템 다운되는 현상 발생 가능
3. 최근 연관성분석 동향
- 거래내역에 포함되어 있는 모든 품목의 수가 개일 때,
- 품목들의 전체집합 (Item Set) 에서 추출할 수 있는 품목 부분집합의 수는 이다. (공집합 제외)
- 가능한 모든 연관규칙의 개수는 개다.
- 이때
- Apriori: 모든 가능한 품목 부분집합의 개수를 줄이는 방식으로 작동
- FP-Growth: 거래내역 안에 포함된 품목의 개수를 줄여, 비교하는 횟수를 줄이는 방식
Apriori 알고리즘 (1세대)
- Apriori 알고리즘은 모든 품목집합에 대한 지지도를 전부 계산하는 것이 아니라, 빈발항목집합에 대해서만 연관규칙을 계산
- 1994년에 발표된 1세대 알고리즘
- 구현과 이해가 쉬우나, 지지도가 낮은 후보 집합 생성시 아이템의 개수가 많아지면 계산 복잡도가 증가한다는 문제
FP-Growth 알고리즘 (2세대)
- 후보 빈발항목집합을 생성하지 않고, FP-Tree 를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출
- Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스 스캔 횟수가 작고, 빠른 속도로 분석 가능
FPV (3세대)
- 메모리를 효율적으로 사용
- SKU 레벨의 연관성분석을 성공적으로 적용
4. 연관성분석 활용방안
- 장바구니 분석의 경우, 실시간 상품추천을 통한 교차판매에 응용
- 순차패턴 분석의 경우, A를 구매한 사람인데 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 사용