1. 연관규칙

  • 연관규칙분석의 개념
    • 흔히 Market Basket Analysis (장바구니 분석), Sequence Analysis (서열 분석)으로 불림
    • 기업 DB 에서 상품의 구매, 서비스 등 일련의 거래 또는 사건 간의 규칙을 발견하기 위해 적용
  • 연관규칙의 형태 If-Then
    • A가 일어나면, B도 일어난다
  • 절차
    • 최소 지지도 결정
    • 품목 중 최소 지지도를 넘는 품목 분류
      • 최소 지지도보다 큰 집합만을 대상으로, 높은 지지도를 갖는 품목 집합을 찾는 것
      • 처음에 너무 높은 최소 support 를 선정하는 건 많은 리소스가 소모되므로 부적절. 보통 시작은 5%
    • 2가지 품목 집합 생성
    • 반복적으로 수행해 빈발품목 집합을 찾음

연관규칙의 측도

지지도
(Support)
전체 거래 중, A 와 B를 동시에 포함하는 거래의 비율
신뢰도
(Confidence)
항목 B 를 포함한 거래 중, 항목 A와 B가 같이 포함될 확률.
연관성의 정도를 파악
향상도
(Lift)
A와 B의 동시 발생 확률이, 두 사건이 독립적일 때의 기대 확률 대비 얼마나 큰가
연관규칙 B→A 는, 품목 A와 B가 관계가 없을 때 향상도가 1이 된다

장점과 단점

장점단점개선방안
탐색적인 기법이므로, 조건 반응으로 표현되는 연관성 분석의 결과를 쉽게 이해할 수 있음품목수가 증가하면 분석에 필요한 계산은 기하급수적으로 증가함- 이를 개선하기 위해 유사한 품목을 한 범주로 일반화함
- 연관 규칙의 신뢰도 하한을 새롭게 정의해, 실제 드물게 관찰되는 의미가 적은 연관규칙은 제외함
강력한 비목적성 분석기법으로, 분석 방향이나 목적이 특별히 없는 경우 목적변수가 없으므로 유용하게 활용 가능너무 세분화한 품목을 갖고 연관성 규칙을 찾으면, 의미없는 분석이 될 수도 있다적절히 구분되는 큰 범주로 구분해 전체 분석에 포함시킨 후, 그 결과 중에서 세부적으로 연관 규칙을 찾는 작업을 수행할 수 있음
사용이 편리한 분석 데이터의 형태로 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용할 수 있는 간단한 구조를 가짐거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고, 규칙 발견시 제외하기가 쉬움이런 경우, 그 품목이 관련성을 살펴보고자 하는 중요한 품목이라면, 유사한 품목들과 함께 범주로 구성하는 방법 등을 통해 연관성 규칙의 과정에 포함시킬 수 있음
분석을 위한 계산이 간단함

순차패턴 (Sequence Analysis)

동시에 구매될 가능성이 큰 상품군을 찾아내는 연관성분석에, 시간이라는 개념을 포함시켜 순차적으로 구매 가능성이 큰 상품군을 찾아내는 것이다. 연관성분석에서의 데이터 형태에서, 각각의 고객으로부터 발생한 구매시점에 대한 정보가 포함된다.

2. 기존 연관분석의 이슈

  • 대용량 데이터의 연관분석 불가능
  • 시간이 많이 걸리거나, 기존 시스템에서 실행시 시스템 다운되는 현상 발생 가능

3. 최근 연관성분석 동향

  • 거래내역에 포함되어 있는 모든 품목의 수가 개일 때,
    • 품목들의 전체집합 (Item Set) 에서 추출할 수 있는 품목 부분집합의 수는 이다. (공집합 제외)
    • 가능한 모든 연관규칙의 개수는 개다.
  • 이때
    • Apriori: 모든 가능한 품목 부분집합의 개수를 줄이는 방식으로 작동
    • FP-Growth: 거래내역 안에 포함된 품목의 개수를 줄여, 비교하는 횟수를 줄이는 방식

Apriori 알고리즘 (1세대)

  • Apriori 알고리즘은 모든 품목집합에 대한 지지도를 전부 계산하는 것이 아니라, 빈발항목집합에 대해서만 연관규칙을 계산
  • 1994년에 발표된 1세대 알고리즘
  • 구현과 이해가 쉬우나, 지지도가 낮은 후보 집합 생성시 아이템의 개수가 많아지면 계산 복잡도가 증가한다는 문제

FP-Growth 알고리즘 (2세대)

  • 후보 빈발항목집합을 생성하지 않고, FP-Tree 를 만든 후 분할정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출
  • Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스 스캔 횟수가 작고, 빠른 속도로 분석 가능

FPV (3세대)

  • 메모리를 효율적으로 사용
  • SKU 레벨의 연관성분석을 성공적으로 적용

4. 연관성분석 활용방안

  • 장바구니 분석의 경우, 실시간 상품추천을 통한 교차판매에 응용
  • 순차패턴 분석의 경우, A를 구매한 사람인데 B를 구매하지 않은 경우, B를 추천하는 교차판매 캠페인에 사용