히스토그램 유형
| 유형 | 특징 | 주요 메커니즘 | 적합한 데이터 분포 |
|---|---|---|---|
| 도수 히스토그램 (Frequency) | 값의 종류가 적을 때 사용 (값당 버킷 하나) | 각 값(Value)과 해당 값의 빈도수(Count)를 직접 매핑 | 데이터 값의 종류(NDV)가 적고 중복도가 높을 때 |
| 높이 균형 히스토그램 (Height-Balanced) | 값의 종류가 많아 버킷이 부족할 때 사용 | 전체 데이터 수를 버킷 수로 나누어 각 버킷이 동일한 높이(데이터 수)를 가짐 | 값의 종류가 많고 데이터가 고르게 퍼져 있을 때 |
| 상위 도수 히스토그램 (Top-Frequency) | 도수 히스토그램의 변형 | 상위 빈도 값들만 정확히 기록하고, 나머지는 무시하거나 평균 처리 | 소수의 값들이 전체 데이터의 대부분을 차지할 때 |
| 하이브리드 히스토그램 (Hybrid) | 도수 + 높이 균형의 장점 결합 | 값이 여러 버킷에 걸쳐 있더라도 하나의 버킷에 몰아넣고 빈도수를 별도 기록 | 데이터 분포가 매우 불규칙하고 편향(Skew)이 심할 때 |