히스토그램 유형

유형	특징	주요 메커니즘	적합한 데이터 분포
도수 히스토그램 (Frequency)	값의 종류가 적을 때 사용 (값당 버킷 하나)	각 값(Value)과 해당 값의 빈도수(Count)를 직접 매핑	데이터 값의 종류(NDV)가 적고 중복도가 높을 때
높이 균형 히스토그램 (Height-Balanced)	값의 종류가 많아 버킷이 부족할 때 사용	전체 데이터 수를 버킷 수로 나누어 각 버킷이 동일한 높이(데이터 수)를 가짐	값의 종류가 많고 데이터가 고르게 퍼져 있을 때
상위 도수 히스토그램 (Top-Frequency)	도수 히스토그램의 변형	상위 빈도 값들만 정확히 기록하고, 나머지는 무시하거나 평균 처리	소수의 값들이 전체 데이터의 대부분을 차지할 때
하이브리드 히스토그램 (Hybrid)	도수 + 높이 균형의 장점 결합	값이 여러 버킷에 걸쳐 있더라도 하나의 버킷에 몰아넣고 빈도수를 별도 기록	데이터 분포가 매우 불규칙하고 편향(Skew)이 심할 때

song-ps