• distance

연속형

유클리디안가장 메이저.
통계적 개념이 내포되어 있지 않아 변수간 산포도가 감안되지 않음
표준화
(Statistical)

-
해당 변수의 표준편차로 척도변환 후 유클리디안.
표준화로 척도의 차이, 분산의 차이로 인한 왜곡 보정
마할라노비스
- 는 공분산 행렬
통계적 개념 내포.
변수의 산포를 고려하여 이를 표준화한 거리 (standardized distance).
두 벡터 사이의 거리를 산포를 의미하는 표본 공분산으로 나눠야함.
그룹에 대한 사전지식 없이는 표본공분산 를 계산할 수 없으므로 사용 어려움.
쳬비셰프
맨하탄가장 메이저.
맨하탄 도로에서의 최단거리.
캔버라
민코프스키맨하탄과 유클리디안을 모두 포괄
L1 거리 (맨하탄), L2 거리 (유클리디안)

이산형

  • 두 점 (data) 간의 공통점이 커지는 상황은
    • 유사도가 클수록
    • 거리가 작을수록
거리
자카드 유사도
(Similarity),
자카드 계수
(coef)
두 집합 사이의 유사도를 측정하며, 0~1 사이의 값을 가진다.
집합이 동일하면 1, 공통원소가 없으면 0.
자카드 거리
코사인 유사도두 개체의 벡터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사도
코사인 거리문서를 유사도를 기준으로 분류, 그룹핑할 때 유용하게 사용된다.