- distance
연속형
| 유클리디안 | 가장 메이저. 통계적 개념이 내포되어 있지 않아 변수간 산포도가 감안되지 않음 | |
| 표준화 (Statistical) | - | 해당 변수의 표준편차로 척도변환 후 유클리디안. 표준화로 척도의 차이, 분산의 차이로 인한 왜곡 보정 |
| 마할라노비스 | - 는 공분산 행렬 | 통계적 개념 내포. 변수의 산포를 고려하여 이를 표준화한 거리 (standardized distance). 두 벡터 사이의 거리를 산포를 의미하는 표본 공분산으로 나눠야함. 그룹에 대한 사전지식 없이는 표본공분산 를 계산할 수 없으므로 사용 어려움. |
| 쳬비셰프 | ||
| 맨하탄 | 가장 메이저. 맨하탄 도로에서의 최단거리. | |
| 캔버라 | ||
| 민코프스키 | 맨하탄과 유클리디안을 모두 포괄 L1 거리 (맨하탄), L2 거리 (유클리디안) |
이산형
- 두 점 (data) 간의 공통점이 커지는 상황은
- 유사도가 클수록
- 거리가 작을수록
| 거리 | ||
|---|---|---|
| 자카드 유사도 (Similarity), 자카드 계수 (coef) | 두 집합 사이의 유사도를 측정하며, 0~1 사이의 값을 가진다. 집합이 동일하면 1, 공통원소가 없으면 0. | |
| 자카드 거리 | ||
| 코사인 유사도 | 두 개체의 벡터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사도 | |
| 코사인 거리 | 문서를 유사도를 기준으로 분류, 그룹핑할 때 유용하게 사용된다. |