kolmogorov-smirnov

1 개의 포스트

Robust statistical distances for machine learning (새 탭에서 열림)

통계적 거리(Statistical Distance)는 두 데이터 분포 간의 유사성을 정량화하는 도구로, 이상 탐지 및 머신러닝 모델의 성능 평가에서 핵심적인 역할을 합니다. 이 글은 Kolmogorov-Smirnov, Earth Mover's Distance, Cramér-von Mises 거리의 정의와 작동 방식을 비교하며, 데이터의 특성에 따라 적절한 거리 측정법을 선택해야 한다고 강조합니다. 단순히 통계적 가설을 검정하는 것을 넘어 분포 간의 물리적·수학적 거리를 측정함으로써 데이터 세트 간의 미묘한 차이를 효과적으로 포착할 수 있습니다. **시각적 분석과 Q-Q 플롯을 통한 분포 비교** * 히스토그램을 통해 데이터의 평균, 분산, 최소/최대값 등 경험적 분포의 특징을 직관적으로 파악할 수 있습니다. * Q-Q(Quantile-Quantile) 플롯은 두 데이터를 정렬하여 서로 대응시킨 뒤 평면에 표시하는 방식으로, 점들이 직선에 가까울수록 두 분포가 유사함을 의미합니다. * 시각적 분석은 훌륭한 휴리스틱(Heuristic) 도구이지만, 정밀한 비교를 위해서는 정량적인 '거리' 개념이 필요합니다. **국소적 변화에 민감한 Kolmogorov-Smirnov(KS) 거리** * 두 데이터 세트의 경험적 누적 분포 함수(CDF) 사이에서 발생하는 '최대 절대 편차'를 거리로 정의합니다. * 값이 0과 1 사이로 제한되어 있어, 두 분포가 이미 충분히 멀리 떨어져 있는 경우에는 평균 차이가 더 벌어져도 거리 값이 크게 변하지 않는 한계가 있습니다. * 거리의 4대 공리(비음수성, 동일성, 대칭성, 삼각 부등식)를 만족하는 엄밀한 메트릭(Metric)입니다. * 분포의 전체적인 이동보다는 특정 지점에서의 급격한 차이(국소적 변형)에 매우 민감하게 반응합니다. **데이터의 이동량을 측정하는 Earth Mover's Distance(EMD)** * 제1 와서스타인(Wasserstein) 거리로도 알려져 있으며, 하나의 분포를 다른 분포로 옮기기 위해 필요한 최소 작업량(데이터의 양 × 이동 거리)으로 정의됩니다. * 시각적으로는 두 CDF 곡선 사이의 전체 면적과 같으며, 데이터의 꼬리(tail) 부분에 있는 정보까지 효과적으로 반영합니다. * KS 거리와 달리 값의 범위에 제한이 없으므로, 두 분포의 평균이 멀어질수록 거리가 선형적으로 증가하여 차이를 명확히 드러냅니다. **균형 잡힌 지표로서의 Cramér-von Mises(CM) 거리** * 두 CDF 간 차이의 제곱을 합산(적분)하여 계산하며, EMD가 L1 노름(Norm)과 유사하다면 CM은 L2 노름과 유사한 성격을 가집니다. * 두 분포의 평균이 멀어질 때 거리가 제곱근 함수 형태로 증가하여, KS와 EMD 사이의 중간적인 특성을 보입니다. * 국소적 변형을 감지하는 능력(KS의 장점)과 전체적인 분포 흐름을 반영하는 능력(EMD의 장점) 사이에서 적절한 절충안을 제공합니다. **실무적 권장 사항** 분포의 미세한 국소 변형이나 특정 구간의 이탈을 감지해야 하는 이상 탐지 작업에는 **KS 거리**가 유리합니다. 반면, 분포가 전반적으로 얼마나 이동했는지 또는 데이터의 꼬리 영역이 얼마나 다른지 파악해야 한다면 **EMD**가 더 적합합니다. **CM 거리**는 국소적 변화에 너무 예민하지 않으면서도 전반적인 차이를 측정하고 싶을 때 유용한 대안이 됩니다.