Uniform laws of large numbers
랜덤변수의 fixed sequence 에만 적용되던 usual LLN 을 확장하여 uniform LLN 는 랜덤변수의 collection 들에 대해 uniform 하게 성립함. 이제 non-symptotic 결과물에 대해서도 설명할 것.
Motivation
- Detour: 일 경우, ^[almost surely.]. 이때 는 underlying sample space.
Cumulative distribution functions
랜덤변수 가 cdf 을 보유한다. 우리가 collection 를 보유하며 이는 의 개의 copy 들이라고 하자. 에 대한 natural estimate 는 empirical cdf 이며, 이 **empirical cdf **는 이하와 같다. 이 경우 population cdf 는 로 표기될 수 있으므로, **empirical cdf **는 UE.
fixed , 랜덤변수 는 를 가지며, 모든 차수 (order) 의 moment 또한 가진다. 따라서 strong LLN 을 적용하는 것으로 임을 획득할 수 있다. 우리의 목적은 이 pointwise convergence 를 확장시켜 uniform convergence 가 성립함을 보이는 것. 특히 이하를 보이는 것이 주된 목적. 이 uniform convergence 결과는 실제로 성립하며 이의 이름은 Glivenko–Cantelli theorem.
이러한 uniform convergence 결과가 유의미한 이유는 무엇인가? 많은 estimation problem 이 cdf 를 실수 로 mapping 하는 functional 표기법으로 치환될 수 있으니까. plug-in principle 은 이 unknown cdf 를 empirical cdf 으로 대체하는 것으로 을 $\gamma (F) 의 estimate 로 인식할 수 있다는 것을 제시하고 있음. 예시 몇가지:
- Remark (Continuity of a functional)
우리가 in probability 를 깨달았다면, 우리는 자연스럽게 functional 가 sup-norm 에 비추었을 때 연속일 경우, in probability 라는 것 또한 알 수 있다.
우리는 functional 의 continuity 를 sup-norm 에 기반하여 정의할 것이다. 더 정확하게 설명하자면, 가 성립할 경우, functional 는, in sup-norm, 에서 연속이다.
결과적으로 가 성립하며, 이를 통해, (9.1.) 의 Glivenko–Cantelli theorem 에 의해, 이며, 이인즉 in probability.
Uniform laws for more general function classes
unifrom LLN 의 좀 더 general 한 고려로 넘어가보자.
- : domain 를 가지는 적분가능한 (integrable) real-valued function 의 class
- \mathcal X\mathbb P$ 로부터의 iid 샘플 의 collection
이제 이하의 랜덤변수를 생각해보자. 이는 over class , 샘플평균과 population 평균 간의 absolute deviation 을 uniformly 측정한다. 이때 만약 일 때 가 0 으로 in probability 하게 수렴하면, 우리는 를 Glivenko–Cantelli class 라고 명명한다.
Empirical risk minimization
empirical risk minimization 에서 quantity 가 유의미하게 사용됨. probability distribution 의 indexed family 를 생각해보자. fixed 되었지만 unknown 인 임의의 에 대해, distribution 에서 iid 샘플을 추출한 상황을 생각하자. 여기서 를 estimate 하는 가장 보편적인 방법은 패러미터 와 샘플 둘 사이의 fit 을 measure 하는 cost function 을 최소하하는 것. 그후 우리는 empirical risk 를 최소로 하는 estimate 를 획득할 수 있다.
대조적으로 population risk , 여기서 기댓값 는 over 샘플 에 대해서 구해졌다. 여기서 주로 논해지는 통계적 질문은 excess risk 를 어떻게 bound 할 것인가.
간단함을 위해 를 만족하는 가 존재한다고 가정하자. 이 notation 을 사용할 경우 excess risk 는 이하와 같이 표기 가능.
를 minimize 한다는 의 정의 덕분에 우리는 임은 알 수 있다.
는 centered at 0 인 iid 랜덤변수들의 sample average 이다. 따라서 를 analyze 함에 있어 Hoeffding’s inequality 사용 가능.
은 control 하기 좀 빡셈. 패러미터 가 랜덤이고, 샘플들 에 의존하기 때문이다. 따라서 을 control 하는 건 강력한 result 를 필요로 하며, 바로 여기에서 cost function 에 대해 (over) uniform LLN 를 적용한다. 이 notation 을 사용하면 이하와 같은 형식으로 이 정리됨.
는 이 quantity 에 의해 dominated 되므로, 우리는 excess risk 가 에 의해 bound 된다고 결론지을 수 있다.
이를 통해 우리는 empirical risk 최소화에 기반한 estimator analyzing 에 있어 가장 중요한 장애물은 loss class 에 대해 uniform LLN 을 구축하는 일이라는 것을 알 수 있다.
A uniform law via Rademacher complexity
uniform law 의 구축에 필수불가결한 것은 function class 의 Rademacher complexity. 아무 fixed class 에 대해, 로서 주어지는 의 subset 을 생각하자. 이때 empirical Rademacher complexity 는 이하와 같다.
- : iid Rademacher 랜덤변수.
랜덤변수의 collection 가 주어졌다면, empirical Rademacher complexity 또한 랜덤변수이다.
에 대해 expectation 을 취하는 것으로 Rademacher complexity of the function class 가 획득되며, 이는 주로 deterministic quantity.
여기서 Rademacher complexity 는 vector 와 noise vector 사이의 maximum correlation 임을 note.
function class 가 극도로 크다면 우리는 언제나 무작위로 drawn 된 noise vector 에 대해 높은 correlation 을 가지는 function 을 찾아내는 것이 가능하다. 역으로 function class 가 지나치게 작다면 무작위로 drawn 된 noise vector 에 대해 기댓값 적으로 강하게 correlate 된 function 을 찾아내는 것은 불가능할 지도 모른다. 이러한 관점에서 결국 Rademacher complexity 는 function class 의 size 를 측정하며, 이는 곧 uniform convergence result 를 구축함에 있어 핵심적인 역할을 한다. 이하는 일 경우, function blass 는 -uniformly bounded 임을 보여준다.
:::{.theorem name=“Glivenko–Cantelli property”}
, function 의 -uniformly bounded class, 에 대해 positive integer 과 scale 에 대해 with -probability at least 에 대해 이하가 성립한다.
결과적으로 인 한, 우리는 임을 얻는다.
:::
Upper bounds on the Rademacher complexity
Glivenko–Cantelli property 가 유용하기 위해선 우리는 Rademacher complexity 에 대한 upper bound 를 획득할 필요가 있다. 이에 대해서는 다양한 방법론이 존재하며 simple union bound (finite funciton class 들에 적합한) 부터 metric entropy 의 개념부터 chaining argument 를 아우르는 고등한 방법까지 다양하다. 여기서는 polynomial discrimination 을 보유하는 function class 들에 적용할 수 있는 간단한 방법을 사용하겠다.
:::{.definition name=“Polynomial discrimination”} domain 를 가지는 function 들의 class 는 이하가 성립한다면 polynomial discrimination of order 를 가진다.
각각의 positive integer 과, 안의 개의 point 들로 이루어진 collection 에 대해,
set 은 로 upper bounded 된 cardinality 를 가진다.
:::
이 성질은 empirical Rademacher complexity 를 control 하는데 있어 straightforward 한 접근법을 제공한다는 점에서 유의.
:::{.lemma name=“Bound on the empirical Rademacher complexity”}
가 polynomial discrimination of order 를 가진다고 하자. 이때
- 는 set 의 -raidus. :::