Concentration inequalities
SG 는 꽤 빡빡한 strict 개념. mgf 여부에 기반한 sub-Exponential 은 좀 느슨함.
Sub-exponential random variables
:::{.definition name=“sub-Exponential rv”}
, 패러미터 에 대해 이하가 성립하면 랜덤변수 는 sub-exponential.
SG 또한 로 해석할 경우 , 인 sub-exponential. :::
Bernstein’s condition
의 polynomial moment를 조작하는 것으로 의 sub-exponential 성질을 증명할 수 있다.
:::{.definition name=“Bernstein’s Condition”}
let , 인 랜덤변수 . 이하의 경우와 패러미터 에 대해 Bernstein’s Condition 이 성립한다.
이때, 모든 bounded 랜덤변수 (즉 ) 에 대해 Bernstein’s Condition 이 성립한다는 것을 파악해라. :::
가 Bernstein’s condition 을 만족할 경우, X는 패러미터 인 sub-exponential.
:::{.theorem name=“Bernstein-type inequality”}
Bernstein’s Condition 을 만족하는 모든 랜덤변수에 대해 이하가 성립한다.
:::
McDiarmid’s inequality
:::{.theorem name=“McDiarmid’s inequality”}
이하의 조건을 만족한다고 하자.
- 랜덤변수 이 independent
- 함수 : (bounded condition)
위 둘이 성립하면 이하가 성립한다.
:::
Levy’s inequality
충분히 smooth 한 Gaussian 랜덤변수에 대해, 유사한 concentration inequality 가 존재한다. 이때는 다른 가정이 필요. 에 대해
Quadratic form
가 symmetric Matrix 일 때 이하를 정의할 수 있다.
이하는 관련한 thm.
:::{.theorem name=“Hanson–Wright inequality”}
independent, zero-mean, 인 랜덤벡터 를 정의하자. 그러면 Hanson–Wright inequality 에 의해 이하와 같이 quadratic form 의 tail bound 가 정의된다.
이때 는 SG 패러미터 에 의존하는 some constant. 증명 개어려움. decoupling 테크닉을 다수 쓰는데 궁금하면 Vershynin 책 찾아보던가.
:::
The Johnson–Lindenstrauss Lemma
Example 3.5 에서 확인한 의 tail bound 의 응용으로서 유명한 것 중 하나는 “random projection”. 가 충분히 큰 데이터셋 을 가지고 있다고 치자. 이러한 데이터셋을 보관하는 것은 과한 비용을 요구하므로, 이를 해결하기 위해 우리는 이때 우리는 인 map 을 만든 것이 목적인 “sketching”, 혹은 “random projection” 을 사용한다. 이를 적용한 이후에 우리는 앞서 말한 대용량 데이터셋을 저장하는 대신 를 보관하게 된다. 여기서 관건은 오리지널 데이터셋의 본질을 해치지 않는 map 를 만들어내는 것이다. 특히, 우리는 모든 pair 에 대해 이하가 성립하는 것을 목표로 하며, i.e., map 은 모든 pair-wise distance 를 factor 에 bound 되게 보존한다.
이때 Johnson-Lindenstrauss lemma 은 실로 놀라운 결과를 보여준다. 라는 조건이 주어져 있다면, simple randomized construction 만으로 그러한 map 을 with probability 로 생산할 수 있다는 것이다.
이 결과는 원본 데이터셋의 dim 와는 완전히 독립이며
points 의 숫자 에만 logarithmical 하게 의존한다는 것에 notice. 이 map 은 핵심적으로 모든 pairwise 거리를 보존하면서도 보관 비용을 획기적으로 줄일 수 있다.
map 그 자체의 방법론은 매우 간단하다. matrix , 이 되도록 설계하고, map 이 되도록 정의한다.
이제 pair 중에 하나를 고르고 이하를 생각하자.
이때 는 의 i-th row. 이제, for some fixed numbers 에 대해, . 따라서 이에 의해 이며 각각은 independent. 이제 의 tail bound 를 적용하는 것으로 우리는 이하를 얻는다.
따라서 fixed pair 에 대해, 우리의 map 이 distance 를 보존 (preserve) 하는데에 실패할 확률은 exponentially small, i.e., 최대로 해봐야 . 이제 우리의 map 이 중 무엇 하나라도 보전에 실패할 확률은 단순히 union bound 적용해보면 해결됨. 이 계산을 통하면 .
따라서 일때 위에서 이야기했던 확률이 최대로 해봐야 임을 증명하는 건 쉽다. 여기서 note 해야 할 것은 을 그러한 작은 값으로 이끄는 exponential concentration 이라는 개념이다. (i.e., 이는 그냥 sample size 에 맞춰서 logarithmically 하게 grow 하기만 하면 된다)