Linear Regression
Problem formulation
unknown vector 인 regression vector 설정.
벡터 를 관측했으며, linear model 를 통해 이와 관계되어 있는 를 가정하자. 이때 이며, 각각은 independent zero-mean .
이제 를 의 estimator 로 잡는다. 이하의 2가지가 주된 관심사.
- Prediction
라고 설정하자. 우리의 목적은 에 대한 우리의 estimate 의 구현값을 사용해서 를 predict. performance 에 대한 natural measure 는 이하와 같다. 이때 unavoidable error 는 말 그대로 unavoidable 이므로, 우리는 후자인 MSE, 즉 , 를 조사하고자 한다.
- Parameter Estimation
위와는 다른 케이스로, 몇몇 경우에 우리는 regression vector 를 조사하고 싶어하는 경우가 있으며, 이 경우에 관심사 (조사대상) 는
Least Squares Estimator in high dimensions
고전적인 LR 은 LS 문제를 풀어내는 것과 같다. 이하의 형을 구한다는 것과 equivalent 이며, 이는 보통 Ordinary Least Squares (OLS) estimator 로 통칭됨.
Gauss–Markov thm 에 의해 우리는 OLS Estimator 가 Best Linear Unbiased Estimator (BLUE) 임을 알고 있음.
- 왜냐고? 특정 condition 하에서의 Linear Unbiased Estimator 들의 class 내에서 OLS Estimator 가 가장 작은 Var 을 가지고 있으니까.
하지만 이 estimator 는 가 uninvertible 하면 존재할 수 없음. 다른 말로, 인 경우에만 존재할 수 있다는 거임.
라도, 라는 문제에 대한 해를 찾아내는 건 가능함. 다음과 같이 매핑하는 function 는 convex 이므로, 1차 optimality condition 인 를 체크하는 것만으로 충분함.
이의 해는 이하에 제시된 MP-pseudo Inverse 의 형으로 서술될 수 있음.
Mean Squared Error of the Least Squares Estimator
:::{.theorem name=“Least Squares Estimator”}
let linear model , 이때 의 elements 각각은 independent zero-mean .
이때 는 이하를 만족하며, 2번째 ineq는 with probability at least 로 만족.
\begin{alignat}{2} & &&\frac{1}{n}E \Bigg ( && \Bigg \| X\bigl(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\bigr) \Bigg \|_{2}^{2} \Bigg) &&\lesssim \sigma^{2}\frac{r}{m} && \; \; \; \; \; \; \; \; \;\;r= rank(X'X) \\ &\forall \delta>0: && {\frac{1}{n}} &&\|X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}^{2} &&\lesssim\sigma^{2} \left({\frac{r+\log(\frac 1 \delta)}{n}} \right) \end{alignat}:::
- Remark
이며 일 때, 이하가 성립한다. 이때 는 의 ev 중 최소인 값이며, 따라서 이에 를 탐색하기 위해 thm 8.2. 를 바로 적용하는 것이 가능하다.
그러나 고차원 케이스에서는 일 때 이므로 이 방법론을 쓸 수 없다. 따라서 MSE 의 형으로 의 bound 를 설정할 필요가 있기 때문에 가정이 추가적으로 필요하다.
\begin{alignat}{2} & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}B&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}\frac{X'X}{n}&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ &\iff && && \Bigg \|{\widehat\theta}_{\mathrm{LS}}-\theta^{*} \Bigg \|_{2}^{2} &&\leq{\frac{1}{\lambda_{\mathrm{min}}(B)}}\cdot\frac{1}{n} &&\Bigg \|X({\widehat\theta}_{\mathrm{LS}}-\theta^{*}) \Bigg \|_{2}^{2} \end{alignat}- Proof
8.2 의 증명은 basic inequality 와 sup-out 테크닉에 의존.
- Basic ineq.
첫줄의 ineq. 는 의 정의에 의해 성립. 이때 과 는 dependent 하기 때문에 를 control 하기가 어렵다는 것을 note. dependence structure 가 complicated 하다면 더더욱 그럴 것. 이 dependence 를 지워 없애기 위해 sup-out tachnique 를 사용. 이의 maximal ineq. 를 적용하는 것이 해당 문제 해결의 열쇠가 된다.
\begin{array} & & &\|Y-X{\widehat{\theta}}_{\mathrm{LS}}\|_{2}^{2} &\leq &\|Y-X\theta^{*}\|_{2}^{2} &= \|\epsilon\|_{2}^{2} \\ &= & \| \epsilon + X(\theta^\ast - \hat \theta_{LS})\| & \\ &= &\|\epsilon\|_{2}^{2}+2\epsilon^{\mathsf{T}}X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})+\|X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})\|_{2}^{2} && \\ \iff & &\|X(\theta^{*}-\hat{\theta}_{\mathrm{LS}})\|_{2}^{2}\; &\leq &\;2\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*}) & &= &2\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}\times\frac{\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})}{\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}} \end{array}- Sup-Out
의 column span 의 orthonormal basis 를 라고 하자. (SVD 를 생각하자.) 특히, . 이때 이 에 대해
\begin{alignat}{2} & &&\frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})}{||X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})||_{2}} =\frac{\epsilon^{\top}\Psi\nu}{||\Psi \nu||_{2}} &&=\frac{\epsilon^{\top}\Psi\nu}{||\nu||_{2}} \\ & && &&=\frac{\tilde \epsilon^{\top}\Psi}{||\nu||_{2}} &&\le&&\sup\limits_{u\in\mathbb{R}^{r}:||u||_{2}=1}\tilde{\epsilon}^{\top}u \\ & \iff && &&||X(\theta^{*}-\widehat{\theta}_{\mathrm{LS}})||_{2}^{2} &&\leq4 \cdot &&\sup\limits_{u\in\mathrm{R}^{r}:\|u\|_{2}=1}(\tilde{\epsilon}^{\mathsf{T}}u)^{2} \end{alignat}since ,^[] .
이는 곧 이라는 소리. 이때 (Lecture 2). 따라서 CS ineq. 에 의해 . 이것이 thm 8.2. 의 첫번째 claim 을 증명.
bound in Probability 를 보이기 위해, 우리는 standard discretization argument 를 사용. 를 의 -covering 이라고 하자. 그러면 Lecture 4 에서의 결과물을 사용하는 것으로 가 얻어진다.
따라서 이하가 성립하며 이를 만족시키는 임의의 를 잡았을때 이에서 파생되는 임의의 를 얻는다.
따라서 with probability at least , .
Sparse linear regression
이상을 통해 우리는 일 때 가 consistent 함을 확인. 따라서 가 우리가 바랄 수 있는 최적의 condition. 특히 이 0에서 bounded away 된 채로 남는다면 consistent estimator 를 획득하는 건 불가능함. (minimax point of view 에서는.) 이러한 이유로 상황에서 작업을 할 때는 unknown regression vector 에 추가적인 structure 을 얹는 게 필수가 됨. 이제 의 대다수가 0이라는 조건인 sparse condition 에 대해서 논해보자.
Lasso
linear model (8.1)에서 의 support set 이 cardinality , 즉 s-sparse 인 상황 가정. regularized estimator 로서, lasso estimator 는 이러한 sparse structural assumption 에 대한 설명력을 가진다.
lasso esimator 는 라는 sparcity property 를 가지며 이건 을 무엇으로 골랐는지에 의존한다. 위의 등식 (8.3)은 lasso problem 이라고 불리며, 이는 convex optimization problem 이고, computationally tractable.
- Lasso Estimator 는 이하로 표현/요약될 수도 있다.
- lemma name=“Basic inequality
lasso estimator 에 대한 basic ineq.
- Proof.
Lasso 의 정의에 의해,
그리고 MSE 를 확장하는 것으로
둘을 복합.
Slow convergence rate
위에서의 basic inequality (lemma 8.3) 이 주어졌을 때, 우리는 lasso estimator 의 consistency 를 보장하는 sufficient condition 생성 가능. 이는 deterministic bound 를 구하는 것부터 시작함.
- theorem name=“Slow Convergence Rate”
를 의 j-th column 이라고 하고, 라고 가정하자. 이 때 lasso estimator 는 이하를 만족.
- Proof:
- 휠더 부등식
- triangle ineq.
- (8.4) 의 에 대해 걸었던 condition.
th, 8.4. 의 error bound 는 (8.4) 에서 에 대해 걸었던 condition 에 의존. 이제 좀 더 자세히 살펴보자.
- 의 good choice 는 무엇인가?
랜덤벡터 이었음을 상기. 이제 라고 가정 assume 하자. 이때 가 성립한다. 이를 통해 standard argument 를 만들수 있다:
마지막 ineq. 는 시작 전 더해둔 assumption 에 의해서 성립. 이제 를 하나 고르는 것으로, 우리는 with probability 에 의해 가 성립한다는 사실을 파악할 수 있다.
따라서 으로 잡는 것으로, thm 8.4 를 적용하는 것으로 가 주어진 lasso estimator 는 이하를 보장한다.
여기에 추가로 가 uniformly bounded 되어 있다고 suppose 한다면? 그 경우 의 -sparcity 하에서, 이 1번이라도 발생한 순간 MSE 는 0으로 간다.
- Parameter Estimation
위에서 언급되었 듯이, 이며 일 경우, 앞의 결과는 이하를 보장한다. 안타깝게도 이 전략은 인 경우에는 작동하지 않는다. 가 rank-deficient 가 되어 버리므로.
Fast Convergence Rate
디자인 매트릭스 에 추가적인 assumption 을 붙이는 것으로 좀 더 빠른 convergence rate 를 얻는 것이 가능. 여기선 Restricted Ev (RE) condition 을 사용할 것. 의 subset 에 대해 이며 , o.w. 으로 정의.
를 의 complement 로 잡자. 즉슨 도 와 유사하게 정의. 이때 . 이 notation 들을 써서 이하 정의.
:::{.definition name=“RE condition”}
매트릭스 는 이하를 만족할 경우, 패러미터 와 함께 에 대해 RE condition 을 만족한다.
:::
- Remark.
RE condition 에 대한 직관을 좀 얻어보자. cost difference 가 작다면, error vector 도 또한 작다는 것을 장담할 수 있을까? 일반적으로 이는 그렇다고 할 수 없다. 특히 cost function 가 flat 할 경우에는 더더욱. 이 flat 상황을 피하기 위해 cost function 로 하여금 이의 optimum 주위에서 높은 curvature 를 갖도록 하는 것이 요구됨. curvature 는 Hessian MAtrix 의 구조에 의해 결정됨. 만약 우리가 이 Hessian Matrix 의 ev 가 0 에서 bounded away 되었다고 장담할 수 있다면, 즉, 라면, 우리는 모든 지점에서 curvature 를 갖는다는 것을 확신할 수 있을 것.
하지만 고차원 상황 에서는 Hessian Matrix 는 0 ev 를 가져야만 하고, condition (8.7) (바로 위 상황) 은 성립할 수 없다. 역으로 우리는 로 정의된 특정한 지점에서 cost function 이 curved 한지를 고려한다. 이 직관을 써서 RE condition 하에서 lasso estimator 에 대한 deterministic bound 를 생산할 수 있다. 이것이 아래의 thm.
:::{.theorem name=“Fast Convergence Rate”}
linear model (8.1) 을 살피고, 에 대해 패러미터 를 통해 RE condition 을 만족하는 를 assume. 이때, 의 cardinality 가 를 쓰자. 여기서 만약 가 성립한다면 이하가 성립.
:::
- Proof:
편의를 위해 . 주어진 condition 하에서 임을 먼저 보이자. basic ineq. (lemma 8.3) 을 사용하면 임을 보일 수 있다. 가 s-sparse 이며 이므로 이하가 성립.
이를 통해 라고 결론지을 수 있으며, 우리는 가 패러미터 와 함께 RE condition 을 만족한다고 assume 했으므로, 이는 곧 라는 것을 보여준다.
앞의 과정을 다시 사용해서 이제
따라서 위의 마지막 ineq. 와 ineq. (8.9) 를 다시 한번 적용하면 증명 완료.
- Remark.
상황이라고 가정하자. 이 경우 design 매트릭스에 (8.5) 와 유사한 condition 을 두고 같은 argument 를 적용하면 with probability at least for some constant 임을 보일 수 있다. 이는 또한 ( 일 때) 라는 것으로도 이어지며, 따라서 RE condition 하에서 once 라면 lasso estimator 는 consistent 하다.
이와 별개로 를 가정하는 것으로, thm 8.6 의 결과가 8.4의 결과를 former의 upper bound 가 이 아니라 에 의존한다는 것으로 진화시킨다는 것을 발견할 수 있다.