080. Linear Regression

Linear Regression

Problem formulation

unknown vector 인 regression vector $θ^{*} \in R^{d}$ 설정.

벡터 $Y = (Y_{1}, \dots, Y_{n})^{'} \in R^{n}$ 를 관측했으며, linear model $Y = X θ^{*} + ϵ$ 를 통해 이와 관계되어 있는 $X \in R^{n \times d}$ 를 가정하자. 이때 $ϵ = (ϵ_{1}, \cdot \cdot \cdot, ϵ_{n})^{⊤} \in R^{n}$ 이며, 각각은 independent zero-mean $ϵ_{1}, \dots, ϵ_{n} \in SG (σ^{2})$ .

이제 $\hat{θ}$ 를 $θ^{*}$ 의 estimator 로 잡는다. 이하의 2가지가 주된 관심사.

Prediction

$X θ^{*} + \tilde{ϵ} = \tilde{Y} \sim ii d Y$ 라고 설정하자. 우리의 목적은 $θ^{*}$ 에 대한 우리의 estimate $\hat{θ}$ 의 구현값을 사용해서 $\tilde{Y}$ 를 predict. performance 에 대한 natural measure 는 이하와 같다. 이때 unavoidable error 는 말 그대로 unavoidable 이므로, 우리는 후자인 MSE, 즉 $E X (θ^{*} - θ)_{2}^{2}$ , 를 조사하고자 한다.

\frac{1}{n} E \tilde{Y} - X θ_{2}^{2} = \frac{1}{n} E \tilde{ϵ} + X (θ^{*} - θ)_{2}^{2} = unavoidable error \frac{1}{n} E \tilde{ϵ}_{2}^{2} + Mean Squared Error \frac{1}{n} E X (θ^{*} - θ)_{2}^{2}

Parameter Estimation

위와는 다른 케이스로, 몇몇 경우에 우리는 regression vector $θ * *$ 를 조사하고 싶어하는 경우가 있으며, 이 경우에 관심사 (조사대상) 는

E θ^{*} - θ_{2}^{2}

Least Squares Estimator in high dimensions

고전적인 LR 은 LS 문제를 풀어내는 것과 같다. 이하의 형을 구한다는 것과 equivalent 이며, 이는 보통 Ordinary Least Squares (OLS) estimator 로 통칭됨.

$θ_{LS} = (X^{⊤} X)^{- 1} X^{⊤} Y = ar g θ \in R^{d} min ∥ Y - Xθ ∥_{2}^{2}$

Gauss–Markov thm 에 의해 우리는 OLS Estimator 가 Best Linear Unbiased Estimator (BLUE) 임을 알고 있음.

왜냐고? 특정 condition 하에서의 Linear Unbiased Estimator 들의 class 내에서 OLS Estimator 가 가장 작은 Var 을 가지고 있으니까.

하지만 이 estimator 는 $X^{'} X$ 가 uninvertible 하면 존재할 수 없음. 다른 말로, $n \geq d$ 인 경우에만 존재할 수 있다는 거임.

$d > n$ 라도, $min_{θ \in R^{d}} ∥ Y - Xθ ∥_{2}^{2}$ 라는 문제에 대한 해를 찾아내는 건 가능함. 다음과 같이 매핑하는 function $θ \mapsto ∥ Y = Xθ ∥_{2}^{2}$ 는 convex 이므로, 1차 optimality condition 인 $\nabla_{θ} ∥ Y - Xθ ∥_{2}^{2} = 0 ⟺ X^{⊤} Xθ = X^{⊤} Y$ 를 체크하는 것만으로 충분함.

이의 해는 이하에 제시된 MP-pseudo Inverse $X^{'} X$ 의 형으로 서술될 수 있음.

Mean Squared Error of the Least Squares Estimator

:::{.theorem name=“Least Squares Estimator”}

let linear model $Y = X θ^{*} + ϵ$ , 이때 $ϵ$ 의 elements 각각은 independent zero-mean $ϵ_{1}, \dots, ϵ_{n} \in SG (σ^{2})$ .

이때 $\hat{θ}_{L S}$ 는 이하를 만족하며, 2번째 ineq는 with probability at least $1 - δ$ 로 만족.

\begin{alignat}{2} & &&\frac{1}{n}E \Bigg ( && \Bigg \| X\bigl(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\bigr) \Bigg \|_{2}^{2} \Bigg) &&\lesssim \sigma^{2}\frac{r}{m} && \; \; \; \; \; \; \; \; \;\;r= rank(X'X) \\ &\forall \delta>0: && {\frac{1}{n}} &&\|X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}^{2} &&\lesssim\sigma^{2} \left({\frac{r+\log(\frac 1 \delta)}{n}} \right) \end{alignat}

:::

Remark

$d \leq n$ 이며 $r ank (B) = r ank (\frac{X ^{'} X}{n}) = d$ 일 때, 이하가 성립한다. 이때 $λ_{min} (B)$ 는 $B$ 의 ev 중 최소인 값이며, 따라서 이에 $∥ \hat{θ}_{L S} - θ^{*} ∥_{2}^{2}$ 를 탐색하기 위해 thm 8.2. 를 바로 적용하는 것이 가능하다.

그러나 고차원 케이스에서는 $d > n$ 일 때 $λ_{min} (B) = 0$ 이므로 이 방법론을 쓸 수 없다. 따라서 MSE 의 형으로 $λ_{min} (B)$ 의 bound 를 설정할 필요가 있기 때문에 가정이 추가적으로 필요하다.

\begin{alignat}{2} & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}B&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}\frac{X'X}{n}&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ &\iff && && \Bigg \|{\widehat\theta}_{\mathrm{LS}}-\theta^{*} \Bigg \|_{2}^{2} &&\leq{\frac{1}{\lambda_{\mathrm{min}}(B)}}\cdot\frac{1}{n} &&\Bigg \|X({\widehat\theta}_{\mathrm{LS}}-\theta^{*}) \Bigg \|_{2}^{2} \end{alignat}

Proof

8.2 의 증명은 basic inequality 와 sup-out 테크닉에 의존.

Basic ineq.

첫줄의 ineq. 는 의 정의에 의해 성립. 이때 $ϵ$ 과 $\hat{θ}_{L S}$ 는 dependent 하기 때문에 $\frac{ϵ ^{⊤} X ( θ _{LS} - θ ^{*} )}{∣∣ X ( θ _{LS} - θ ^{*} ) ∣ ∣ _{2}}$ 를 control 하기가 어렵다는 것을 note. dependence structure 가 complicated 하다면 더더욱 그럴 것. 이 dependence 를 지워 없애기 위해 sup-out tachnique 를 사용. 이의 maximal ineq. 를 적용하는 것이 해당 문제 해결의 열쇠가 된다.

\begin{array} & & &\|Y-X{\widehat{\theta}}_{\mathrm{LS}}\|_{2}^{2} &\leq &\|Y-X\theta^{*}\|_{2}^{2} &= \|\epsilon\|_{2}^{2} \\ &= & \| \epsilon + X(\theta^\ast - \hat \theta_{LS})\| & \\ &= &\|\epsilon\|_{2}^{2}+2\epsilon^{\mathsf{T}}X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})+\|X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})\|_{2}^{2} && \\ \iff & &\|X(\theta^{*}-\hat{\theta}_{\mathrm{LS}})\|_{2}^{2}\; &\leq &\;2\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*}) & &= &2\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}\times\frac{\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})}{\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}} \end{array}

Sup-Out

$X$ 의 column span 의 orthonormal basis 를 $Ψ = [ψ_{1}, \dots, ψ_{r}] \in R^{n \times r}$ 라고 하자. (SVD 를 생각하자.) 특히, $\exists ν \in R^{r} : X (\hat{θ}_{L S} - θ^{*}) = Ψ ν$ . 이때 이 $ν$ 에 대해

\begin{alignat}{2} & &&\frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})}{||X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})||_{2}} =\frac{\epsilon^{\top}\Psi\nu}{||\Psi \nu||_{2}} &&=\frac{\epsilon^{\top}\Psi\nu}{||\nu||_{2}} \\ & && &&=\frac{\tilde \epsilon^{\top}\Psi}{||\nu||_{2}} &&\le&&\sup\limits_{u\in\mathbb{R}^{r}:||u||_{2}=1}\tilde{\epsilon}^{\top}u \\ & \iff && &&||X(\theta^{*}-\widehat{\theta}_{\mathrm{LS}})||_{2}^{2} &&\leq4 \cdot &&\sup\limits_{u\in\mathrm{R}^{r}:\|u\|_{2}=1}(\tilde{\epsilon}^{\mathsf{T}}u)^{2} \end{alignat}

since $\forall u \in S^{r - 1} : u^{T} Ψ^{T} Ψ u = u^{T} u = 1$ ,^[ $S^{r - 1} = {x \in R^{r} : ∥ x ∥_{2} = 1}$ ] $\forall s \in R : E [e^{s \tilde{ϵ}^{⊤}} u] = E [e^{s ϵ^{⊤} Ψ u}] \leq e^{\frac{s ^{2} σ ^{2}}{2}}$ .

이는 곧 $\tilde{ϵ} \in SG (σ^{2})$ 이라는 소리. 이때 $X \sim SG (σ^{2}) ⟹ Va r (X) \leq σ^{2}$ (Lecture 2). 따라서 CS ineq. 에 의해 $E [u \in R^{r} : ∥ u ∥_{2} = 1 sup (\tilde{ϵ}^{T} u)^{2}] \leq i = 1 \sum r E [ϵ_{i}^{2}] \leq r σ^{2}$ . 이것이 thm 8.2. 의 첫번째 claim 을 증명.

bound in Probability 를 보이기 위해, 우리는 standard discretization argument 를 사용. $N_{\frac{1}{2}}$ 를 $S^{r - 1}$ 의 $\frac{1}{2}$ -covering 이라고 하자. 그러면 Lecture 4 에서의 결과물을 사용하는 것으로 $u \in R^{r} : ∥ u ∥_{2} = 1 sup ϵ^{⊤} u \leq 2 max_{u \in N_{\frac{1}{2}}} ϵ^{⊤} u$ 가 얻어진다.

따라서 이하가 성립하며 이를 만족시키는 임의의 $δ$ 를 잡았을때 이에서 파생되는 임의의 $t$ 를 얻는다.

P (∥ X (θ^{*} - θ_{L S}) ∥_{2}^{2} \geq t) \exists δ : \leq P (u \in N_{\frac{1}{2}} max (\tilde{ϵ}^{T} u)^{2} \geq \frac{t}{16}) \leq N_{\frac{1}{2}} e^{- \frac{t}{32 σ ^{2}}} \leq 5^{r} e^{- \frac{t}{32 σ ^{2}}} \leq δ ⟺ \exists t : t \geq 32 σ^{2} {r lo g 5 + lo g (\frac{1}{δ})}

따라서 with probability at least $1 - δ$ , $∣∣ X (θ^{*} - \hat{θ}_{LS}) ∣ ∣_{2}^{2} ≲ σ^{2} {r + lo g (\frac{1}{δ})}$ .

Sparse linear regression

이상을 통해 우리는 $\frac{d}{n} \to 0$ 일 때 $\hat{θ}_{L S}$ 가 consistent 함을 확인. 따라서 $\frac{d}{n} \to 0$ 가 우리가 바랄 수 있는 최적의 condition. 특히 $\frac{d}{n}$ 이 0에서 bounded away 된 채로 남는다면 consistent estimator 를 획득하는 건 불가능함. (minimax point of view 에서는.) 이러한 이유로 $d > n$ 상황에서 작업을 할 때는 unknown regression vector $θ^{*}$ 에 추가적인 structure 을 얹는 게 필수가 됨. 이제 $θ^{*}$ 의 대다수가 0이라는 조건인 sparse condition 에 대해서 논해보자.

Lasso

linear model (8.1)에서 $θ$ 의 support set $S (θ^{*}) = {j \in {1, \dots, d} : θ_{j}^{*} \neq = 0}$ 이 cardinality $s = ∣ S (θ^{*}) ∣ < s u b s t an t ia ll y d$ , 즉 s-sparse 인 상황 가정. regularized estimator 로서, lasso estimator $θ_{lasso} = ar g θ \in R^{d} min {\frac{1}{2 n} ∥ Y - Xθ ∥_{2}^{2} + λ_{n} ∥ θ ∥_{1}}$ 는 이러한 sparse structural assumption 에 대한 설명력을 가진다.

lasso esimator 는 $for many j \in {1, \dots, d} : (θ_{lasso})_{j}$ 라는 sparcity property 를 가지며 이건 $λ_{n}$ 을 무엇으로 골랐는지에 의존한다. 위의 등식 (8.3)은 lasso problem 이라고 불리며, 이는 convex optimization problem 이고, computationally tractable.

Lasso Estimator 는 이하로 표현/요약될 수도 있다.

supp (θ_{lasso}) = {j : (θ_{lasso})_{j} \neq = 0}, supp (θ_{lasso}) ≪ d .

∥ θ_{lasso} ∥_{0} ≪ d, and it is (weakly) increasing in λ_{n}

lemma name=“Basic inequality

lasso estimator 에 대한 basic ineq.

\frac{1}{2 n} ∥ X (θ_{lasso} - θ^{*}) ∥_{2}^{2} \leq \frac{ϵ ^{⊤} X ( θ _{lasso} - θ ^{*} )}{n} + λ_{n} (∥ θ^{*} ∥_{1} - ∥ θ_{lasso} ∥_{1})

Proof.

Lasso 의 정의에 의해,

\frac{1}{2 n} ∥ Y - X θ_{lasso} ∥_{2}^{2} + λ_{n} ∥ θ_{lasso} ∥_{1} \leq \frac{1}{2 n} ∥ Y - X θ^{*} ∥_{2}^{2} + λ_{n} ∥ θ^{*} ∥_{1} = \frac{1}{2 n} ∣∣ ϵ ∣ ∣_{2}^{2} + λ_{n} ∣∣ θ^{*} ∣ ∣_{1}

그리고 MSE 를 확장하는 것으로

\frac{1}{2 n} ∥ Y - X θ_{lasso} ∥_{2}^{2} = \frac{1}{2 n} ∥ ϵ ∥_{2}^{2} + \frac{1}{2 n} ∥ X (θ_{lasso} - θ^{*}) ∥_{2}^{2} + \frac{ϵ ^{⊤} X ( θ ^{*} - θ _{laaso} )}{n}

둘을 복합.

Slow convergence rate

위에서의 basic inequality (lemma 8.3) 이 주어졌을 때, 우리는 lasso estimator $\hat{θ}_{l a sso}$ 의 consistency 를 보장하는 sufficient condition 생성 가능. 이는 deterministic bound 를 구하는 것부터 시작함.

theorem name=“Slow Convergence Rate”

$X_{j}$ 를 $X$ 의 j-th column 이라고 하고, $λ_{n} \geq \frac{X ^{⊤} ϵ}{n}_{\infty} = max_{i \leq j \leq d} \frac{X _{j}^{T} ϵ}{n}$ 라고 가정하자. 이 때 lasso estimator 는 이하를 만족.

\frac{1}{n} X (θ_{lasso} - θ^{*})_{2}^{2} \leq 4 λ_{n} θ^{*}_{1}

Proof:

\frac{1}{2 n} ∣∣ X (θ_{lasso} - θ^{*}) ∣ ∣_{2}^{2} \leq \frac{ϵ ^{⊤} X ( θ _{lasso} - θ ^{*} )}{n} \leq (i) \frac{1}{n} ∥ ϵ^{T} X ∥_{\infty} ∥ θ_{lasso} - θ^{*} ∥_{1} \leq (ii) \frac{1}{n} ∣∣ ϵ^{⊤} X ∣ ∣_{\infty} (∣∣ θ_{lasso} ∣ ∣_{1} + ∣∣ θ^{*} ∣ ∣_{1}) = ∥ θ_{lasso} ∥_{1} (\frac{1}{n} ∥ ϵ^{T} X ∥_{\infty} - λ_{n}) \leq (iii) 2 λ_{n} ∣∣ θ^{*} ∥_{1} + λ_{n} (∣∣ θ^{*} ∣ ∣_{1} - ∣∣ θ_{lasso} ∣ ∣_{1}) + λ_{n} (∥ θ^{*} ∥_{1} - ∥ θ_{lasso} ∥_{1}) + λ_{n} (∣∣ θ^{*} ∣ ∣_{1} - ∣∣ θ_{lasso} ∣ ∣_{1}) + ∥ θ^{*} ∥_{1} (\frac{1}{n} ∥ ϵ^{T} X ∥_{\infty} + λ_{n})

휠더 부등식
triangle ineq.
(8.4) 의 $λ_{n}$ 에 대해 걸었던 condition.

th, 8.4. 의 error bound 는 (8.4) 에서 $λ_{n}$ 에 대해 걸었던 condition 에 의존. 이제 좀 더 자세히 살펴보자.

$l amb d a_{n}$ 의 good choice 는 무엇인가?

랜덤벡터 $ϵ \in SG (σ^{2})$ 이었음을 상기. 이제 $\exists C > 0 : 1 \leq j \leq d max ∥ X_{i} ∥_{2} \leq C n$ 라고 가정 assume 하자. 이때 $\forall n, d : 1 \leq j \leq d max {\frac{1}{n} \sum_{i = 1}^{n} X_{ij}^{2}} \leq C$ 가 성립한다. 이를 통해 standard argument 를 만들수 있다:

P (\frac{1}{n} ∣∣ ϵ^{T} X ∣ ∣_{\infty} \geq t) = P (1 \leq j \leq d max ∣ X_{j}^{T} ϵ ∣ \geq t n) \leq j = 1 \sum d P (∣ X_{j}^{⊤} ϵ ∣ \geq t n) = j = 1 \sum d P (\frac{∣ X _{j}^{⊤} ϵ ∣}{∣∣ X _{j} ∣ ∣ _{2}} \geq \frac{t n}{∣∣ X _{j} ∣ ∣ _{2}}) \leq 2 d exp - \frac{n ^{2} t ^{2}}{2 σ ^{2} 1 \leq j \leq d max ∣∣ X _{j} ∣ ∣ ^{2}} \leq 2 d exp (- \frac{n t ^{2}}{2 C ^{2} σ ^{2}}) = δ

마지막 ineq. 는 시작 전 더해둔 assumption $1 \leq j \leq d max ∥ X_{j} ∥_{2} \leq C n .$ 에 의해서 성립. 이제 $t = λ_{n}^{*} = \frac{2 σ ^{2} C ^{2}}{n} {lo g (\frac{1}{δ}) + lo g (\frac{2}{d})}$ 를 하나 고르는 것으로, 우리는 with probability $1 - δ$ 에 의해 $\frac{1}{n} ∥ ϵ^{T} X ∥_{\infty} \leq λ_{n}^{*}$ 가 성립한다는 사실을 파악할 수 있다.

따라서 $δ = \frac{1}{n}$ 으로 잡는 것으로, thm 8.4 를 적용하는 것으로 $λ_{n}^{*}$ 가 주어진 lasso estimator 는 이하를 보장한다.

\frac{1}{n} ∥ X (θ_{lasso} - θ^{*}) ∥_{2}^{2} ≲ ∥ θ^{*} ∥_{1} \cdot σ \frac{lo g ( d ) + lo g ( n )}{n}

여기에 추가로 $1 \leq j \leq d max θ_{j}^{*}$ 가 uniformly bounded 되어 있다고 suppose 한다면? 그 경우 $θ^{*}$ 의 $s$ -sparcity 하에서, $s \frac{l o g ( d )}{n} \to 0$ 이 1번이라도 발생한 순간 MSE 는 0으로 간다.

Parameter Estimation

위에서 언급되었 듯이, $\d \leq n$ 이며 $λ_{min} (\frac{X ^{T} X}{n}) \geq C_{min} > 0,$ 일 경우, 앞의 결과는 이하를 보장한다. 안타깝게도 이 전략은 $d > n$ 인 경우에는 작동하지 않는다. $X^{'} X$ 가 rank-deficient 가 되어 버리므로.

∣∣ θ_{lasso} - θ^{*} ∣ ∣_{2}^{2} ≲ \frac{∣∣ θ ^{*} ∣ ∣ _{1}}{C _{min}} \cdot σ \frac{lo g ( d ) + lo g ( n )}{n}

Fast Convergence Rate

디자인 매트릭스 $X$ 에 추가적인 assumption 을 붙이는 것으로 좀 더 빠른 convergence rate 를 얻는 것이 가능. 여기선 Restricted Ev (RE) condition 을 사용할 것. ${1, \dots, d}$ 의 subset $S$ 에 대해 $Z_{S} = (Z_{S, 1}, \dots, Z_{S, d}) \in R^{d})$ 이며 $\forall j \in S : Z_{S, j} = Z_{j}$ , o.w. $Z_{S, j} = 0$ 으로 정의.

$S^{c}$ 를 $S$ 의 complement 로 잡자. 즉슨 $Z_{S^{c}}$ 도 $Z_{S}$ 와 유사하게 정의. 이때 $\forall α \geq 1 : C (α, S) = {Δ \in R^{d} : ∣∣ Δ_{S^{c}} ∣ ∣_{1} \leq α ∥ Δ_{S} ∥_{1}}$ . 이 notation 들을 써서 이하 정의.

:::{.definition name=“RE condition”}

매트릭스 $X$ 는 이하를 만족할 경우, 패러미터 $(α, κ)$ 와 함께 $S$ 에 대해 RE condition 을 만족한다.

f or a ll Δ \in C (α, S) : \frac{1}{n} ∥ X Δ ∥_{2}^{2} \geq κ ∥Δ ∥_{2}^{2}

:::

Remark.

RE condition 에 대한 직관을 좀 얻어보자. cost difference $L_{n} (θ_{lasso}) - L_{n} (θ^{*}) = \frac{1}{2 n} ∣∣ Y - X θ_{lasso} ∣ ∣_{2}^{2} - \frac{1}{2 n} ∣∣ Y - X θ^{*} ∣ ∣_{2}^{2}$ 가 작다면, error vector $\hat{θ}_{l a sso} - θ^{*}$ 도 또한 작다는 것을 장담할 수 있을까? 일반적으로 이는 그렇다고 할 수 없다. 특히 cost function $L_{n} (θ)$ 가 flat 할 경우에는 더더욱. 이 flat 상황을 피하기 위해 cost function $L_{n} (θ)$ 로 하여금 이의 optimum $\hat{θ}_{l a sso}$ 주위에서 높은 curvature 를 갖도록 하는 것이 요구됨. curvature 는 Hessian MAtrix $\nabla^{2} L_{n} (θ) = \frac{1}{n} X^{⊤} X$ 의 구조에 의해 결정됨. 만약 우리가 이 Hessian Matrix 의 ev 가 0 에서 bounded away 되었다고 장담할 수 있다면, 즉, $\forallΔ \in R^{d} ∖ {0} : \frac{1}{n} ∣∣ X Δ∣ ∣_{2}^{2} \geq κ ∣∣Δ∣ ∣_{2}^{2} > 0$ 라면, 우리는 모든 지점에서 curvature 를 갖는다는 것을 확신할 수 있을 것.

하지만 고차원 상황 $d > n$ 에서는 Hessian Matrix 는 0 ev 를 가져야만 하고, condition (8.7) (바로 위 상황) 은 성립할 수 없다. 역으로 우리는 $C (α, S)$ 로 정의된 특정한 지점에서 cost function 이 curved 한지를 고려한다. 이 직관을 써서 RE condition 하에서 lasso estimator 에 대한 deterministic bound 를 생산할 수 있다. 이것이 아래의 thm.

:::{.theorem name=“Fast Convergence Rate”}

linear model (8.1) 을 살피고, $S = {i : θ_{i}^{*} \neq = 0}$ 에 대해 패러미터 $(3, κ)$ 를 통해 RE condition 을 만족하는 $X$ 를 assume. 이때, $S$ 의 cardinality 가 $s$ 를 쓰자. 여기서 만약 $λ_{n} \geq 2 \frac{X ^{T} ϵ}{n}_{\infty}$ 가 성립한다면 이하가 성립.

\frac{1}{n} ∣∣ X (θ_{lasso} - θ^{*}) ∣ ∣_{2}^{2} \leq 9 \frac{s λ _{n}^{2}}{κ}, ∣∣ θ_{lasso} - θ^{*} ∣ ∣_{2} \leq 3 \frac{s λ _{n}}{n}

:::

Proof:

편의를 위해 $\hat{Δ} = \hat{θ}_{l a sso} - θ^{*}$ . 주어진 condition 하에서 $\hat{Δ} \in C (3, S)$ 임을 먼저 보이자. basic ineq. (lemma 8.3) 을 사용하면 $\frac{1}{2 n} ∣∣ X \hat{Δ} ∣ ∣_{2}^{2} \leq \frac{ϵ ^{⊤} X Δ ^}{n} + λ_{n} (∣∣ θ^{*} ∣ ∣_{1} - ∣∣ \hat{θ}_{lasso} ∣ ∣_{1})$ 임을 보일 수 있다. $θ^{*}$ 가 s-sparse 이며 $\hat{Δ} = \hat{θ}_{l a sso} - θ^{*}$ 이므로 이하가 성립.

∥ θ^{*} ∥_{1} - ∥ θ_{lasso} ∥_{1} = ∥ θ_{S}^{*} ∥_{1} - ∥ θ_{lasso} ∥_{1} = ∥ θ_{S}^{*} ∥_{1} - ∥ \hat{Δ} + θ^{*} ∥_{1} = ∥ θ_{S}^{*} ∥_{1} \leq ∥ \hat{Δ}_{S} ∥_{1} + ∥ Δ_{S} + θ_{S}^{*} ∥_{1} = ∥ \hat{Δ}_{S} ∥_{1} - ∥ \hat{Δ}_{S^{c}} ∥_{1} - ∥ Δ_{S} + θ_{S}^{*} ∥_{1} - ∥ \hat{Δ}_{S^{c}} ∥_{1} - ∥ Δ_{S} + θ_{S}^{*} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1} (triangle ineq.)

0 \leq \frac{1}{n} ∥ X Δ ∥_{2}^{2} \leq (i) \frac{2}{n} ∥ ϵ^{⊤} X ∥_{\infty} ∥ Δ ∥_{1} + 2 λ_{n} (∥ Δ_{S} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1}) \leq (ii) λ_{n} ∥ Δ ∥_{1} + 2 λ_{n} (∥ Δ_{S} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1}) = λ_{n} (∥ Δ_{S} ∥_{1} + ∥ Δ_{S^{c}} ∥_{1}) + 2 λ_{n} (∥ Δ_{S} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1}) = λ_{n} (3 ∥ Δ_{S} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1}) . (Holder) (condition (8.8) on λ_{n})

이를 통해 $\hat{Δ} \in C (3, S)$ 라고 결론지을 수 있으며, 우리는 $X$ 가 패러미터 $(3, κ)$ 와 함께 RE condition 을 만족한다고 assume 했으므로, 이는 곧 $\frac{1}{n} ∥ X \hat{Δ} ∥_{2}^{2} \geq κ ∥ \hat{Δ} ∥_{2}^{2}$ 라는 것을 보여준다.

앞의 과정을 다시 사용해서 이제

\frac{1}{n} ∥ X Δ ∥_{2}^{2} ⟺ \frac{1}{n} ∥ X (θ_{lasso} - θ^{*}) ∥_{2}^{2} \leq λ_{n} (3∥ Δ_{S} ∥_{1} - ∥ Δ_{S^{c}} ∥_{1}) \leq 3 λ_{n} ∥ Δ_{S} ∥_{1} \leq (i) 3 λ_{n} s ∣∣ \hat{Δ}_{S} ∣ ∣_{2} \leq 3 λ_{n} s ∣∣ \hat{Δ} ∣ ∣_{2} \leq (ii) \frac{3 λ _{n} s}{nκ} ∥ X Δ ∥_{2} \leq 9 \frac{s λ _{n}^{2}}{κ} (1) (ineq. (8.9))

$\forall x \in R^{d}, ∥ x ∥_{1} \leq d ∥ x ∥_{2}$

따라서 위의 마지막 ineq. 와 ineq. (8.9) 를 다시 한번 적용하면 증명 완료.

Remark.

$λ_{n} ≍ σ \frac{l o g ( d ) + l o g ( n )}{n}$ 상황이라고 가정하자. 이 경우 design 매트릭스에 (8.5) 와 유사한 condition 을 두고 같은 argument 를 적용하면 $λ_{n} \geq 2 \frac{X ^{⊤} ϵ}{n}_{\infty}$ with probability at least $1 - \frac{1}{n ^{c}}$ for some constant $c > 0$ 임을 보일 수 있다. 이는 또한 ( $d ≫ n$ 일 때) $\frac{1}{n} ∥ X (θ_{lasso} - θ^{*}) ∥_{2}^{2} ≲ \frac{s l o g ( d )}{n}$ 라는 것으로도 이어지며, 따라서 RE condition 하에서 once $\frac{s l o g ( d )}{n} \to 0$ 라면 lasso estimator 는 consistent 하다.

이와 별개로 $n \to \infty lim λ_{n} = 0$ 를 가정하는 것으로, thm 8.6 의 결과가 8.4의 결과를 former의 upper bound 가 $λ_{n}$ 이 아니라 $λ_{n}^{2}$ 에 의존한다는 것으로 진화시킨다는 것을 발견할 수 있다.

Quartz 4

Explorer