8.8 Linear Regression
이것때문이라고 설마?
8.8.1 Problem formulation
unknown vector 인 regression vector \(\theta^\ast \in \mathbb R^d\) 설정.
벡터 \(Y = (Y_1 , \cdots, Y_n)' \in \mathbb R^n\) 를 관측했으며, linear model \(Y=X\theta^{*}+\epsilon\) 를 통해 이와 관계되어 있는 \(X \in \mathbb R^{n \times d}\) 를 가정하자. 이때 \(\epsilon\;=\;\left(\epsilon_{1},\cdot\cdot\cdot,\epsilon_{n}\right)^{\top}~\in~\mathbb{R}^{n}\;\) 이며, 각각은 independent zero-mean \(\epsilon_1 , \cdots, \epsilon_n \in SG(\sigma^2)\).
이제 \(\hat \theta\) 를 \(\theta^\ast\) 의 estimator 로 잡는다. 이하의 2가지가 주된 관심사.
- Prediction
\(X \theta^\ast + \tilde \epsilon = \tilde Y \overset{iid} \sim Y\) 라고 설정하자. 우리의 목적은 \(\theta^\ast\) 에 대한 우리의 estimate \(\hat \theta\) 의 구현값을 사용해서 \(\tilde Y\) 를 predict. performance 에 대한 natural measure 는 이하와 같다. 이때 unavoidable error 는 말 그대로 unavoidable 이므로, 우리는 후자인 MSE, 즉 \(\mathbb{E}\left [\Bigg \|X(\theta^{*}-{\widehat{\theta}})\Bigg \|_{2}^{2}\right ]\), 를 조사하고자 한다.
\[ \frac{1}{n}\mathbb{E}\left [\Bigg \|{\tilde{Y}}-X{\widehat{\theta}}\Bigg \|_{2}^{2}\right ] = \frac{1}{n}\mathbb{E}\left [\Bigg \|{\tilde{\epsilon}}+X(\theta^{*}-{\widehat{\theta}})\Bigg \|_{2}^{2}\right ] = \underbrace{\frac{1}{n}\mathbb{E}\left [\Bigg \|\tilde \epsilon\Bigg \|_{2}^{2}\right ]}_{\text{unavoidable error}} + \underbrace{\frac{1}{n}\mathbb{E}\left [\Bigg \|X(\theta^{*}-{\widehat{\theta}})\Bigg \|_{2}^{2}\right ]}_{\text{Mean Squared Error}} \]
- Parameter Estimation
위와는 다른 케이스로, 몇몇 경우에 우리는 regression vector \(\theta*\ast\) 를 조사하고 싶어하는 경우가 있으며, 이 경우에 관심사 (조사대상) 는
\[ \mathbb{E}\left [\Bigg \|\theta^{*}-{\widehat{\theta}}\Bigg \|_{2}^{2}\right ] \]
8.8.2 Least Squares Estimator in high dimensions
고전적인 LR 은 LS 문제를 풀어내는 것과 같다. 이하의 형을 구한다는 것과 equivalent 이며, 이는 보통 Ordinary Least Squares (OLS) estimator 로 통칭됨.
\({\widehat{\theta}}_{\mathrm{LS}}=(X^{\top}X)^{-1}X^{\top}Y=\arg \min\limits_{\theta \in \mathbb R^d}\|Y-X\theta\|_{2}^{2}\)
Gauss–Markov thm 에 의해 우리는 OLS Estimator 가 Best Linear Unbiased Estimator (BLUE) 임을 알고 있음. 왜냐고 특정 condition 하에서의 Linear Unbiased Estimator 들의 class 내에서 OLS Estimator 가 가장 작은 Var 을 가지고 있으니까. 하지만 이 estimator 는 \(X'X\) 가 uninvertible 하면 존재할 수 없음. 다른 말로, \(n \ge d\) 인 경우에만 존재할 수 있다는 거임. \(d>n\) 라도, \(\operatorname*{min}_{\theta\in\mathbb{R}^{d}}\|Y-X\theta\|_{2}^{2}\) 라는 문제에 대한 해를 찾아내는 건 가능함. 다음과 같이 매핑하는 function \(\theta\mapsto\|Y=X\theta\|_{2}^{2}\) 는 convex 이므로, 1차 optimality condition 인 \(\nabla_{\theta}\|Y-X\theta\|_{2}^{2}=0\quad\Longleftrightarrow\quad X^{\top}X\theta=X^{\top}Y\) 를 체크하는 것만으로 충분함. 이의 해는 이하에 제시된 MP-pseudo Inverse \(X'X\) 의 형으로 서술될 수 있음.
8.8.2.1 Mean Squared Error of the Least Squares Estimator
Theorem 8.13 (Least Squares Estimator) let linear model \(Y=X\theta^{*}+\epsilon\), 이때 \(\epsilon\) 의 elements 각각은 independent zero-mean \(\epsilon_1 , \cdots, \epsilon_n \in SG(\sigma^2)\).
이때 \(\hat \theta_{LS}\) 는 이하를 만족하며, 2번째 ineq는 with probability at least \(1-\delta\) 로 만족.
$$ \[\begin{alignat}{2} & &&\frac{1}{n}E \Bigg ( && \Bigg \| X\bigl(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\bigr) \Bigg \|_{2}^{2} \Bigg) &&\lesssim \sigma^{2}\frac{r}{m} && \; \; \; \; \; \; \; \; \;\;r= rank(X'X) \\ &\forall \delta>0: && {\frac{1}{n}} &&\|X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}^{2} &&\lesssim\sigma^{2} \left({\frac{r+\log(\frac 1 \delta)}{n}} \right) \end{alignat}\] $$
- Remark
\(d \le n\) 이며 \(rank(B) = rank \left( \frac{X'X}{n}\right) =d\) 일 때, 이하가 성립한다. 이때 \(\lambda_{\mathrm{min}}(B)\) 는 \(B\) 의 ev 중 최소인 값이며, 따라서 이에 \(\|\hat \theta_{LS} - \theta^\ast \|^2_2\) 를 탐색하기 위해 thm 8.2. 를 바로 적용하는 것이 가능하다.
그러나 고차원 케이스에서는 \(d>n\) 일 때 \(\lambda_{\mathrm{min}}(B) = 0\) 이므로 이 방법론을 쓸 수 없다. 따라서 MSE 의 형으로 \(\lambda_{\mathrm{min}}(B)\) 의 bound 를 설정할 필요가 있기 때문에 가정이 추가적으로 필요하다.
\[ \begin{alignat}{2} & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}B&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ & && \lambda_{\mathrm{min}}(B) &&\Bigg \|\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\Bigg \|_{2}^{2} &&\leq\left(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}\right)^{\top}\frac{X'X}{n}&&(\widehat{\theta}_{\mathrm{LS}}-\theta^{*}) \\ &\iff && && \Bigg \|{\widehat\theta}_{\mathrm{LS}}-\theta^{*} \Bigg \|_{2}^{2} &&\leq{\frac{1}{\lambda_{\mathrm{min}}(B)}}\cdot\frac{1}{n} &&\Bigg \|X({\widehat\theta}_{\mathrm{LS}}-\theta^{*}) \Bigg \|_{2}^{2} \end{alignat} \]
- Proof
8.2 의 증명은 basic inequality 와 sup-out 테크닉에 의존.
- Basic ineq.
첫줄의 ineq. 는 의 정의에 의해 성립. 이때 \(\epsilon\) 과 \(\hat \theta_{LS}\) 는 dependent 하기 때문에 \(\frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})}{||X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})||_{2}}\) 를 control 하기가 어렵다는 것을 note. dependence structure 가 complicated 하다면 더더욱 그럴 것. 이 dependence 를 지워 없애기 위해 sup-out tachnique 를 사용. 이의 maximal ineq. 를 적용하는 것이 해당 문제 해결의 열쇠가 된다.
$$ \[\begin{array} & & &\|Y-X{\widehat{\theta}}_{\mathrm{LS}}\|_{2}^{2} &\leq &\|Y-X\theta^{*}\|_{2}^{2} &= \|\epsilon\|_{2}^{2} \\ &= & \| \epsilon + X(\theta^\ast - \hat \theta_{LS})\| & \\ &= &\|\epsilon\|_{2}^{2}+2\epsilon^{\mathsf{T}}X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})+\|X(\theta^{*}-{\widehat{\theta}}_{\mathsf{L S}})\|_{2}^{2} && \\ \iff & &\|X(\theta^{*}-\hat{\theta}_{\mathrm{LS}})\|_{2}^{2}\; &\leq &\;2\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*}) & &= &2\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}\times\frac{\epsilon^{\top}X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})}{\|X(\hat{\theta}_{\mathrm{LS}}-\theta^{*})\|_{2}} \end{array}\]$$
- Sup-Out
\(X\)의 column span 의 orthonormal basis 를 \(\Psi = [\psi_1, \cdots, \psi_r] \in \mathbb R^{n \times r}\) 라고 하자. (SVD 를 생각하자.) 특히, \(\exists \nu \in \mathbb R^r : X(\hat \theta_{LS} - \theta^\ast) = \Psi \nu\). 이때 이 \(\nu\) 에 대해
$$ \[\begin{alignat}{2} & &&\frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})}{||X(\widehat{\theta}_{\mathrm{LS}}-\theta^{*})||_{2}} =\frac{\epsilon^{\top}\Psi\nu}{||\Psi \nu||_{2}} &&=\frac{\epsilon^{\top}\Psi\nu}{||\nu||_{2}} \\ & && &&=\frac{\tilde \epsilon^{\top}\Psi}{||\nu||_{2}} &&\le&&\sup\limits_{u\in\mathbb{R}^{r}:||u||_{2}=1}\tilde{\epsilon}^{\top}u \\ & \iff && &&||X(\theta^{*}-\widehat{\theta}_{\mathrm{LS}})||_{2}^{2} &&\leq4 \cdot &&\sup\limits_{u\in\mathrm{R}^{r}:\|u\|_{2}=1}(\tilde{\epsilon}^{\mathsf{T}}u)^{2} \end{alignat}\] $$
since \(\forall u \in \mathbb S^{r-1} : u^{\textsf{T}}\Psi^{\textsf{T}}\Psi u=u^{\textsf{T}}u=1\),11 \(\forall s \in \mathbb R: \mathbb{E}[e^{s{\tilde{\epsilon}}^{\top}}u]=\mathbb{E}[e^{s\epsilon^{\top}\Psi u}]\leq e^{{\frac{s^{2}\sigma^2}{2}}}\).
이는 곧 \(\tilde \epsilon \in SG(\sigma^2)\) 이라는 소리. 이때 \(X\sim SG(\sigma^2) \Longrightarrow Var(X) \le \sigma^2\) (Lecture 2). 따라서 CS ineq. 에 의해 \(\mathbb{E}\left[\sup\limits_{u\in\mathbb{R}^{r}:\|u\|_{2}=1} ({\tilde{\epsilon}}^{\mathsf{T}}u)^{2}\right] \leq\sum\limits_{i=1}^{r}\mathbb{E}\left[{\widetilde{\epsilon}}_{i}^{2}\right]\leq r\sigma^{2}\). 이것이 thm 8.2. 의 첫번째 claim 을 증명.
bound in Probability 를 보이기 위해, 우리는 standard discretization argument 를 사용. \(N_{\frac12}\) 를 \(\mathbb S^{r-1}\) 의 \(\frac12\)-covering 이라고 하자. 그러면 Lecture 4 에서의 결과물을 사용하는 것으로 \(\sup\limits_{u\in\mathbb{R}^{r}:\|u\|_{2}=1} \widetilde{\epsilon}^{\top}u\le2\operatorname*{max}_{u\in{N}_{\frac12}}\widetilde{\epsilon}^{\top}u\) 가 얻어진다.
따라서 이하가 성립하며 이를 만족시키는 임의의 \(\delta\) 를 잡았을때 이에서 파생되는 임의의 \(t\) 를 얻는다.
$$ \[\begin{alignat}{2} \mathbb{P}(\|X(\theta^{*}-{\widehat{\theta}}_{LS})\|_{2}^{2}\geq t)&\leq\mathbb{P}{\Big(}\max\limits_{u\in{ N}_{\frac12}}({\tilde{\epsilon}}^{T}u)^{2}\geq \frac t {16}{\Big)} \\ &\leq \Bigg|{ N}_{\frac 12} \Bigg|e^{-{\frac{t}{32 \sigma^2}}} \\ &\leq5^{r}e^{-{\frac{t}{32 \sigma^2}}} \\ \exists \delta: &\le \delta &&\iff \exists t: t \ge 32 \sigma^2 \left \{ r \log 5 + \log \left( \frac {1} {\delta} \right) \right \} \end{alignat}\] $$
따라서 with probability at least \(1-\delta\), \(||X(\theta^{*}-\hat{\theta}_{\mathrm{LS}})||_{2}^{2}\lesssim \sigma^{2}\{r+\log \left (\frac1 \delta \right)\}\).
8.8.3 Sparse linear regression
이상을 통해 우리는 \(\frac d n \righarrow 0\) 일 때 \(\hat \theta_{LS}\) 가 consistent 함을 확인. 따라서 \(\frac d n \righarrow 0\) 가 우리가 바랄 수 있는 최적의 condition. 특히 \(\frac d n\) 이 0에서 bounded away 된 채로 남는다면 consistent estimator 를 획득하는 건 불가능함. (minimax point of view 에서는.) 이러한 이유로 \(d > n\) 상황에서 작업을 할 때는 unknown regression vector \(\theta^\ast\) 에 추가적인 structure 을 얹는 게 필수가 됨. 이제 \(\theta^\ast\) 의 대다수가 0이라는 조건인 sparse condition 에 대해서 논해보자.
8.8.3.1 Lasso
linear model (8.1)에서 \(\theta\) 의 support set \(S(\theta^{*})=\{j\in\{1,\ldots, d\}:\theta_{j}^{*}\not=0\}\) 이 cardinality \(s=|S(\theta^\ast)| \overset{substantially}{<} d\), 즉 s-sparse 인 상황 가정. regularized estimator 로서, lasso estimator \(\widehat{\theta}_{\mathrm{lasso}}=\arg\min\limits_{\theta\in\mathbb{R}^{d}}\left\{\frac{1}{2n}\|Y-X\theta\|_{2}^{2}+\lambda_{n}\|\theta\|_{1}\right\}\) 는 이러한 sparse structural assumption 에 대한 설명력을 가진다. lasso esimator 는 for many \(j \in \{1, \cdots, d\}:\hat_{lasso, \; j} = 0\) 라는 sparcity property 를 가지며 이건 \(\lambda_n\) 을 무엇으로 골랐는지에 의존한다. 위의 등식 (8.3)은 lasso problem 이라고 불리며, 이는 convex optimization problem 이고, computationally tractable.
Lemma 8.1 (Basic inequality) lasso estimator 에 대한 basic ineq.
\[ {\frac{1}{2n}}\|X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})\|_{2}^{2}\ \leq\ {\frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})}{n}}+\lambda_{n}(\|\theta^{*}\|_{1}-\|\widehat{\theta}_{\mathrm{lasso}}\|_{1}) \]
- Proof.
Lasso 의 정의에 의해,
\[ \frac{1}{2n}\Vert Y-X\widehat{\theta}_{\mathrm{lasso}}\Vert_{2}^{2}+\lambda_{n}\Vert\widehat{\theta}_{\mathrm{lasso}}\Vert_{1}\ \leq\ \frac{1}{2n}\Vert Y-X\theta^{*}\Vert_{2}^{2}+\lambda_{n}\Vert\theta^{*}\Vert_{1} = \frac{1}{2n} ||\epsilon||_2^2 + \lambda_n ||\theta^\ast ||_1 \]
그리고 MSE 를 확장하는 것으로
\[ {\frac{1}{2n}}\|Y-X{\widehat{\theta}}_{\mathrm{lasso}}\|_{2}^{2}\ =\ {\frac{1}{2n}}\|\epsilon\|_{2}^{2}+{\frac{1}{2n}}\|X({\widehat{\theta}}_{\mathrm{lasso}}-\theta^{*})\|_{2}^{2}+{\frac{\epsilon^{\top}X(\theta^{*}-{\widehat{\theta}}_{\mathrm{laaso}})}{n}} \]
둘을 복합.
8.8.3.2 Slow convergence rate
위에서의 basic inequality (lemma 8.3) 이 주어졌을 때, 우리는 lasso estimator \(\hat \theta_{lasso}\) 의 consistency 를 보장하는 sufficient condition 생성 가능. 이는 deterministic bound 를 구하는 것부터 시작함.
Theorem 8.14 (Slow Convergence Rate) \(X_j\) 를 \(X\) 의 j-th column 이라고 하고, \(\lambda_{n}\,\geq\,\left|\left|\frac{X^{\top}\epsilon}{n}\right|\right|_{\infty}\ = \max_{i \le j \le d}\left|\frac{X_{j}^{\textsf{T}}\epsilon}{n}\right|\) 라고 가정하자. 이 때 lasso estimator 는 이하를 만족.
\[ \frac{1}{n} \Bigg\| X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*}) \Bigg\| _{2}^{2}\leq4\lambda_{n} \Bigg\| \theta^{*} \Bigg\| _{1} \]
- Proof:
$$ \[\begin{align} \frac{1}{2n}||X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})||_{2}^{2}\ &\leq\ \frac{\epsilon^{\top}X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})}{n} &&+\lambda_{n}(||\theta^{*}||_{1}-||\widehat{\theta}_{\mathrm{lasso}}||_{1}) \\ &\overset{(i)}{\le} {\frac{1}{n}}\|\epsilon^{\mathsf{T}}X\|_{\infty}\|\widehat{\theta}_{\mathrm{lasso}}-\theta^{*}\|_{1} &&+\lambda_{n}(\|\theta^{*}\|_{1}-\|\widehat{\theta}_{\mathrm{lasso}}\|_{1}) \\ &\overset{(ii)}{\le}\frac{1}{n}||\epsilon^{\top}X||_{\infty}(||\widehat{\theta}_{\mathrm{lasso}}||_{1}+||\theta^{*}||_{1}) &&+\lambda_{n}(||\theta^{*}||_{1}-||\widehat{\theta}_{\mathrm{lasso}}||_{1}) \\ &= \|\widehat\theta_{\mathrm{lasso}}\|_{1}\left(\frac{1}{n}\|\epsilon^{\mathsf{T}}X\|_{\infty}-\lambda_{n}\right) &&+\|\theta^{*}\|_{1}\left(\frac{1}{n}\|\epsilon^{\mathsf{T}}X\|_{\infty}+\lambda_{n}\right) \\ &\stackrel{(iii)}{\le}2\lambda_{n}\vert\vert\theta^{*}\|_{1} \end{align}\] $$
- 휠더 부등식
- triangle ineq.
- (8.4) 의 \(\lambda_n\) 에 대해 걸었던 condition.
th, 8.4. 의 error bound 는 (8.4) 에서 \(\lambda_n\) 에 대해 걸었던 condition 에 의존. 이제 좀 더 자세히 살펴보자.
- \(lambda_n\) 의 good choice 는 무엇인가?
랜덤벡터 \(\epsilon \in SG(\sigma^2)\) 이었음을 상기. 이제 \(\exists C>0:\max\limits_{1\le j\le d} \|X_i\|_2 \le C\sqrt n\) 라고 가정 assume 하자. 이때 \(\forall n, d:\max\limits_{ 1 \le j \le d}\left\{\frac{1}{n}\sum_{i=1}^{n}X_{i j}^{2}\right\}\le C\) 가 성립한다. 이를 통해 standard argument 를 만들수 있다:
$$ \[\begin{alignat}{2} \mathbb{P}\!\left(\frac{1}{n}||\epsilon^{\textsf{T}}X||_{\infty}\geq t\right)\ &= \mathbb{P}\!\left(\max\limits_{1\le j \le d} |X_{j}^{\textsf{T}}\epsilon|\geq\,t n\right) \\ &\leq\mathrm{~}\sum_{j=1}^{d}\mathbb{P}(|X_{j}^{\top}\epsilon|\geq\,t n) \\ &=\;\sum_{j=1}^{d}\mathbb{P}\left({\frac{|X_{j}^{\top}\epsilon|}{||X_{j}||_{2}}}\geq\,{\frac{t n}{||X_{j}||_{2}}}\right) \\ &\leq\ 2d\exp\left(-\,\frac{n^{2}t^{2}}{2\sigma^{2}\,\max\limits_{1\le j\le d}\,||X_{j}||^{2}}\right) \\ &\leq\ 2d\exp\left(-\,\frac{n t^{2}}{2C^{2}\sigma^{2}}\right) &&=\delta \end{alignat}\]\end{alignat} $$
마지막 ineq. 는 시작 전 더해둔 assumption \(\max\limits_{1\leq j\leq d}\|X_{j}\|_{2}\leq C{\sqrt{n}}.\) 에 의해서 성립. 이제 \(t=\lambda_{n}^{*}=\sqrt{\frac{2\sigma^{2}C^{2}}{n} \left \{\log(\frac 1 \delta)+\log(\frac 2d) \right\}}\) 를 하나 고르는 것으로, 우리는 with probability \(1-\delta\) 에 의해 \({\frac{1}{n}}\|\epsilon^{\mathsf{T}}X\|_{\infty}\leq\lambda_{n}^{*}\) 가 성립한다는 사실을 파악할 수 있다.
따라서 \(\delta = \frac 1n\) 으로 잡는 것으로, thm 8.4 를 적용하는 것으로 \(\lambda_n^\ast\) 가 주어진 lasso estimator 는 이하를 보장한다.
\[ {\frac{1}{n}}\|X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})\|_{2}^{2}\lesssim \|\theta^{*}\|_{1} \cdot \sigma\sqrt{\frac{\log(d)+\log(n)}{n}} \]
여기에 추가로 \(\max\limits_{1\leq j\leq d}\left|\theta_{j}^{\ast}\right|\) 가 uniformly bounded 되어 있다고 suppose 한다면? 그 경우 \(\theta^\ast\) 의 \(s\)-sparcity 하에서, \(s \sqrt{\frac {\log(d)} n} \rightarrow 0\) 이 1번이라도 발생한 순간 MSE 는 0으로 간다.
- Parameter Estimation
위에서 언급되었 듯이, \(\d \le n\) 이며 \(\lambda_{\mathrm{min}} \left(\frac{X^{\textsf{T}}X}n \right)\;\geq\;C_{\mathrm{min}}\;\gt \;0,\) 일 경우, 앞의 결과는 이하를 보장한다. 안타깝게도 이 전략은 \(d>n\) 인 경우에는 작동하지 않는다. \(X'X\) 가 rank-deficient 가 되어 버리므로.
\[ ||{\widehat\theta}_{\mathrm{lasso}}-\theta^{*}||_{2}^{2} \lesssim {\frac{||\theta^{*}||_1}{C_{\mathrm{min}}}} \cdot \sigma\sqrt{\frac{\log(d)+\log(n)}{n}} \]
8.8.3.3 Fast Convergence Rate
디자인 매트릭스 \(X\) 에 추가적인 assumption 을 붙이는 것으로 좀 더 빠른 convergence rate 를 얻는 것이 가능. 여기선 Restricted Ev (RE) condition 을 사용할 것. \(\{ 1, \cdots, d\}\) 의 subset \(S\) 에 대해 \(Z_S = (Z_{S,1}, \cdots, Z_{S, d}) \in \mathbb R^d)\) 이며 \(\forall j \in S:Z_{S,j} = Z_j\), o.w. \(Z_{S, j} = 0\) 으로 정의.
\(S^c\) 를 \(S\) 의 complement 로 잡자. 즉슨 \(Z_{S^c}\) 도 \(Z_S\) 와 유사하게 정의. 이때 \(\forall \alpha\ge1:C(\alpha,S)=\{\Delta\in\mathbb{R}^{d}:||\Delta_{S^{c}}||_{1}\leq\alpha\|\Delta_{S}\|_{1}\}\). 이 notation 들을 써서 이하 정의.
Definition 8.8 (RE condition) 매트릭스 \(X\) 는 이하를 만족할 경우, 패러미터 \((\alpha, \kappa)\) 와 함께 \(S\) 에 대해 RE condition 을 만족한다.
\[ forall \Delta\in C(\alpha,S):{\frac{1}{n}}\|X\Delta\|_{2}^{2}\geq\kappa\|\Delta\|_{2}^{2} \]
- Remark.
RE condition 에 대한 직관을 좀 얻어보자. cost difference \(\mathcal{L}_{n}(\widehat{\theta}_{\mathrm{lasso}})-\mathcal{L}_{n}(\theta^{*})=\frac{1}{2n}\vert\vert Y-X\widehat{\theta}_{\mathrm{lasso}}\vert\vert_{2}^{2}-\frac{1}{2n}\vert\vert Y-X\theta^{*}\vert\vert_{2}^{2}\) 가 작다면, error vector \(\hat \theta_{lasso} - \theta^\ast\) 도 또한 작다는 것을 장담할 수 있을까? 일반적으로 이는 그렇다고 할 수 없다. 특히 cost function \(\mathcal L_n(\theta)\) 가 flat 할 경우에는 더더욱. 이 flat 상황을 피하기 위해 cost function \(\mathcal L_n (\theta)\) 로 하여금 이의 optimum \(\hat \theta_{lasso}\) 주위에서 높은 curvature 를 갖도록 하는 것이 요구됨. curvature 는 Hessian MAtrix \(\nabla^{2}{\mathcal{L}}_{n}(\theta)={\frac{1}{n}}X^{\top}X\) 의 구조에 의해 결정됨. 만약 우리가 이 Hessian Matrix 의 ev 가 0 에서 bounded away 되었다고 장담할 수 있다면, 즉, \(\forall \Delta\in\mathbb{R}^{d}\setminus\{0\}:\frac{1}{n}||X\Delta||_{2}^{2}\geq\kappa||\Delta||_{2}^{2}\gt 0\) 라면, 우리는 모든 지점에서 curvature 를 갖는다는 것을 확신할 수 있을 것.
하지만 고차원 상황 \(d>n\) 에서는 Hessian Matrix 는 0 ev 를 가져야만 하고, condition (8.7) (바로 위 상황) 은 성립할 수 없다. 역으로 우리는 \(C(\alpha, S)\) 로 정의된 특정한 지점에서 cost function 이 curved 한지를 고려한다. 이 직관을 써서 RE condition 하에서 lasso estimator 에 대한 deterministic bound 를 생산할 수 있다. 이것이 아래의 thm.
Theorem 8.15 (Fast Convergence Rate) linear model (8.1) 을 살피고, \(S=\{i : \theta^\ast_i \not = 0 \}\) 에 대해 패러미터 \((3, \kappa)\) 를 통해 RE condition 을 만족하는 \(X\) 를 assume. 이때, \(S\) 의 cardinality 가 \(s\) 를 쓰자. 여기서 만약 \(\lambda_{n}\geq2\left\| \frac{X^{\textsf{T}}\epsilon}{n}\right\|_{\infty}\) 가 성립한다면 이하가 성립.
\[ {\frac{1}{n}}||X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})||_{2}^{2}\leq9{\frac{s\lambda_{n}^{2}}{\kappa}}, \; \; \; \; \; \; \; \; \; \; \; ||\widehat{\theta}_{\mathrm{lasso}}-\theta^{*}||_{2} \le3{\frac{\sqrt{s}\lambda_{n}}{n}} \]
- Proof:
편의를 위해 \(\hat \Delta = \hat \theta_{lasso} - \theta^\ast\). 주어진 condition 하에서 \(\hat \Delta \in C(3, S)\) 임을 먼저 보이자. basic ineq. (lemma 8.3) 을 사용하면 \({\frac{1}{2n}}||X\hat{\Delta}||_{2}^{2}\; \leq \;{\frac{\epsilon^{\top}X\hat{\Delta}}{n}}+\lambda_{n}(||\theta^{*}||_{1}-||\hat{\theta}_{\mathrm{lasso}}||_{1})\) 임을 보일 수 있다. \(\theta^\ast\) 가 s-sparse 이며 \(\hat \Delta = \hat \theta_{lasso}-\theta^\ast\) 이므로 이하가 성립.
$$ \[\begin{alignat}{2} \|\theta^{*}\|_{1}-\|{\widehat{\theta}}_{\mathrm{lasso}}\|_{1} &=\|\theta_{S}^{*}\|_{1}-\|\widehat{\theta}_{\mathrm{lasso}}\|_{1} \\ &= \| \theta_{S}^{*}\|_{1}-\|{\hat{\Delta}}+\theta^{*}\|_{1} \\ &=\|\theta_{S}^{*}\|_{1} &&-\|\widehat{\Delta}_{S}+\theta_{S}^{*}\|_{1} - \| \hat \Delta_{S^c} \|_1 \\ &\leq \|\hat{\Delta}_{S}\|_{1}+\ \|\widehat{\Delta}_{S}+\theta_{S}^{*}\|_{1} &&- \|\widehat{\Delta}_{S}+\theta_{S}^{*}\|_{1}\nonumber-\|\widehat{\Delta}_{S^{c}}\|_{1}\nonumber \tag{triangle ineq.} \\ &= \| \hat \Delta_S \|_1 - \| \hat \Delta_{S^c}\|_1 \end{alignat}\] $$
$$ \[\begin{alignat}{2} 0\;\leq\;\frac{1}{n}\Vert X\hat{\Delta}\Vert_{2}^{2} &\stackrel{(i)}{\le}\;\frac{2}{n}\Vert\epsilon^{\top}X\Vert_{\infty}\Vert\hat{\Delta}\Vert_{1} &&+2\lambda_{n}(\Vert\hat{\Delta}_{S}\Vert_{1}-\Vert\hat{\Delta}_{S^{c}}\Vert_{1}) \tag{Holder} \\ & {\stackrel{\mathrm{(ii)}}{\leq}}\ \ \lambda_{n}\|{\widehat\Delta}\|_{1} &&+2\lambda_{n}(\|{\hat\Delta}_{S}\|_{1}-\|{\hat\Delta}_{S^{c}}\|_{1}) \tag{condition (8.8) on λ_n} \\ &= \lambda_n (\| \hat \Delta_S \|_1 + \| \hat \Delta_{S^c}\|_1 ) &&+2\lambda_n (\| \hat \Delta_S \|_1 - \| \hat \Delta_{S^c}\|_1 ) \\ &=\lambda_{n}(3||\widehat\Delta_{S}||_1-||\widehat\Delta_{S^{c}}||_1) \end{alignat}\] $$
이를 통해 \(\hat \Delta \in C(3,S)\) 라고 결론지을 수 있으며, 우리는 \(X\) 가 패러미터 \((3, \kappa)\) 와 함께 RE condition 을 만족한다고 assume 했으므로, 이는 곧 \({\frac{1}{n}}\|X{\hat{\Delta}}\|_{2}^{2}\geq\kappa\|{\hat{\Delta}}\|_{2}^{2}\) 라는 것을 보여준다.
앞의 과정을 다시 사용해서 이제
$$ \[\begin{align} {\frac{1}{n}}\|X{\widehat{\Delta}}\|_{2}^{2}\;&\leq\;\lambda_{n}(3\|\widehat{\Delta}_{S}\|_{1}-\|\widehat{\Delta}_{S^{c}}\|_{1})\leq3\lambda_{n}\|\widehat{\Delta}_{S}\|_{1} \\ &\overset{(i)}{\le} 3 \lambda_{n}\sqrt{s}||\hat{\Delta}_{S}||_{2} \tag{1} \\ &\leq\ 3\lambda_{n}\sqrt{s}||\hat{\Delta}||_{2} \\ &\overset{(ii)}{\le}\frac{3\lambda_{n}\sqrt{s}}{\sqrt{n\kappa}}\|X\widehat{\Delta}\|_{2} \tag{ineq. (8.9)} \\ \iff {\frac{1}{n}}\|X(\widehat{\theta}_{\mathrm{lasso}}-\theta^{*})\|_{2}^{2} & \leq9{\frac{s\lambda_{n}^{2}}{\kappa}} \end{align}\] $$
- \(\forall x\in\mathbb{R}^{d},\,\|x\|_{1}\leq{\sqrt{d}}\|x\|_{2}\)
따라서 위의 마지막 ineq. 와 ineq. (8.9) 를 다시 한번 적용하면 증명 완료.
- Remark.
\(\lambda_{n} \asymp \sigma\sqrt{\frac{\log(d)+\log(n)}{n}}\) 상황이라고 가정하자. 이 경우 design 매트릭스에 (8.5) 와 유사한 condition 을 두고 같은 argument 를 적용하면 \(\lambda_{n}\geq2 \left \| \frac{X^{\top}\epsilon}{n} \right \|_{\infty}\) with probability at least \(1-\frac {1} {n^c}\) for some constant \(c>0\) 임을 보일 수 있다. 이는 또한 (\(d \gg n\) 일 때) \({\frac{1}{n}}\|X({\widehat{\theta}}_{\mathrm{lasso}}-\theta^{*})\|_{2}^{2}\lesssim{\frac{s\log(d)}{n}}\) 라는 것으로도 이어지며, 따라서 RE condition 하에서 once \(\frac{s \log(d)}{n}\rightarrow 0\) 라면 lasso estimator 는 consistent 하다.
이와 별개로 \(\lim\limits_{n \rightarrow \infty} \lambda_n = 0\) 를 가정하는 것으로, thm 8.6 의 결과가 8.4의 결과를 former의 upper bound 가 \(\lambda_n\) 이 아니라 \(\labmda_n^2\) 에 의존한다는 것으로 진화시킨다는 것을 발견할 수 있다.