第29章: 机器学习

29 机器学习

29.1 介绍

本章回顾计量经济学的机器学习方法。这是一个庞大且不断发展的话题，因此我们的治疗是有选择性的。本章简要介绍了岭回归、Lasso、弹性网络、回归树、装袋、随机森林、集成、Lasso IV、双重选择/后正则化和双重/去偏机器学习。

经典参考文献是 Hastie、Tibshirani 和 Friedman (2008)。入门教材包括 James、Witten、Hastie 和 Tibshirani (2013) 以及 Efron 和 Hastie (2017)。有关理论处理，请参阅 Bühlmann 和 van der Geer (2011)。有关计量经济学中机器学习的评论，请参阅 Belloni、Chernozhukov、Chetverikov、Hansen 和 Kato (2021)。

29.2 大数据、高维和机器学习

三个相互关联的概念是“大数据”、“高维”和“机器学习”。

大数据通常用于描述相对于传统应用程序异常大和/或复杂的数据集。 “大”的定义因学科和时间而异，但通常指具有数百万个观察值的数据集。在经济学中，这些数据集可以来自家庭人口普查数据、政府行政记录和超市扫描数据。与大数据相关的一些挑战是存储、传输和计算。

高维通常用于描述具有异常大量变量的数据集。同样，“大”的定义因应用程序而异，但通常指数百或数千个变量。在理论文献中，“高维”专门用于 \(p>n\) 的上下文，这意味着变量 \(p\) 的数量大大超过了观测值 \(n\) 的数量。

机器学习通常用于描述一组统计学习的算法方法。这些方法主要关注结构未知的情况下的点预测。机器学习方法通常允许大样本量、大量变量和未知的结构形式。早期文献是算法性的，没有相关的统计理论。随后是研究机器学习方法属性的统计文献，主要提供稀疏假设下的收敛率。直到最近，文献才扩展到包括推理。

机器学习包含适用于各种设置的大量多样化工具，包括监督学习（给定高维 \(X\) 的 \(Y\) 的预测规则）、无监督学习（揭示高维 \(X\) 之间的结构），以及分类（具有高维预测变量的离散选择分析）。在本章中，我们重点关注监督学习，因为它是线性回归的自然延伸。

机器学习源于计算机科学文献，因此采用了一组不同的标签来描述熟悉的概念。例如，它谈到“训练”而不是“估计”和“特征”而不是“回归器”。然而，在本章中，我们将使用标准的计量经济学语言和术语。

对于计量经济学来说，机器学习可以被认为是“高度非参数的”。假设我们有兴趣在 \(m(x)\) 的形状未知时估计条件均值 \(m(X)=\mathbb{E}[Y \mid X]\)。非参数分析通常假设 \(X\) 是低维的。相比之下，机器学习分析可能允许 \(X\) 中有数百甚至数千个回归量，并且不需要有关哪些回归量最相关的先验信息。

非参数估计、模型选择和机器学习方法之间的联系出现在通过交叉验证调整参数选择和通过样本外预测精度评估的过程中。这些问题在机器学习应用中受到认真对待；经常使用多个级别的保留样本。

29.3 高维回归

我们熟悉线性回归模型\(Y=X^{\prime} \beta+e\)，其中\(X\)和\(\beta\)是\(p \times 1\)向量\({ }^{1}\)。在传统的回归模型中，我们习惯于认为变量的数量 \(p\) 相对于样本大小 \(n\) 来说很小。传统参数渐近理论假设 \(p\) 固定为 \(n \rightarrow \infty\)，这通常被解释为暗示 \(Y=X^{\prime} \beta+e\) 比 \(Y=X^{\prime} \beta+e\) 小得多。非参数回归理论假设 \(Y=X^{\prime} \beta+e\) 但速度比 \(Y=X^{\prime} \beta+e\) 慢得多。这被解释为 \(Y=X^{\prime} \beta+e\) 适度大，但仍然比 \(Y=X^{\prime} \beta+e\) 小得多。高维回归用于描述\(Y=X^{\prime} \beta+e\)非常大的上下文，包括\(Y=X^{\prime} \beta+e\)大于\(Y=X^{\prime} \beta+e\)的情况。它甚至包括 \(Y=X^{\prime} \beta+e\) 指数级大于 \(X\) 的情况。

考虑一个回归量多于观察值的应用程序似乎令人震惊。但这种情况会在多种情况下出现。首先，在我们对级数回归的讨论（第 20 章）中，我们描述了如何通过底层回归量的基础变换中的无限级数展开来近似回归函数。以线性模型表示，这意味着具有无限数量回归量的回归模型。实际模型（如该章中讨论的）在估计回归中使用适量的回归量，因为这提供了偏差和方差之间的平衡。然而，后一个模型并不是真正的条件均值（具有无限数量的回归量），而是低维最佳线性近似。其次，许多经济应用涉及大量二元、离散和分类变量。饱和回归模型将所有离散变量和分类变量转换为二元变量，并包括所有交互作用。这种操纵可能会导致数千个回归量。例如，完全交互的 10 个二元变量会产生 1024 个回归量。二十个完全相互作用的二元变量产生超过一百万个回归量。第三，许多当代“大”数据集包含数千个潜在的回归量。许多变量可能是低信息的，但很难先验地知道哪些是相关的，哪些是不相关的。

当 \(p>n\) 时，最小二乘估计器 \(\widehat{\beta}_{\text {ols }}\) 未唯一定义，因为 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\) 的秩不足。此外，对于 \(p<n\) 但“大”，矩阵 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\) 可能接近奇异或病态，因此最小二乘估计量可能在数值上不稳定且方差较高。因此，我们转向最小二乘以外的估计方法。在本章中，我们讨论几种替代估计方法，包括岭回归、套索、弹性网络、回归树和随机森林。

\({ }^{1}\) 在本教科书的大部分内容中，我们将 \(X\) 的维度表示为 \(k\)。在本章中，我们将 \(X\) 的维度表示为 \(p\)，因为这是机器学习文献中的惯例。

29.4 p-范数

为了讨论岭回归和 Lasso 回归，我们将广泛使用 1-范数和 2-范数，因此回顾一下一般 p-范数的定义是有用的。对于向量 \(a=\left(a_{1}, \ldots, a_{k}\right)^{\prime}\)，p 范数 \((p \geq 1)\) 为

\[ \|a\|_{p}=\left(\sum_{j=1}^{k}\left|a_{j}\right|^{p}\right)^{1 / p} . \]

重要的特殊情况包括 1-范数

\[ \|a\|_{1}=\sum_{j=1}^{k}\left|a_{j}\right| \]

2-范数

\[ \|a\|_{2}=\left(\sum_{j=1}^{k} a_{j}^{2}\right)^{1 / 2}, \]

和超范数

\[ \|a\|_{\infty}=\max _{1 \leq j \leq k}\left|a_{j}\right| . \]

我们还定义了“0-范数”

\[ \|a\|_{0}=\sum_{j=1}^{k} \mathbb{1}\left\{a_{j} \neq 0\right\}, \]

非零元素的数量。这只是启发性地标记为“规范”。

p-范数满足以下可加性性质。如果 \(a=\left(a_{0}, a_{1}\right)\) 那么

\[ \|a\|_{p}^{p}=\left\|a_{0}\right\|_{p}^{p}+\left\|a_{1}\right\|_{p}^{p} . \]

以下不等式很有用。 \(1 / p+1 / q=1\) 的霍尔德不等式是

\[ \left|a^{\prime} b\right| \leq\|a\|_{p}\|b\|_{q} . \]

\(p=1\) 和 \(q=\infty\) 的情况是

\[ \left|a^{\prime} b\right| \leq\|a\|_{1}\|b\|_{\infty} . \]

\(p \geq 1\) 的闵可夫斯基不等式为

\[ \|a+b\|_{p} \leq\|a\|_{p}+\|b\|_{p} . \]

\(p \geq 1\) 的 p 范数满足范数单调性。尤其

\[ \|a\|_{1} \geq\|a\|_{2} \geq\|a\|_{\infty} . \]

应用 Hölder 的 (29.1) 我们也有不等式

\[ \|a\|_{1}=\sum_{j=1}^{k}\left|a_{j}\right| \mathbb{1}\left\{a_{j} \neq 0\right\} \leq\|a\|_{2}\|a\|_{0}^{1 / 2} . \]

29.5 岭回归

岭回归是一种收缩型估计量，与 JamesStein 估计量具有相似但不同的属性（参见第 28.20 节）。岭回归有两个相互竞争的动机。传统的动机是减少回归量之间的共线性程度。现代动机（尽管在数学中它早于“传统”动机）是高维和不适定逆问题的正则化。我们依次讨论两者。

正如上一节中所讨论的，当 \(p\) 很大时，由于病态的 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\)，最小二乘系数估计在数值上可能不可靠。作为数值改进，Hoerl 和 Kennard (1970) 提出了岭回归估计器

\[ \widehat{\beta}_{\text {ridge }}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y} \]

其中 \(\lambda>0\) 称为岭参数。该估计量具有定义明确且不会遭受多重共线性或病态影响的特性。如果 \(p>n\) 也成立！也就是说，即使回归量的数量超过样本大小，岭回归估计量也是明确定义的。

脊线参数 \(\lambda\) 控制收缩的程度，并且可以被视为调整参数。我们下面讨论如何选择 \(\lambda\)。

要了解 \(\lambda>0\) 如何确保逆问题得到解决，请使用谱分解来编写 \(\boldsymbol{X}^{\prime} \boldsymbol{X}=\boldsymbol{H}^{\prime} \boldsymbol{D} \boldsymbol{H}\)，其中 \(\boldsymbol{H}\) 是正交矩阵，\(\boldsymbol{D}=\operatorname{diag}\left\{r_{1}, \ldots, r_{p}\right\}\) 是对角矩阵，对角线上有 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\) 的特征值 \(r_{j}\) 。设置 \(\Lambda=\lambda \boldsymbol{I}_{p}\)。我们可以写

\[ \boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}=\boldsymbol{H}^{\prime} \boldsymbol{D} \boldsymbol{H}+\lambda \boldsymbol{H}^{\prime} \boldsymbol{H}=\boldsymbol{H}^{\prime}(\boldsymbol{D}+\Lambda) \boldsymbol{H} \]

它具有严格正的特征值 \(r_{j}+\lambda>0\)。因此，所有特征值都远离零，因此 \(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\) 是满秩且条件良好的。

第二个动机是基于惩罚。当 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\) 病态时，其逆矩阵是病态的。处理不适定估计量的技术称为正则化，可以追溯到 Tikhonov (1943)。一个主要的方法是惩罚。考虑由系数向量的 2-范数平方惩罚的误差平方和

\[ \operatorname{SSE}_{2}(\beta, \lambda)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda \beta^{\prime} \beta=\|\boldsymbol{Y}-\boldsymbol{X} \beta\|_{2}^{2}+\lambda\|\beta\|_{2}^{2} . \]

\(\operatorname{SSE}_{2}(\beta, \lambda)\) 的最小化器是正则化最小二乘估计器。

\(\operatorname{SSE}_{2}(\beta, \lambda)\) 相对于 \(\beta\) 最小化的一阶条件是

\[ -2 \boldsymbol{X}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+2 \lambda \beta=0 . \]

解决方案是\(\widehat{\beta}_{\text {ridge }}\)。因此，正则化（惩罚）最小二乘估计量等于岭回归。这表明岭回归估计器最小化了受到回归系数平方 2-范数惩罚的误差平方和。惩罚大系数向量可以防止后者太大和不稳定。因此，\(\lambda\) 的一种解释是对系数向量大小的惩罚。

受到惩罚的最小化具有作为约束最小化的双重表示。后者是

\[ \min _{\beta^{\prime} \beta \leq \tau}(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta) \]

对于一些 \(\tau>0\)。为了查看这种联系，约束问题的拉格朗日量为

\[ \min _{\beta}(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda\left(\beta^{\prime} \beta-\tau\right) \]

其中 \(\lambda\) 是拉格朗日乘子。一阶条件是（29.5），与惩罚问题相同。这表明他们有相同的解决方案。

惩罚问题和约束问题之间的实际区别在于，在第一个问题中，您指定岭参数 \(\lambda\)，而在第二个问题中，您指定约束参数 \(\tau\)。它们是相连的，因为 \(\lambda\) 和 \(\tau\) 的值满足关系

\[ \boldsymbol{Y}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}=\tau . \]

要在给定 \(\tau\) 的情况下找到 \(\lambda\)，（以数值方式）求解该方程就足够了。

图 29.1：岭回归双极小化解决方案

为了可视化约束问题，请参见图 \(29.1\)，它在 \(\mathbb{R}^{2}\) 中绘制了一个示例。约束集 \(\beta^{\prime} \beta \leq \tau\) 显示为围绕原点的球，误差平方和的轮廓集显示为椭圆。最小二乘估计器是椭圆的中心，而岭回归估计器是圆上轮廓相切的点。这会将最小二乘系数缩小到零向量。然而，与 Stein 估计器不同的是，它不会沿着连接最小二乘法与原点的线段收缩，而是沿着由变量之间的相关程度确定的轨迹收缩。该轨迹用虚线显示，标记为“山脊路径”。这是当 \(\lambda\) 从 0 到 \(\infty\) 变化时获得的岭回归系数序列。当 \(\lambda=0\) 时，岭估计器等于最小二乘法。对于较小的 \(\lambda\)，山脊估计器通过沿着轮廓集的山脊滑动，稍微向原点移动。随着 \(\lambda\) 的增加，岭估计器会采取更直接的路径到达原点。这与 Stein 估计器不同，Stein 估计器沿着连接线段将最小二乘估计器向原点收缩。推广岭回归以允许对不同组的回归量进行不同的惩罚是很简单的。拿模型

\[ Y=X_{1}^{\prime} \beta_{1}+\cdots+X_{G}^{\prime} \beta_{G}+e \]

并将上交所受到的处罚降到最低

\[ \lambda_{1} \beta_{1}^{\prime} \beta_{1}+\cdots+\lambda_{G} \beta_{G}^{\prime} \beta_{G} . \]

解决办法是

\[ \widehat{\beta}_{\text {ridge }}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\Lambda\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y} \]

在哪里

\[ \Lambda=\operatorname{diag}\left\{\lambda_{1} \boldsymbol{I}_{p_{1}}, \ldots, \lambda_{G} \boldsymbol{I}_{p_{G}}\right\} \]

这允许某些系数比其他系数受到更多（或更少）的惩罚。这种增加的灵活性是以选择岭参数 \(\lambda=\left(\lambda_{1}, \ldots, \lambda_{G}\right)\) 为代价的。一个重要的特殊情况是 \(\lambda_{1}=0\)，因此一组系数不会受到惩罚。使用 \(G=2\) 将系数分为两组：惩罚组和非惩罚组。

选择岭参数 \(\lambda\) 最流行的方法是交叉验证。留一岭回归估计器、预测误差和 CV 标准为

\[ \begin{aligned} \widehat{\beta}_{-i}(\lambda) &=\left(\sum_{j \neq i} X_{j} X_{j}^{\prime}+\Lambda\right)^{-1}\left(\sum_{j \neq i} X_{j} Y_{i}\right) \\ \widetilde{e}_{i}(\lambda) &=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{-i}(\lambda) \\ \mathrm{CV}(\lambda) &=\sum_{i=1}^{n} \widetilde{e}_{i}(\lambda)^{2} . \end{aligned} \]

CV 选择的岭参数 \(\lambda_{\mathrm{cv}}\) 最小化 \(\mathrm{CV}(\lambda)\)。交叉验证岭估计器是使用 \(\lambda_{\mathrm{cv}}\) 计算的。

实际上，最小化 \(\mathrm{CV}(\lambda)\) 可能很棘手。最小值可能出现在 \(\lambda=0\)（岭等于最小二乘）、\(\lambda=\infty\)（完全收缩）处，或者可能存在多个局部最小值。最小化 \(\lambda\) 的规模取决于回归量的规模，特别是 \(\boldsymbol{X}^{\prime} \boldsymbol{X}\) 的奇异值。对于非常小的 \(\lambda\) 值，探索 CV \((\lambda)\) 可能很重要。

对于最小二乘法，有一个简单的公式来计算岭回归的 CV 标准，这大大加快了计算速度。

定理 29.1 留一岭回归预测误差为

\[ \widetilde{e}_{i}(\lambda)=\left(1-X_{i}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\Lambda\right)^{-1} X_{i}\right)^{-1} \widehat{e}_{i}(\lambda) \]

其中 \(\widehat{e}_{i}(\lambda)=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\text {ridge }}(\lambda)\) 是岭回归残差。

证明参见练习 29.1。

选择 \(\lambda\) 的另一种方法是最小化 Mallows 准则，该准则等于

\[ C(\lambda)=\sum_{i=1}^{n} \widehat{e}_{i}(\lambda)^{2}+2 \widehat{\sigma}^{2} \operatorname{tr}\left(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\Lambda\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)\right) \]

其中 \(\widehat{\sigma}^{2}\) 是最小二乘估计的方差估计器。对于 (29.7) 的推导，请参见练习 29.2。 Mallows 选择的岭参数 \(\lambda_{\mathrm{m}}\) 最小化 \(C(\lambda)\)。 Mallows 选择的岭估计器是使用 \(\lambda_{\mathrm{m}}\) 计算的。 \(\mathrm{Li}\) (1986) 表明，在正态回归模型中，具有 Mallows 选择的岭参数的岭估计器在回归拟合方面渐近等价于不可行的最佳岭参数。我不知道交叉验证选择的岭估计有类似的最优结果。

一个重要的警告是，岭回归估计器对于重新调整回归量或其他线性变换并不是不变的。因此，通常在对回归量应用标准化变换后应用岭回归。

岭回归可以使用 glmnet 命令在 \(\mathrm{R}\) 中实现。在 Stata 中，岭回归可在可下载包 lassopack 中找到。

29.6 岭回归的统计特性

在线性回归模型的假设下，可以直接计算岭回归估计量的精确偏差和方差。采取线性回归模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 . \end{aligned} \]

固定 \(\lambda\) 的岭估计器的偏差为

\[ \operatorname{bias}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]=-\lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \beta \text {. } \]

随机采样下其协方差矩阵为

\[ \operatorname{var}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \]

其中 \(\boldsymbol{D}=\operatorname{diag}\left\{\sigma^{2}\left(X_{1}\right), \ldots, \sigma^{2}\left(X_{n}\right)\right\}\) 和 \(\sigma^{2}(X)=\mathbb{E}\left[e^{2} \mid X\right]\)。 (29.8) 和 (29.9) 的推导参见练习 29.3。在集群或串行依赖下，中心组件以标准方式进行修改。

我们可以通过均方误差（MSE）矩阵来衡量估计效率

\[ \operatorname{mse}[\widehat{\beta} \mid \boldsymbol{X}]=\mathbb{E}\left[(\widehat{\beta}-\beta)(\widehat{\beta}-\beta)^{\prime} \mid \boldsymbol{X}\right] . \]

定义 \(\underline{\sigma}^{2}=\min _{x \in \mathscr{X}} \sigma^{2}(x)\)，其中 \(\mathscr{X}\) 是 \(X\) 的支持。

定理29.2 在线性回归模型中，如果\(0<\lambda<2 \underline{\sigma}^{2} / \beta^{\prime} \beta\)，

\[ \operatorname{mse}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]<\operatorname{mse}\left[\widehat{\beta}_{\text {ols }} \mid \boldsymbol{X}\right] . \]

证明参见 \(29.23\) 节。

定理 \(29.2\) 表明，如果 \(\lambda\) 满足特定的值范围，则岭估计器在最小二乘估计器中占主导地位。无论 \(\beta\) 的维度如何，这都成立。然而，由于上限 \(2 \underline{\sigma}^{2} / \beta^{\prime} \beta\) 未知，因此尚不清楚可行的岭回归是否主导最小二乘法。上限并没有为 \(\lambda\) 的选择提供实际指导。给定 (29.9)，构造 \(V_{\widehat{\beta}}=\operatorname{var}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]\) 的估计器很简单。我建议使用 HC3 模拟

\[ \widetilde{V}_{\widehat{\beta}}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widetilde{e}_{i}(\lambda)^{2}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \]

其中 \(\widetilde{e}_{i}(\lambda)\) 是岭回归预测误差 (29.6)。或者，可以使用岭回归残差 \(\widehat{e}_{i}(\lambda)\)，但尚不清楚如何进行适当的自由度校正。在聚类或序列依赖下，\(\widetilde{V}_{\widehat{\beta}}\) 的中心组件可以照常修改。如果回归量高度稀疏（如稀疏虚拟变量回归），则谨慎使用同方差估计量

\[ \widetilde{V}_{\widehat{\beta}}^{0}=\widetilde{\sigma}^{2}(\lambda)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \]

与 \(\widetilde{\sigma}^{2}(\lambda)=n^{-1} \sum_{i=1}^{n} \widetilde{e}_{i}(\lambda)^{2}\)。

鉴于岭估计量明显有偏差，自然会担心如何解释从这些协方差矩阵估计量计算出的标准误差。由于存在偏差，以通常方式计算的置信区间将覆盖范围不足。一种答案是解释岭估计量 \(\widehat{\beta}_{\text {ridge }}\) 及其标准误差，类似于非参数回归中获得的结果。估计量和置信区间对于伪真实预测有效，例如\(\beta^{*}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{X} \beta\)，而不是系数 \(\beta\) 本身。这与我们对投影模型和非参数回归使用的解释相同。为了对真实系数 \(\beta\) 进行渐进准确的推断，可以选择岭参数 \(\lambda\) 以满足 \(\lambda=o(\sqrt{n})\) 的要求，类似于非参数回归中的欠平滑带宽。

29.7 岭回归说明

交叉验证功能

经验回报的估计

图 29.2：经验回报的最小二乘法和岭回归估计为了说明岭回归，我们使用 CPS 数据集和受过大学教育（16 年或以上教育）的亚洲男性样本来估计经验概况。我们考虑对数工资的条件均值的经验五阶多项式。我们首先对回归量进行标准化。我们首先将经验集中在其平均值上，创建高达五阶的幂，然后将每个幂标准化为均值为零和方差一。我们通过最小二乘法和岭回归来估计多项式回归，后者根据经验缩小五个系数，但不缩小截距。

我们通过交叉验证计算岭参数。交叉验证函数如图 29.2(a) 所示，区间为 [0,60]。由于我们已将回归量标准化为具有零均值和单位方差，因此岭参数与样本大小相当，在本应用中为 \(n=875\)。交叉验证函数在 \(\lambda=19\) 处被唯一最小化。我使用 \(\lambda\) 的这个值进行以下岭回归估计。

图 29.2(b) 显示了估计的经验概况。最小二乘用虚线显示，岭回归用实线显示。岭回归估计更平滑且更引人注目。灰色阴影区域是以岭回归估计为中心的 \(95 %\) 正态置信带，使用 HC3 协方差矩阵估计器 (29.10) 计算。

29.8 套索

在上一节中，我们了解到岭回归最小化了误差平方和加上系数向量的 2-范数惩罚。模型选择（例如 Mallows）最小化误差平方和加上 0 范数惩罚（非零系数的数量）。中间情况使用 1-范数惩罚。这是由 Tibshirani (1996) 提出的，被称为 Lasso（最小绝对收缩和选择算子）。具有 1-范数惩罚的最小二乘准则是

\[ \operatorname{SSE}_{1}(\beta, \lambda)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda \sum_{j=1}^{p}\left|\beta_{j}\right|=\|\boldsymbol{Y}-\boldsymbol{X} \beta\|_{2}^{2}+\lambda\|\beta\|_{1} . \]

Lasso 估计器是其最小化器

\[ \widehat{\beta}_{\text {Lasso }}=\underset{\beta}{\operatorname{argmin}} \operatorname{SSE}_{1}(\beta, \lambda) . \]

除特殊情况外，必须通过数值方式找到解决方案。幸运的是，计算算法出奇地简单且快速。一个重要的属性是，当 \(\lambda>0\) 时，套索估计器是明确定义的，即使 \(p>n\) 也是如此。

Lasso最小化问题具有对偶约束最小化问题

\[ \widehat{\beta}_{\text {Lasso }}=\underset{\|\beta\|_{1} \leq \tau}{\operatorname{argmin}} \operatorname{SSE}_{1}(\beta) . \]

要看到这两个问题是相同的，请观察约束最小化问题具有拉格朗日

\[ \min _{\beta}(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda\left(\sum_{j=1}^{p}\left|\beta_{j}\right|-\tau\right) \]

具有一阶条件

\[ -2 \boldsymbol{X}_{j}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda \operatorname{sgn}\left(\beta_{j}\right)=0 . \]

这与惩罚标准最小化的情况相同。因此解决方案是相同的。

图 29.3：套索对偶最小化解决方案

对偶问题的约束集 \(\left\{\|\beta\|_{1} \leq \tau\right\}\) 是一个类似于多面钻石的交叉多面体。 \(\mathbb{R}^{2}\) 中的最小化问题如图 29.3 所示。误差等值线集的平方和是以最小二乘解为中心的椭圆。约束集是阴影多面体。 Lasso 估计器是约束集和绘制的最大椭圆之间的交点。在此示例中，它命中约束集的顶点，因此约束估计器设置 \(\widehat{\beta}_{1}=0\)。这是 Lasso 估计中的典型结果。由于我们将二次主题最小化为多面体，因此解往往位于顶点。这消除了系数的子集。

套索路径用虚线绘制。这是随着约束集变化而获得的解的序列。解路径具有以下属性：它是从最小二乘估计器到 \(y\) 轴的直线（在本例中），此时 \(\beta_{2}\) 设置为零，然后解路径遵循 \(y\)轴到原点。一般来说，解路径在各段上是线性的，直到系数达到零，此时该系数被消除。在此特定示例中，解决方案路径显示 \(\beta_{2}\) 增加，而 \(\beta_{1}\) 减少。因此，虽然 Lasso 是收缩估计器，但它不会单调收缩各个系数。

比较具有相同等高线平方和的图形 \(29.1\) 和 \(29.3\) 是有启发性的。岭估计器通常是内部解，没有单独的系数设置为零，而套索估计器通常将某些系数设置为零。然而，两个估计器都遵循相似的解决方案路径，遵循 SSE 准则的山脊，而不是采取直接通往原点的路径。

我们可以显式计算 Lasso 估计的一种情况是当回归量正交时，例如 \(\boldsymbol{X}^{\prime} \boldsymbol{X}=\boldsymbol{I}_{p}\)。然后最小化的一阶条件简化为

\[ -2\left(\widehat{\beta}_{\text {ols }, j}-\widehat{\beta}_{\text {Lasso }, j}\right)+\lambda \operatorname{sgn}\left(\widehat{\beta}_{\text {Lasso }, j}\right)=0 \]

有显式解

\[ \widehat{\beta}_{\text {Lasso }, j}=\left\{\begin{array}{cc} \widehat{\beta}_{\mathrm{ols}, j}-\lambda / 2 & \widehat{\beta}_{\mathrm{ols}, j}>\lambda / 2 \\ 0 & \left|\widehat{\beta}_{\mathrm{ols}, j}\right| \leq \lambda / 2 \\ \widehat{\beta}_{\mathrm{ols}, j}+\lambda / 2 & \widehat{\beta}_{\mathrm{ols}, j}<-\lambda / 2 \end{array}\right. \]

这表明Lasso估计是最小二乘估计的连续变换。对于最小二乘估计的小值，套索估计设置为零。对于所有其他值，Lasso 估计将最小二乘估计向零移动 \(\lambda / 2\)。

选择和岭

套索

图 29.4：通过选择、岭和套索进行最小二乘估计的变换

将这种行为与岭回归和选择估计进行对比是有建设性的。当 \(\boldsymbol{X}^{\prime} \boldsymbol{X}=\boldsymbol{I}_{k}\) 时，岭估计器等于 \(\widehat{\beta}_{\text {ridge }}=(1+\lambda)^{-1} \widehat{\beta}_{\text {ols }}\)，因此将系数缩小到零的公倍数。选择估计器（为简单起见，考虑基于 \(\widehat{\sigma}^{2}=1\) 和临界值 \(c\) 的同方差 \(\mathrm{t}\) 测试的选择）等于 \(\widehat{\beta}_{\text {select }}=\mathbb{1}\left\{\left|\widehat{\beta}_{\text {ols }, j}\right|>c\right\} \widehat{\beta}_{\text {ols }, j}\)。因此，套索、岭和选择估计都是最小二乘系数估计的变换。我们在图 29.4 中说明了这些转换。面板 (a) 显示选择和山脊变换，面板 (b) 显示套索变换。

Lasso 和岭估计器是连续函数，而选择估计器是不连续函数。 Lasso 和选择估计器是阈值函数，这意味着该函数对于原点周围的区域为零。阈值估计器是选择估计器，因为当最小二乘估计器足够小时，它们等于零。 Lasso 函数是一种“软阈值”规则，因为它是具有有界一阶导数的连续函数。选择估计器是“硬阈值”规则，因为它是不连续的。由于不连续变换，硬阈值规则往往具有高方差。因此，我们预计 Lasso 相对于选择估计量的方差会减少，从而总体上降低 MSE。

对于岭回归，Lasso 对于回归量的缩放并不是不变的。如果重新调整回归量，则惩罚具有不同的含义。因此，在应用 Lasso 之前适当缩放回归量非常重要。通常将所有变量缩放至均值为零和单位方差。

套索对于回归器的旋转也不是不变的。例如，尽管具有相同的最小二乘解，但 \(\left(\boldsymbol{X}_{1}, \boldsymbol{X}_{2}\right)\) 上的 Lasso 与 \(\left(\boldsymbol{X}_{1}-\boldsymbol{X}_{2}, \boldsymbol{X}_{2}\right)\) 上的 Lasso 并不相同。这很令人不安，因为通常没有默认规范。

Lasso 估计在经济学中的应用正在不断增长。 Belloni、Chernozhukov 和 Hansen（2014）通过三种应用说明了该方法：（1）工具变量框架中征用权对房价的影响，（2）使用工具变量框架重新检验堕胎对犯罪的影响。 Donohue 和 Levitt (2001)，(3) 使用 Acemoglu、Johnson 和 Robinson (2001) 的框架重新审视民主对增长的影响。 Mullainathan 和 Spiess（2017）通过使用特征的房价预测模型来说明机器学习。 Oster（2018）使用家用扫描仪数据来衡量糖尿病诊断对食品购买的影响。

29.9 套索惩罚选择

对于 Lasso 估计至关重要的是惩罚 \(\lambda\)。对于接近于零的 \(\lambda\) ，估计值接近最小二乘法。随着 \(\lambda\) 的增加，所选变量的数量会减少。选择 \(\lambda\) 会导致复杂性和简约性之间的权衡。

在统计文献中，经常会看到系数被绘制为 \(\lambda\) 的函数。这可以用来可视化简约性和变量包含之间的权衡。然而，它没有提供选择的统计规则。

最常见的选择方法是最小化 K 倍交叉验证（参见第 28.9 节）。通常不使用留一 CV，因为它的计算成本很高。许多程序将默认折叠数设置为 \(K=10\)，尽管有些作者使用 \(K=5\)，而其他人则推荐 \(K=20\)。

K 折交叉验证是样本外均方预测误差的估计器。因此，通过最小化K倍准则进行惩罚选择的目的是选择具有良好预测精度的模型，但不一定用于其他目的，例如准确推理。

按照惯例，CV 选择的 \(\lambda\) 的值是使 CV 准则最小化的值。另一种流行的选择称为“1se”规则，即 \(\lambda\)，它在最小值的一个标准误差内为 \(\lambda\) 值生成最简约的模型。这个想法是选择一个与 CV 最小化选择类似但更简约的模型。

K 折交叉验证是通过首先将观察结果随机分为 \(K\) 组来实现的。因此，\(\mathrm{CV}\) 标准对随机排序很敏感。因此，谨慎设置随机数种子以实现可复制性并评估初始种子的敏感性。一般来说，为 \(K\) 选择较大的值会降低这种敏感性。

Chetverikov、Liao 和 Chernozhukov (2021) 证明了 Lasso 估计的 CV 选择的渐近一致性。

29.10 套索计算

Lasso 的约束表示是受线性不等式约束的二次方程的最小化。这可以通过计算简单的标准二次规划来实现。然而，为了评估交叉验证函数，计算整个 Lasso 路径很有用。为此，一种计算上合适的方法是修改后的 LARS 算法。（LARS 代表最小角回归。）

LARS 算法生成一条从原点开始到至少平方结束的系数路径。该序列对应于约束序列 \(\tau\) ，可以通过系数的绝对和来计算，但算法不使用这些值（也不使用 \(\lambda\) ）。步骤如下。

从所有系数都为零开始。
查找与 \(Y\) 最相关的 \(X_{j}\)。
向相关性方向增加\(\beta_{j}\)。

计算沿途残差。
当其他一些 \(X_{\ell}\) 与残差具有与 \(X_{j}\) 相同的相关性时停止。
如果非零系数为零，则从活动变量集中删除并重新计算联合最小二乘方向。

在联合最小二乘方向上增加 \(\left(\beta_{j}, \beta_{\ell}\right)\)，直到其他 \(X_{m}\) 与残差具有相同的相关性。
重复，直到所有预测变量都在模型中。

该算法生成 Lasso 路径。两者之间的平等并不是立即显而易见的。演示比较繁琐，这里就不展示了。

Lasso 最流行的计算实现是 glmnet 包中的 R glmnet 命令。通过 K 折交叉验证进行惩罚选择是通过 \(\mathrm{cv}\).glmnet 命令实现的。后者默认报告“1se”规则选择的惩罚，并将最小化 \(\lambda\) 报告为 lambda .min。默认折叠数为 \(K=10\)。

在 Stata 中，可以通过 lasso 命令使用 Lasso。默认情况下，它通过使用 \(K=10\) 折叠最小化 K 折叠交叉验证标准来选择惩罚。有许多选项可用，包括限制估计器仅惩罚系数的子集。 lassopack 是一个具有多种选项的替代下载包。

29.11 套索的渐近理论

目前 Lasso 估计的分布理论具有挑战性，并且主要集中在收敛率上。结果是在稀疏或近似稀疏条件下得出的，前者限制非零系数的数量，后者限制稀疏模型如何近似一般参数化。在本节中，我们为 Lasso 估计器 \(\widehat{\beta}_{\text {Lasso }}\) 在误差的温和矩界限和系数的稀疏性假设下提供了基本收敛率。

该模型是高维投影框架：

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \end{aligned} \]

其中 \(X\) 是 \(p \times 1\) 和 \(p>>n\)。假设真实系数向量 \(\beta\) 是稀疏的，因为只有 \(\beta\) 的元素子集非零。对于某些 \(\lambda\)，让 \(\widehat{\beta}_{\text {Lasso }}\) 为最小化 \(\operatorname{SSE}_{1}(\beta, \lambda)\) 的 Lasso 估计器。定义缩放设计矩阵 \(\boldsymbol{Q}_{n}=n^{-1} \boldsymbol{X}^{\prime} \boldsymbol{X}\) 和回归拟合

\[ \left(\widehat{\beta}_{\text {Lasso }}-\beta\right)^{\prime} \boldsymbol{Q}_{n}\left(\widehat{\beta}_{\text {Lasso }}-\beta\right)=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}^{\prime}\left(\widehat{\beta}_{\text {Lasso }}-\beta\right)\right)^{2} . \]

我们提供回归拟合 (29.12)、1-范数拟合 \(\|\widehat{\beta}-\beta\|_{1}\) 和 2-范数拟合 \(\|\widehat{\beta}-\beta\|_{2}\) 的界限。

回归拟合（29.12）与我们之前使用的拟合度量类似，包括级数回归中的积分平方误差（20.22）和用于评估模型选择最优性的回归拟合\(R_{n}(K)\)（方程（28.17））。

当 \(p>n\) 时，矩阵 \(\boldsymbol{Q}_{n}\) 是奇异的。然而，该理论要求它不能“太单一”。所需要的是对应于非零系数的 \(\boldsymbol{Q}_{n}\) 的所有子矩阵的非奇异性，而不是“太多”的零系数。具体要求是比较技术性的。分区 \(\beta=\left(\beta_{0}, \beta_{1}\right)\)，其中 \(\beta_{0}\) 的元素全为 0，\(\beta_{1}\) 的元素非零。（此划分是一种理论方法，计量经济学家不知道。）让 \(b=\left(b_{0}, b_{1}\right) \in \mathbb{R}^{p}\) 进行一致划分。定义圆锥 \(B=\left\{b \in \mathbb{R}^{p}:\left\|b_{0}\right\|_{1} \leq 3\left\|b_{1}\right\|_{1}\right\}\)。这是向量集 \(b\)，使得子向量 \(p>n\) 相对于子向量 \(p>n\) 不会“太大”。

假设29.1 限制特征值条件（REC） \(n \rightarrow \infty\) 的概率接近 1

\[ \min _{b \in B} \frac{b^{\prime} \boldsymbol{Q}_{n} b}{b^{\prime} b} \geq c^{2}>0 . \]

要了解 REC 的含义，请注意，如果在 \(\mathbb{R}^{p}\) 上不受限制地取最小值 (29.13)，则它等于 \(\boldsymbol{Q}_{n}\) 的最小特征值。因此，当 \(p<n\) 时，REC 的充分条件是 \(\lambda_{\min }\left(\boldsymbol{Q}_{n}\right) \geq c^{2}>0\)。相反，(29.13) 中的最小值仅在锥体 B 上计算。从这个意义上说，此计算类似于“受限特征值”，这也是其名称的来源。 REC 在理论文献中有多种形式；假设 \(29.1\) 不是最弱的，但却是最直观的。假设 \(29.1\) 已被证明在 \(X\) 的原始条件下成立，包括正态性和有界性。请参阅 Bickel、Ritov 和 Tsybakov (2009) 的第 3 节以及 Belloni、Chen、Chernozhukov 和 Hansen (2012) 的 \(3.1\) 节。

我们在正常误差假设下提供了 Lasso 估计器的速率。定理 29.3 假设模型 (29.11) \(p>1\) 成立且假设 \(29.1\) 成立。假设每个回归量都已标准化，以便在应用 Lasso 之前 \(n^{-1} \boldsymbol{X}_{j}^{\prime} \boldsymbol{X}_{j}=1\)。假设 \(e \mid X \sim \mathrm{N}\left(0, \sigma^{2}(X)\right)\) 其中 \(\sigma^{2}(x) \leq \bar{\sigma}^{2}<\infty\)。对于某些 \(C\) 足够大的集合

\[ \lambda=C \sqrt{n \log p} \]

那么 \(D<\infty\) 的概率任意接近 1 ，

\[ \begin{gathered} \left(\widehat{\beta}_{\text {Lasso }}-\beta\right)^{\prime} \boldsymbol{Q}_{n}\left(\widehat{\beta}_{\text {Lasso }}-\beta\right) \leq D\|\beta\|_{0} \frac{\log p}{n}, \\ \left\|\widehat{\beta}_{\text {Lasso }}-\beta\right\|_{1} \leq D\|\beta\|_{0} \sqrt{\frac{\log p}{n}}, \end{gathered} \]

和

\[ \left\|\widehat{\beta}_{\text {Lasso }}-\beta\right\|_{2} \leq D\|\beta\|_{0}^{1 / 2} \sqrt{\frac{\log p}{n}} . \]

证明参见 \(29.23\) 节。

定理 \(29.3\) 为 Lasso 系数估计器 \(\widehat{\beta}_{\text {Lasso }}\) 提供了回归拟合 (29.12) 的三种收敛率，涵盖 1-范数和 2-范数。这些比率取决于非零系数 \(\|\beta\|_{0}\) 的数量、变量 \(p\) 的数量以及样本大小 \(n\)。假设 \(\|\beta\|_{0}\) 是固定的。如果 \(\log p=o(n)\)，则边界 (29.15)-(29.17) 为 \(o(1)\)。这表明即使对于指数级数量的变量，Lasso 估计也是一致的。然而，这些比率允许非零系数 \(\|\beta\|_{0}\) 的数量随着 \(29.3\) 的增加而增加，但代价是减慢 \(29.3\) 的允许增长率。

我们在本节前面说过，我们假设系数向量 \(\beta\) 是稀疏的，这意味着只有 \(\beta\) 的元素子集非零。这通过 0 范数 \(\|\beta\|_{0}\)（非零系数的数量）出现在理论中。如果 \(\beta\) 的所有元素均非零，则 \(\|\beta\|_{0}=p\) 且边界 (29.15) 为 \(O(p \log p / n)\)，这类似于定理 20.7 中获得的级数回归的边界 (20.24)。相反，稀疏性的假设使 Lasso 估计器能够实现大大提高的收敛速度。

建立定理 \(29.3\) 的关键是应用于 \(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{e}\) 的最大不等式。我们的证明使用高斯尾不等式（B.39），它需要正态性假设。这遵循 Bickel、Ritov 和 Tsybakov (2009) 的分析，尽管这些作者施加了同方差，如定理 \(29.3\) 所示，可以用有界异方差假设来代替。统计文献中的其他论文（参见 Bühlmann 和 van de Geer (2011) 的专着）使用亚高斯尾部假设，该假设比正态性弱。

Belloni、Chen、Chernozhukov 和 Hansen (2012) 提出了一种允许非正态异方差误差的理论。这些作者研究了另一种 Lasso 估计器，它将特定于回归量的权重添加到惩罚函数中，权重等于 \(n^{-1} \sum X_{j i}^{2} \widehat{e}_{i}^{2}\) 的平方根。他们使用基于自我归一化的最大不等式，并获得与 (29.15)-(29.17) 类似的比率，但规律性条件要复杂得多。虽然它们的具体条件可能不是最弱的，但他们的理论表明，高斯或亚高斯误差的假设对于收敛率 (29.15)-(29.17) 并不重要。我预计未来的研究将进一步阐明所需的条件。定理 \(29.3\) 等结果的一个重要限制是稀疏性假设。它是不可测试的且违反直觉的。该领域的研究人员经常使用“强加稀疏性”一词，就好像它是在理论家控制下的东西一样 - 但稀疏性是真实系数的属性，而不是研究人员的选择。幸运的是，正如我们在下一节中讨论的那样，稀疏性假设还有其他选择。

29.12 近似稀疏性

上一节的理论使用了真实回归是稀疏的强假设：只有系数的子集非零，并且收敛速度取决于非零系数的基数。然而，正如 Belloni、Chen、Chernozhukov 和 Hansen (2012) 所示，并不需要严格的稀疏性。相反，在近似稀疏的假设下，收敛率与定理 \(29.3\) 中的收敛率相似。

再次采用高维回归模型（29.11），但不假设 \(\beta\) 必然具有稀疏结构。相反，将稀疏模型视为近似值。对于每个整数 \(K>0\)，令 \(B_{K}=\) \(\left\{b \in \mathbb{R}^{p}:\|b\|_{0}=K\right\}\) 为包含 \(K\) 非零元素的向量集。定义最佳稀疏近似

\[ \beta_{K}=\underset{b \in B_{K}}{\operatorname{argmin}}\left\|\boldsymbol{Q}_{n}(\beta-b)\right\|_{\infty} \]

以及相关的近似误差

\[ r_{K}=\left\|\boldsymbol{Q}_{n}\left(\beta-\beta_{K}\right)\right\|_{\infty} . \]

假设 29.2 近似稀疏性。对于一些 \(s>1, r_{K}=O\left(K^{-s}\right)\)。

假设 \(29.2\) 表明稀疏逼近的逼近误差以幂律率减小。在 \(20.8\) 和定理 \(20.1\) 部分中，我们了解到，如果真实回归函数具有统一的 \(s^{t h}\) 导数，则对于具有有界回归量的多项式和样条级数回归，类似于假设 \(29.2\) 的近似成立。主要区别在于，级数回归要求计量经济学家知道如何对回归量进行排序，而假设 \(29.2\) 不强加特定的排序。从这个意义上说，假设 \(29.2\) 弱于第 20.8 节的近似条件。

Belloni、Chen、Chernozhukov 和 Hansen (2012) 表明，在假设 29.2 的近似稀疏条件下，类似于定理 29.3 的收敛结果成立。收敛速度变慢并取决于近似指数 \(s\)。当 \(s \rightarrow \infty\) 时，收敛率接近稀疏假设下的收敛率。原因是随着 \(s\) 的增加，回归函数可以用较少数量的 \(K\) 非零系数来近似。他们的结果表明，Lasso 估计不需要精确的稀疏性，而需要的是类似于级数回归理论中使用的近似属性。

当回归量无法轻松排序时，近似稀疏条件就会失败。例如，假设 \(\boldsymbol{Q}_{n}=\boldsymbol{I}_{p}\) 和 \(\beta\) 的所有元素具有共同值 \(\delta\)。在这种情况下，\(r_{K}=\delta\) 不会随 \(K\) 减少。在这种情况下，假设 \(29.2\) 不成立，并且 Belloni、Chen、Chernozhukov 和 Hansen (2012) 的收敛结果不适用。

29.13 弹性网

Lasso 和 Ridge 回归之间的区别在于 Lasso 使用 1-范数惩罚，而 Ridge 使用 2-范数惩罚。由于两种程序各有优点，因此通过折衷获得进一步的改进似乎是合理的。对惩罚进行加权平均，我们得到弹性网络标准

\[ \operatorname{SSE}(\beta, \lambda, \alpha)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)+\lambda\left(\alpha\|\beta\|_{2}^{2}+(1-\alpha)\|\beta\|_{1}\right) \]

权重为 \(0 \leq \alpha \leq 1\)。这包括套索 \((\alpha=0)\) 和岭回归 \((\alpha=1)\) 作为特殊情况。对于小但正的 \(\alpha\)，约束集类似于 Lasso 约束集的“舍入”版本。

通常，参数 \((\alpha, \lambda)\) 通过 K 折交叉验证标准的联合最小化来选择。由于弹性净惩罚是线性二次的，因此该解决方案在计算上类似于 Lasso。

弹性网络可以在 R 中使用 glmnet 命令来实现。在 Stata 中使用 elasticnet 或可下载的包 lassopack。

29.14 后套索

Lasso 估计器 \(\widehat{\beta}_{\text {Lasso }}\) 同时选择变量并缩小系数。收缩会给估计带来偏差。可以通过在套索选择后应用最小二乘来减少这种偏差。这称为后套索估计器。

该过程需要两个步骤。首先，通过 Lasso 估计模型 \(Y=X^{\prime} \beta+e\)。让 \(X_{S}\) 表示 \(X\) 中的变量，这些变量在 \(\widehat{\beta}_{\text {Lasso }}\) 中具有非零系数。让 \(\beta_{S}\) 表示 \(\beta\) 中的相应系数。其次，系数 \(\beta_{S}\) 通过最小二乘法估计，即 \(\widehat{\beta}_{S}=\left(\boldsymbol{X}_{S}^{\prime} \boldsymbol{X}_{S}\right)^{-1}\left(\boldsymbol{X}_{S}^{\prime} \boldsymbol{Y}\right)\)。这是后套索最小二乘估计器。 Belloni 和 Chernozhukov (2013) 提供了后 Lasso 估计器与 Lasso 估计器具有相同收敛速度的条件。

后套索是一种硬阈值或后模型选择估计器。事实上，当回归量正交时，后 Lasso 估计器精确等于选择估计器，使用图 29.4(a) 中显示的硬阈值函数转换最小二乘系数估计。因此，后 Lasso 估计器继承了 PMS 估计器的统计特性（参见 \(28.16\) 和 28.17 节），包括高方差和非标准分布。

29.15 回归树

回归树由 Breiman、Friedman、Olshen 和 Stone (1984) 提出，也被称为分类和回归树的缩写 CART。回归树是使用大量阶跃函数的非参数回归。这个想法是，只要有足够多的分割点，阶跃函数就可以逼近任何函数。当存在连续和离散回归量的组合时，回归树可能特别有用，因此传统的核方法和级数方法难以实现。

回归树可以被认为是具有自由结的 \(0^{t h}\) 阶样条线。它们也类似于仅具有截距（无斜率系数）和大量阈值的阈值回归。

目标是估计标量 \(Y\) 和向量 \(X\) 的 \(m(x)=\mathbb{E}[Y \mid X=x]\)。 \(X\) 的元素可以是连续的、二元的或序数的。如果回归量是分类的，则应首先将其转换为一组二元变量。

关于回归树的文献已经发展了一些丰富多彩的语言来描述基于活树的隐喻的工具。 1. 子样本是一个分支。

终端分支是节点或叶。
增加树枝的数量就是长出一棵树。
减少树枝的数量就是修剪一棵树。

基本算法从单个分支开始。通过依次分裂树枝来长成一棵大树。然后使用信息标准进行修剪。生长阶段的目标是开发一个具有较小估计偏差的丰富数据确定的树。向后剪枝是向后逐步回归的一种应用，其目标是减少过度参数化和估计方差。

回归树算法大量使用了回归样本分割算法。这是阈值回归的简化版本（第 23.7 节）。该方法使用NLLS来估计模型

\[ \begin{aligned} Y &=\mu_{1} \mathbb{1}\left\{X_{d} \leq \gamma\right\}+\mu_{2} \mathbb{1}\left\{X_{d}>\gamma\right\}+e \\ \mathbb{E}[e \mid X] &=0 \end{aligned} \]

索引 \(d\) 和参数 \(\gamma\) 作为自由参数 \({ }^{2}\)。通过网格搜索在 \((d, \gamma)\) 上最小化 NLLS 准则。估计产生样本分割。回归树算法应用顺序样本分割来进行大量分割，每个分割针对观察的子样本。

基本增长算法如下。观察结果为 \(\left\{Y_{i}, X_{1 i}, \ldots, X_{k i}: i=1, \ldots, n\right\}\)。

选择最小节点大小 \(N_{\min }\)（例如 5）。这是每片叶子上的最小观察数量。
按顺序应用回归样本分割。

应用回归样本分割算法将每个分支分割为两个子分支，每个子分支的大小至少为 \(N_{\min }\)。
在每个子分支 \(b\) 上：

我。取 \(Y_{i}\) 的样本均值 \(\widehat{\mu}_{b}\) 作为对子分支的观测值。

二.这是该子分支上回归函数的估计器。

三.子分支上的残差为 \(\widehat{e}_{i}=Y_{i}-\widehat{\mu}_{b}\)。

选择其分割最能减少误差平方和的分支。
将这个分支分成两个分支。不进行其他分割。
重复(a)-(d)，直到每个分支不能进一步分裂。末端（未分裂）分支是叶子。

运行增长算法后，估计的回归是一个具有大量分支和叶子的多维阶跃函数。

基本剪枝算法如下。

1.定义Mallows型信息准则

\[ C=\sum_{i=1}^{n} \widehat{e}_{i}^{2}+\alpha N \]

其中 \(N\) 是叶子的数量，\(\alpha\) 是惩罚参数。

\({ }^{2}\) 如果 \(X_{d} \in\{0,1\}\) 是二进制的，则 \(\gamma=0\) 是固定的。 2. 计算当前树的标准\(C\)。

1.使用向后逐步回归来减少叶子数量：

识别去除量最大导致 \(C\) 减少的叶子。
修剪（除去）这片叶子。
如果没有叶子的移除量减少 \(C\)，则停止修剪。
否则，重复(a)-(c)。

惩罚参数 \(\alpha\) 通常通过 K 折交叉验证来选择。使用Mallows型准则是因为它简单，但据我所知，它没有回归树惩罚选择的理论基础。

回归树的优点是它们提供了高度灵活的非参数近似。它们的主要用途是预测。回归树的缺点之一是结果难以解释，因为没有回归系数。另一个缺点是拟合回归 \(\widehat{m}(x)\) 是离散阶跃函数，当 \(m(x)\) 连续且平滑时，这可能是粗略的近似。为了获得良好的近似值，回归树可能需要大量的叶子，这可能会导致具有高估计方差的非简约模型。

回归树的抽样分布很难推导，部分原因是样本分割的位置和估计均值之间存在很强的相关性。这类似于与模型选择后相关的问题。（参见 \(28.16\) 和 28.17 节。）打破这种依赖性的一种方法是 Wager 和 Ather (2018) 的诚实树提案。将样本分成两半 \(A\) 和 \(B\)。使用 \(A\) 样本进行分割，使用 \(B\) 样本进行叶内估计。在降低估计效率（样本实际上减半）的同时，估计的条件均值不会因估计的分割和均值之间的相关性而失真。

回归树算法在 R 包 rpart 中实现。

29.16 套袋

Breiman (1996) 引入 Bagging（引导聚合）作为减少预测变量方差的方法。我们在这里重点关注它在估计条件期望方面的用途。基本思想很简单。您生成大量 \(B\) 引导样本，估计每个引导样本的回归模型，并取引导回归估计的平均值。 Bootstrap 估计的平均值是 CEF 的 bagging 估计器。

当 CEF 估计量具有低偏差但高方差时，Bagging 被认为是有用的。这种情况发生在硬阈值估计器中，例如回归树、模型选择和后套索。 Bagging 是一种减少方差的平滑操作。由此产生的 bagging 估计器可能具有较低的 MSE。据信，Bagging 对于具有高偏差的估计器来说不太有用，因为 bagging 可能会夸大偏差。

我们首先描述估计算法。令 \(m(x)=\mathbb{E}[Y \mid X=x]\) 为 CEF，\(\widehat{m}(x)\) 为估计器，例如回归树。让 \(\widehat{m}_{b}^{*}(x)\) 成为在引导样本上构建的相同估计器。 \(m(x)\) 的 bagging 估计器是

\[ \widehat{m}_{\text {bag }}(x)=\frac{1}{B} \sum_{B=1}^{b} \widehat{m}_{b}^{*}(x) \]

随着 \(B\) 的增加，引导概率会收敛到理想的 bagging 估计器 \(\mathbb{E}^{*}\left[\widehat{m}^{*}(x)\right]\)。

为了理解装袋过程，我们使用 Bühlmann 和 Yu (2002) 的例子。如 \(28.16\) 部分所示，假设 \(\widehat{\theta} \sim \mathrm{N}(\theta, 1)\) 并考虑基于 \(5 %\) 测试的选择估计器，\(\widehat{\theta}_{\mathrm{pms}}=\widehat{\theta} \mathbb{1}\left\{\widehat{\theta}^{2} \geq c\right\}=\) \(h(\widehat{\theta})\)，其中 \(c=3.84\) 和 \(h(t)=t \mathbb{1}\left\{t^{2} \geq c\right\}\)。应用定理 28.17、方程 (28.38)，我们可以计算出 \(\mathbb{E}\left[\widehat{\theta}_{\mathrm{pms}}\right]=g(\theta)\)，其中 \(g(t)=t\left(1-F_{3}\left(c, t^{2}\right)\right)\) 和 \(28.16\) 是非中心卡方分布函数 \(28.16\)。这种表示方式并不直观，因此最好将其图形可视化。函数 \(28.16\) 和 \(28.16\) 绘制在图 29.5(a) 中。选择函数 \(28.16\) 与图 29.4(a) 中的图相同。函数 \(28.16\) 是 \(28.16\) 的平滑版本，处处连续且可微。

假设 bagging 估计器是使用参数引导程序 \(\widehat{\theta}^{*} \sim \mathrm{N}(\widehat{\theta}, 1)\) 构建的。引导选择估计器是 \(\widehat{\theta}_{\mathrm{pms}}^{*}=h\left(\widehat{\theta}^{*}\right)\)。由此可见，装袋估计器是 \(\widehat{\theta}_{\mathrm{bag}}=\mathbb{E}^{*}\left[\widehat{\theta}_{\mathrm{pms}}^{*}\right]=\) \(\mathbb{E}^{*}\left[h\left(\widehat{\theta}^{*}\right)\right]=g(\widehat{\theta})\)。因此，选择估计器 \(\widehat{\theta}_{\mathrm{pms}}=h(\widehat{\theta})\) 是应用于 \(\widehat{\theta}\) 的硬阈值变换 \(h(t)\)，而装袋估计器 \(\widehat{\theta}_{\mathrm{bag}}=g(\widehat{\theta})\) 是应用于 \(\widehat{\theta}^{*} \sim \mathrm{N}(\widehat{\theta}, 1)\) 的平滑变换 \(g(t)\)。因此，图 29.5(a) 显示了 \(\widehat{\theta}^{*} \sim \mathrm{N}(\widehat{\theta}, 1)\) 和 \(\widehat{\theta}^{*} \sim \mathrm{N}(\widehat{\theta}, 1)\) 如何是 \(\widehat{\theta}^{*} \sim \mathrm{N}(\widehat{\theta}, 1)\) 的变换，其中 bagging 估计器是平滑变换而不是硬阈值变换。

选择和装袋变换

选择和装袋估计器的 MSE

图 29.5：装袋和选择

Bühlmann 和 Yu (2002) 认为平滑变换通常比硬阈值变换具有更低的方差，因此认为 \(\widehat{\theta}_{\text {bag }}\) 通常比 \(\widehat{\theta}_{\mathrm{pms}}\) 具有更低的方差。这很难作为一般原则来证明，但在具体例子中似乎令人满意。对于我们的示例，我们在图 29.5(b) 中显示 \({ }^{4}\) 选择估计器 \(\widehat{\theta}_{\mathrm{pms}}\) 的 MSE 及其袋装版本 \(\widehat{\theta}_{\text {bag }}\) 作为 \(\theta\) 的函数。正如我们在第 28.16 节中了解到的，选择估计器 \(\widehat{\theta}_{\text {pms }}\) 的 MSE 是 \(\theta\) 的驼峰函数。在图 29.5(b) 中，我们可以看到，对于 \(\theta\) 的大多数值，袋装估计器的 MSE 相对于选择估计器显着降低。 \(\widehat{\theta}_{\text {bag }}\) 的 MSE 最大的区域中 MSE 的降低最大。 Bühlmann 和 Yu (2002) 还计算出 MSE 减少的大部分是由于袋装估计量方差的减少。

bagging 最常见的应用是回归树。树与我们的示例选择估计器 \(\widehat{\theta}_{\mathrm{pms}}\) 具有相似的结构，因此预计相对于回归树估计，估计方差和 MSE 也会有类似的减少。

\({ }^{3}\) Bühlmann 和 Yu (2002)，命题 2.2，提供了使用普通 cdf 和 pdf 函数的替代表示。

\({ }^{4}\) 对于 \(\widehat{\theta}_{\text {pms }}\)，MSE 是使用定理 28.10 计算的。对于 \(\widehat{\theta}_{\text {bag }}\)，MSE 是通过数值积分计算的。 bagging 的一个方便的副产品是称为袋外 (OOB) 预测误差的 CV 代理。典型的非参数引导样本包含大约 \(63 %\) 的原始观测值，这意味着大约 \(37 %\) 的观测值不存在于该引导样本中。因此，在此引导样本上构建的回归函数 \(m(x)\) 的引导估计“遗漏”了大约 \(37 %\) 的观测值，这意味着可以根据这些“遗漏”的观测值计算有效的预测误差。或者，对于任何给定的观测值 \(i\)，在 \(B\) 引导样本中，大约 \({ }^{4}\) 样本将包含此观测值，而大约 \({ }^{4}\) 样本将不包含此观测值。 \({ }^{4}\) 的装袋“保留 \({ }^{4}\) ”估计器 \({ }^{4}\) 是通过仅对第二组（排除观察的 \({ }^{4}\)）进行平均而获得的。袋外错误为 \({ }^{4}\)。袋外 CV 标准为 \({ }^{4}\)。这可以用作样本外 MSFE 的估计器，并可用于比较和选择模型。

Wager、Hastie 和 Efron (2014) 提出了 \(V_{n}(x)=\operatorname{var}\left[\widehat{m}_{\text {bag }}(x)\right]\) 的估计量。令 \(N_{i b}\) 表示观测值 \(i\) 在引导样本 \(b\) 和 \(N_{i}=B^{-1} \sum_{b=1}^{B} N_{i b}\) 中出现的次数。 \(V_{n}\) 的无穷小折刀估计量为

\[ \widehat{V}_{n}(x)=\sum_{i=1}^{n} \operatorname{cov}^{*}\left(N_{i}, \widehat{m}_{\text {bag }}(x)\right)^{2}=\sum_{i=1}^{n}\left(\frac{1}{B} \sum_{b=1}^{B}\left(N_{i b}-N_{i}\right)\left(\widehat{m}_{b}^{*}(x)-\widehat{m}_{\text {bag }}(x)\right)\right)^{2} . \]

该方差估计器基于 Efron (2014)。

虽然 Breiman 的提议和大多数装袋应用都是使用非参数引导程序实现的，但另一种方法是使用子采样。子采样估计器基于无替换采样，而不是像传统引导程序中那样进行替换采样。大小为 \(s<n\) 的样本是从原始样本中抽取的，并用于构建估计器 \(\widehat{m}_{b}^{*}(x)\)。否则，方法是相同的。事实证明，在子采样下开发 bagging 的分布理论要容易一些，因此在理论处理中经常采用子采样假设。

29.17 随机森林

Breiman (2001) 引入的随机森林是袋装回归树的改进。该修改旨在减少估计方差。随机森林在机器学习应用中很流行，并且有效地取代了简单的回归树。

考虑将装袋应用于回归树的过程。由于引导样本彼此相似，估计的引导回归树也将彼此相似，特别是在它们倾向于基于相同变量进行分割的意义上。这意味着在样本条件下，引导回归树呈正相关。这种相关性意味着即使引导复制 \(B\) 的数量很大，引导平均值的方差仍然很高。随机森林提出的修改是通过引入额外的随机性来去相关引导回归树。这种去相关减少了自举平均值的方差，从而降低了其 MSE。

基本的随机森林算法如下。推荐的默认值取自 Hastie、Tibshirani 和 Friedman (2008) 中的描述。

选择最小叶子大小 \(N_{\min }\) （默认 \(=5\) ）、最小分割分数 \(\alpha \in[0,1\) ）和采样数 \(m<p\) （默认 \(=p / 3\) ）。
对于 \(b=1, \ldots, B\) ：

绘制非参数引导样本。
使用以下步骤在引导样本上生成回归树：从 \(p\) 回归器中随机选择 \(m\) 变量。

二.在这些 \(m\) 变量中，选择产生最佳回归分割的变量，其中每个分割子样本至少具有 \(N_{\min }\) 观测值，并且至少有分支中观测值的一小部分 \(\alpha\)。

三.相应地分割引导样本。

当每片叶子的观测值介于 \(N_{\min }\) 和 \(2 N_{\min }-1\) 之间时停止。
将 \(\widehat{m}_{b}(x)\) 设置为引导树每个叶子上 \(Y\) 的样本平均值。

1.\(\widehat{m}_{\mathrm{rf}}(x)=B^{-1} \sum_{B=1}^{b} \widehat{m}_{b}(x)\)。

使用随机化将每一步的变量数量从 \(p\) 减少到 \(m\) 会改变树结构，从而减少自举回归树之间的相关性。这减少了引导平均值的方差。

无穷小折刀 (29.18) 可用于方差和标准误差估计，如 Wager、Hastie 和 Efron (2014) 中所述。

虽然随机森林在应用中很流行，但分布式理论的发展却很缓慢。最近的一些结果通过关注子采样而不是引导生成的随机森林而取得了进展（请参阅上一节末尾的讨论）。

Wager 和 Athey（2018）提出的一个变体是使用诚实树（参见第 29.15 节末尾的讨论）来消除样本分割和样本均值之间的依赖性。

Wager 和 Athey (2018) 建立了一致性和渐近正态性。他们假设条件期望和方差在 \(x, X \sim U[0,1]^{p}\) 中是 Lipschitz 连续的，并且 \(p\) 是固定的 \({ }^{5}\)。他们假设随机森林是通过子采样创建的，由诚实树估计，并且最小分割分数满足 \(0<\alpha \leq 0.2\)。在这些条件下，他们在 \(x\) 中逐点建立

\[ \frac{\widehat{m}_{\mathrm{rf}}(x)-m(x)}{\sqrt{V_{n}(x)}} \underset{d}{\longrightarrow} \mathrm{N}(0,1) \]

对于某些方差序列 \(V_{n}(x) \rightarrow 0\)。这些结果证明了回归函数的随机森林估计和标准误差计算的推断是正确的。渐近分布不包含偏差分量，表明估计量欠平滑。渐近正态性的 Wager-Athey 条件出奇地弱。然而，该理论并未深入了解估计器的收敛速度。结果的基本思想如下。分割算法和限制确保回归器空间（粗略地）均匀地分割成以功率速率增长的 \(N \sim n^{\gamma}\) 叶子。这确保了估计量是渐近无偏的。通过对 \(\gamma\) 进行适当控制，可以使平方偏差小于方差。 \(\alpha>0\) 的假设确保每片叶子的观测数量随着 \(n\) 的增加而增加。当与诚实树结构相结合时，这确保了估计器的渐近正态性。

此外，Wager 和 Athey (2018) 断言（但没有提供证明）方差 \(V_{n}(x)\) 可以通过无穷小 Jackknife (29.18) 一致地估计，在 \(\widehat{V}_{n}(x) / V_{n}(x) \underset{p}{\longrightarrow} 1\) 的意义上。

随机森林的标准计算实现是 R randomForest 命令。

29.18 合奏

集成是机器学习中用于跨机器学习算法进行模型平均的术语。集成在应用机器学习中很流行。

\({ }^{5}\) 作者声称，\(X\) 上的均匀分布假设可以用关节密度远离 0 和无穷大的条件来代替。假设您有一组估计器（例如，CV 选择、James-Stein 收缩、JMA、SBIC、PCA、核回归、级数回归、岭回归、Lasso、回归树、袋装回归树和随机森林）。你应该使用哪个？可以合理地预期一种方法可以很好地处理某些类型的数据，而其他方法也可以很好地处理其他类型的数据。模型平均的原理表明，您可以通过加权平均而不是仅选择一个来做得更好。

我们在第 28.26-28.31 节中讨论了模型平均模型。机器学习的集成可以使用许多相同的方法。一种称为堆叠的流行方法与第 28.29 节中讨论的 Jackknife 模型平均相同。这通过最小化交叉验证标准来选择模型平均权重，但受到权重非负且总和为 1 的约束。

不幸的是，有关集成的理论文献很少。关于具体方法的许多建议都是基于经验表现。

29.19 套索四号

Belloni、Chen、Chernozhukov 和 Hansen（2012）提出 Lasso 来估计工具变量回归的简化形式。

该模型是线性 IV

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid Z] &=0 \\ X &=\Gamma^{\prime} Z+U \\ \mathbb{E}[U \mid Z] &=0 \end{aligned} \]

其中 \(\beta\) 是 \(k \times 1\) （固定），\(\Gamma\) 是 \(p \times n\)，\(p\) 大。如果 \(p>n\) 2SLS 估计器等于最小二乘法。如果 \(p<n\) 但很大，则 2SLS 估计器会遇到“许多工具”问题。作者的建议是通过 Lasso 或 post-Lasso 6 估计 \(\Gamma\) 。

内生回归量的简化形式方程为 \(X_{j}=\gamma_{j}^{\prime} Z+U_{j}\)。每个都由 Lasso 单独估计，产生系数估计值 \(\widehat{\gamma}_{j}\)，这些系数估计值堆叠到矩阵 \(\widehat{\Gamma}_{\text {Lasso }}\) 中并用于形成预测值 \(\widehat{\boldsymbol{X}}_{\text {Lasso }}=Z \widehat{\Gamma}_{\text {Lasso }}\)。 Lasso IV 估计器是

\[ \widehat{\beta}_{\text {Lasso-IV }}=\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}^{\prime} \boldsymbol{X}\right)^{-1}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}^{\prime} \boldsymbol{Y}\right) . \]

本文讨论了替代方案。一种是通过 Angrist 和 Krueger (1995) 中的分割样本估计获得的（参见第 12.14 节）。将样本随机分为两个独立的两半 \(A\) 和 \(B\)。使用 \(A\) 通过 Lasso 估计简化形式方程。然后使用\(B\)来估计结构系数\(\beta\)。具体来说，使用样本\(A\)构造Lasso系数估计矩阵\(\widehat{\Gamma}_{\text {Lasso, } A}\)。将其与样本 \(B\) 结合起来创建预测值 \(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}=Z_{B} \widehat{\Gamma}_{\text {Lasso, } A}\)。最后，使用 \(A\) 构造估计器

\[ \widehat{\beta}_{\text {Lasso }, B}=\left(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}^{\prime} \boldsymbol{X}_{B}\right)^{-1}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}^{\prime} \boldsymbol{Y}_{B}\right) . \]

我们可以逆转这个过程。使用 \(B\) 估计 Lasso 的简化形式系数矩阵 \(\widehat{\Gamma}_{\text {Lasso }, B}\)，并使用 \(A\) 估计结构系数，即 \(\widehat{\boldsymbol{X}}_{\text {Lasso, } A}=\boldsymbol{Z}_{A} \widehat{\Gamma}_{\text {Lasso, } B}\)。对矩进行平均以获得 Lasso SSIV 估计器

\[ \widehat{\beta}_{\text {Lasso-SSIV }}=\left(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}^{\prime} \boldsymbol{X}_{B}+\widehat{\boldsymbol{X}}_{\text {Lasso }, A}^{\prime} \boldsymbol{X}_{A}\right)^{-1}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}^{\prime} \boldsymbol{Y}_{B}+\widehat{\boldsymbol{X}}_{\text {Lasso }, A}^{\prime} \boldsymbol{Y}_{A}\right) . \]

\({ }^{6}\) 正如他们所讨论的，任何机器学习估计器都可以使用，尽管他们的论文中列出的具体假设是针对 Lasso 估计的。在后来的工作中（参见第 29.22 节），作者将 \(\widehat{\beta}_{\text {Lasso, } B}\) 描述为“样本分割”，将 \(\widehat{\beta}_{\text {Lasso-SSIV }}\) 描述为“交叉拟合”估计器。

作者使用 Lasso 估计的渐近理论表明，这些估计量相当于使用不可行工具 \(W=\Gamma^{\prime} Z\) 进行的估计。

定理 29.4 根据 Belloni、Chen、Chernozhukov 和 Hansen (2012) 的定理 3 列出的假设，包括

\[ \|\Gamma\|_{0} \frac{\log p}{\sqrt{n}} \rightarrow 0, \]

然后

\[ \left(\boldsymbol{Q}^{-1} \Omega \boldsymbol{Q}^{-1}\right) \sqrt{n}\left(\widehat{\beta}_{\text {Lasso-IV }}-\beta\right) \underset{d}{\rightarrow} \mathrm{N}\left(0, \boldsymbol{I}_{k}\right) \]

其中 \(\boldsymbol{Q}=\mathbb{E}\left[W W^{\prime}\right], \Omega=\mathbb{E}\left[W W^{\prime} e^{2}\right]\) 和 \(W=\Gamma^{\prime} Z\)。此外，标准协方差矩阵估计量对于渐近协方差矩阵是一致的。在定理 7 中列出的假设下，相同的分布结果也适用于 \(\widehat{\beta}_{\text {Lasso-SSIV }}\)。特别是，(29.19) 被替换为

\[ \|\Gamma\|_{0} \frac{\log p}{n} \rightarrow 0 . \]

有关证明的草图，请参阅 \(29.23\) 节。

方程 (29.19) 要求简化形式系数 \(\Gamma\) 是稀疏的，因为非零简化形式系数 \(\|\Gamma\|_{0}\) 的数量比 \(\sqrt{n}\) 增长得更慢。这允许 \(p\) 随 \(n\) 呈指数增长，但速度比定理 29.3 允许的速度稍慢。条件（29.19）是分布结果（29.20）所需的关键假设之一。

对于 Lasso SSIV，方程 (29.21) 替代 (29.19)。此速率条件较弱，允许 \(p\) 以与回归估计相同的速率增长。差异是由于分割样本估计造成的，它打破了简化形式系数估计和第二阶段结构估计之间的依赖性。 (29.19) 和 (29.21) 之间的差异有两个可解释的含义。首先，直接的含义是 Lasso SSIV 允许使用更多数量的变量 \(p\)。其次，间接的含义是，对于任何一组变量，Lasso SSIV 相对于 Lasso IV 的偏差都会减少。两种解释都表明 Lasso SSIV 是首选估计器。

Belloni、Chen、Chernozhukov 和 Hansen (2012) 扩展了定理 \(29.4\) 以允许近似稀疏性，如 \(29.12\) 节中那样，但代价是更严格的速率条件。

分割样本和交叉拟合估计器的一个重要缺点是它们依赖于将观测值随机排序到样本 \(A\) 和 \(B\) 中。因此，两名研究人员将获得两个不同的估计量。此外，分割样本估计器使用 \(n / 2\) 观测值而不是 \(n\)，这可能会影响有限样本性能。一个推论是，当 \(n\) 很小时，分割样本估计量是不合适的。

IV Lasso 可以使用可下载的 ivlasso 包在 Stata 中实现。

29.20 双选套索

对于大多数机器学习估计器来说，估计后推理很困难。例如，考虑后套索估计器（最小二乘应用于套索选择的回归量）。这是模型选择后 (PMS) 估计器，如 \(28.16\) 和 28.17 节中所述。如第 28.17 节所示，应用于 PMS 估计量的标准置信区间的覆盖概率可能远离名义水平。 Belloni、Chernozhukov 和 Hansen（2014b）提出了一种替代的估计和推理方法，可以实现更好的覆盖率。

考虑线性模型

\[ \begin{aligned} Y &=D \theta+X^{\prime} \beta+e \\ \mathbb{E}[e \mid D, X] &=0 \end{aligned} \]

其中 \(Y\) 和 \(D\) 是标量，\(X\) 是 \(p \times 1\)。变量 \(D\) 是回归的主要焦点；变量 \(X\) 是控件。目标是对 \(\theta\) 进行推理。

假设您通过套索后组估计模型 (29.22)，仅惩罚 \(\beta\)。这对变量 \(X\) 进行选择，从而导致 \(Y\) 对 \(D\) 以及 \(X\) 中选定的变量进行最小二乘回归。这与 \(28.17\) 节中研究的模型相同（不同之处在于该分析选择是通过测试进行的），其中图 28.1 (c) 显示 \(\theta\) 的覆盖概率向下偏差，并且扭曲严重。扭曲主要受到 \(D\) 和 \(X\) 之间相关性的影响（并且不断增加）。

Belloni、Chernozhukov 和 Hansen (2014b) 推断，只要 \(X\) 和 \(D\) 相关，如果变量 \(X\) 包含在回归 (29.22) 中，就可以提高覆盖精度。这就产生了执行他们所谓的双重选择的实际建议。我们首先为 \(D\) 指定一个辅助方程：

\[ \begin{aligned} D &=X^{\prime} \gamma+V \\ \mathbb{E}[V \mid X] &=0 . \end{aligned} \]

将 (29.23) 代入 (29.22) 我们得到 \(Y\) 的简化形式：

\[ \begin{aligned} Y &=X^{\prime} \eta+U \\ \mathbb{E}[U \mid X] &=0 \end{aligned} \]

其中 \(\eta=\beta+\gamma \theta\) 和 \(U=e+V \theta\)。所提出的双重选择算法将模型选择（例如套索选择）分别应用于方程（29.23）和（29.24），取所选回归量的并集，然后使用所选回归量通过最小二乘估计（29.22）。此方法确保变量 \(X\) 与回归 (29.22) 相关或与 \(D\) 相关时被包含在内。

Belloni、Chernozhukov 和 Hansen (2014b) 推荐的双重选择估计量为：

Lasso 估计 (29.23)。令 \(X_{1}\) 为从 \(X\) 中选择的变量。
Lasso 估计 (29.24)。令 \(X_{2}\) 为从 \(X\) 中选择的变量。
令\(\widetilde{X}=X_{1} \cup X_{2}\) 为\(X_{1}\) 和\(X_{2}\) 中变量的并集。
对 \((D, \widetilde{X})\) 进行回归 \(Y\) 以获得双选系数估计值 \(\widehat{\theta}_{\mathrm{DS}}\)。
计算 \(\widehat{\theta}_{\mathrm{DS}}\) 的常规（异方差）标准误差。

Belloni、Chernozhukov 和 Hansen (2014b) 表明，当 (29.22) 和 (29.23) 都满足近似稀疏结构（以便回归可以通过一组有限的回归量很好地近似）时，双选择估计器 \(\widehat{\theta}_{\mathrm{DS}}\) 和它的 t 比是渐近正态的，因此传统的推理方法是有效的。他们的证明在技术上很乏味，所以这里不再重复。基本思想是，由于 \(\tilde{X}\) 包含 \(X_{2}\) 中的变量，因此估计器 \(\widehat{\theta}_{\mathrm{DS}}\) 渐近等价于其中 \(D\) 被替换为 (29.23) 中的错误 \(V\) 的回归。由于 \(V\) 与回归量 \(X\) 不相关，因此估计量和 t 比率满足传统的非选择渐近分布。

应该强调的是，这种分布主张是渐近的；有限样本的推论仍然偏离名义水平。此外，结果取决于结构方程（29.22）和辅助回归（29.23）的近似稀疏性假设的充分性。

双选估计器的主要优点是其简单性和清晰直观的结构。

在 Stata 中，双重选择 Lasso 估计器可以通过 dsregress 命令或使用 pdslasso 附加包来计算。双重选择可在 \(\mathrm{R}\) 中与 hdm 软件包一起使用。

29.21 后正则化套索

双选 Lasso 的一个潜在改进是 Chernozhukov、Hansen 和 Spindler (2015) 的正则化后 Lasso 估计器，在 Stata 手册中被标记为部分化 Lasso。该估计量本质上与 Robinson (1988) 的部分线性模型相同（参见第 19.24 节），但通过 Lasso 而不是核回归进行估计。

我们首先对结构方程（29.22）进行变换以消除高维分量。取 \(X\) 条件下的 (29.22) 期望值，并从每一边减去。这导致方程

\[ Y-\mathbb{E}[Y \mid X]=(D-\mathbb{E}[D \mid X]) \theta+e . \]

请注意，这消除了回归量 \(X\) 和高维系数 \(\beta\)。模型 (29.23)(29.24) 将 \(\mathbb{E}[Y \mid X]\) 和 \(\mathbb{E}[D \mid X]\) 指定为 \(X\) 的线性函数。代入这些表达式我们得到

\[ Y-X^{\prime} \eta=\left(D-X^{\prime} \gamma\right) \theta+e . \]

如果 \(\eta\) 和 \(\gamma\) 已知，则可以通过最小二乘法估计系数 \(\theta\)。由于 \(\eta\) 和 \(\gamma\) 未知，因此需要对其进行估计。 Chernozhukov、Hansen 和 Spindler (2015) 建议通过 Lasso 或 post-Lasso 分别对 \(Y\) 和 \(D\) 进行估计。

Chernozhukov、Hansen 和 Spindler（2015）推荐的估计量是：

通过 Lasso 或使用 Lasso 参数 \(\lambda_{1}\) 进行后 Lasso 估计 (29.23)。令 \(\widehat{\gamma}\) 为系数估计器，\(\widehat{V}_{i}=D_{i}-X_{i}^{\prime} \widehat{\gamma}\) 为残差。
通过 Lasso 或使用 Lasso 参数 \(\lambda_{2}\) 进行后 Lasso 估计 (29.24)。令 \(\widehat{\eta}\) 为系数估计器，\(\widehat{U}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\eta}\) 为残差。
令 \(\widehat{\theta}_{\mathrm{PR}}\) 为 \(\widehat{U}\) 对 \(\widehat{V}\) 回归的 OLS 系数。
计算 \(\widehat{\theta}_{\mathrm{PR}}\) 的常规（异方差）标准误差。

Chernozhukov、Hansen 和 Spindler (2015) 引入以下见解来理解为什么 \(\widehat{\theta}_{\mathrm{PR}}\) 可能对模型后选择相对不敏感。模型选择使推理无效的原因是，当变量 \(D\) 和 \(X\) 相关时，\(\theta\) 的矩条件对 \(\beta\) 敏感。具体来说，基于 (29.22) 的 \(\theta\) 的矩条件为

\[ m(\theta, \beta)=\mathbb{E}\left[D\left(Y-D \theta-X^{\prime} \beta\right)\right]=0 . \]

它对 \(\beta\) 的敏感性是其在真实系数下评估的导数

\[ \frac{\partial}{\partial \beta} m(\theta, \beta)=-\mathbb{E}\left[D X^{\prime}\right] \]

当 \(D\) 和 \(X\) 相关时，它不为零。这意味着变量 \(X\) 的包含/排除会对 \(\theta\) 的矩条件及其解产生影响。

相比之下，基于 (29.25) 的 \(\theta\) 的矩条件为

\[ \begin{aligned} m_{\mathrm{PR}}(\theta, \beta) &=\mathbb{E}\left[\left(D-X^{\prime} \gamma\right)\left(Y-X^{\prime} \eta-\left(D-X^{\prime} \gamma\right) \theta\right)\right] \\ &=\mathbb{E}\left[\left(D-X^{\prime} \gamma\right)\left(Y-D \theta-X^{\prime} \beta\right)\right] . \end{aligned} \]

它对 \(\beta\) 的敏感度是

\[ \frac{\partial}{\partial \beta} m_{\mathrm{PR}}(\theta, \beta)=-\mathbb{E}\left[\left(D-X^{\prime} \gamma\right) X^{\prime}\right]=-\mathbb{E}\left[V X^{\prime}\right]=0 . \]

这等于 0，因为 \(V\) 是 (29.23) 中指定的回归误差，因此与 \(X\) 不相关。由于 \(m_{\mathrm{PR}}(\theta, \beta)\) 相对于 \(\beta\) 的敏感性为零，因此包含/排除变量 \(X\) 对 \(\theta\) 及其估计器的矩条件仅产生轻微影响。

这些见解在以下分布理论中得到了形式化。

定理 29.5 假设模型 (29.22)-(29.23) 成立，并且假设 \(29.1\) 对于 \(\beta\) 和 \(\gamma\) 都成立。假设每个回归量都已标准化，因此 \(n^{-1} \boldsymbol{X}_{j}^{\prime} \boldsymbol{X}_{j}=1\).假设 \(e \mid X \sim \mathrm{N}\left(0, \sigma_{e}^{2}(X)\right)\) 和 \(V \mid X \sim \mathrm{N}\left(0, \sigma_{V}^{2}(X)\right)\) 其中 \(\sigma_{e}^{2}(x) \leq \bar{\sigma}_{e}^{2}<\infty\) 和 \(\sigma_{V}^{2}(x) \leq \bar{\sigma}_{V}^{2}<\infty\)。对于某些足够大的 \(C_{1}\) 和 \(29.1\)，Lasso 参数满足 \(29.1\) 和 \(29.1\)。假设 \(29.1\) 和

\[ \left(\|\beta\|_{0}+\|\gamma\|_{0}\right) \frac{\log p}{\sqrt{n}}=o(1) . \]

然后

\[ \sqrt{n}\left(\widehat{\theta}_{\mathrm{PR}}-\theta\right) \underset{d}{\rightarrow} \mathrm{N}\left(0, \frac{\mathbb{E}\left[V^{2} e^{2}\right]}{\left(\mathbb{E}\left[V^{2}\right]\right)^{2}}\right) . \]

此外，\(\widehat{\theta}_{\mathrm{PR}}\) 的标准方差估计量对于渐近方差是一致的。

证明参见 \(29.23\) 节。

为了提供简单的证明，定理 \(29.5\) 使用正常误差的假设。这不是必需的。 Chernozhukov、Hansen 和 Spindler (2015) 在较弱的正则性条件下陈述了相同的分布结果。

定理 \(29.5\) 表明后正则化（偏出）Lasso 估计器具有传统的渐近分布，允许对系数 \(\theta\) 进行传统推断。关键速率条件是 (29.26)，它比 Lasso 估计所需的更强，并且与 Lasso IV 所用的 (29.19) 相同。 (29.26) 要求 \(\beta\) 和 \(\gamma\) 都是稀疏的。可以放宽条件 (29.26) 以允许近似稀疏性，如 \(29.12\) 节中所示，但代价是更严格的速率条件。后正则化估计器 \(\widehat{\theta}_{\mathrm{PR}}\) 相对于双选择估计器 \(\widehat{\theta}_{\mathrm{DS}}\) 的优势在于效率。后正则化估计器仅使用 \(X\) 的相关组件来分别贬低 \(Y\) 和 \(29.5\)，从而实现更大的简约性。 \(29.5\) 的不同组件可能与 \(29.5\) 和 \(29.5\) 相关。后正则化估计器允许这样的区别并分别估计。相反，双重选择估计器使用两个回归器集的并集来估计 \(29.5\)，从而导致不太简洁的规范。因此，双重选择估计器的优点是减少偏差和鲁棒性。关于理论，后正则化估计器的渐近理论的推导比双选择估计器的渐进理论要容易得多，因为它只涉及收敛率的操纵，而双选择估计器需要仔细注意回归量集并集的处理。

部分化 Lasso 估计器可通过 Stata 中的 poregress 命令使用（仅通过后 Lasso 估计实现），或使用 pdslasso 附加包。部分化套索可在 \(\mathrm{R}\) 中与 hdm 包一起使用。

29.22 双重/偏差机器学习

对模型推理方法 (29.22) 的最新贡献是 Chernozhukov、Chetverikov、Demirer、Duflo、Hansen、Newey 和 Robins (2018) 的 Double/Debiased 机器学习 (DML) 估计器。我们的描述将集中于 Lasso 估计的线性回归，尽管它们的处理方法要普遍得多。这种估计方法近年来受到计量经济学家的广泛关注，被认为是最先进的估计方法。

DML 估计器通过添加类似于分割样本 IV 估计器的样本分割来扩展上一节的后正则化估计器（参见第 29.19 节）。作者认为，这减少了估计阶段之间的依赖性，并且可以提高性能。

如上一节所述，后正则化估计器首先估计模型 (29.23) 和 (29.24) 中的系数 \(\gamma\) 和 \(\eta\)，然后估计系数 \(\theta\)。分割样本估计器使用单独的样本执行这些估计步骤。 DML 估计器通过使用 K 重分区更进一步。估计算法如下。

将样本随机划分为 \(K\) 独立折叠 \(A_{k}, k=1, \ldots, K\)，大小大致相等 \(n / K\)。
将每次折叠的数据矩阵写为\(\left(\boldsymbol{Y}_{k}, \boldsymbol{D}_{k}, \boldsymbol{X}_{k}\right)\)。
对于 \(k=1, \ldots, K\)

使用除折叠 \(k\) 之外的所有观测值，通过 Lasso 或 post-Lasso 估计 (29.23) 和 (29.24) 中的系数 \(\gamma\) 和 \(\eta\)。将这些离开折叠估计器写为 \(\widehat{\gamma}_{-k}\) 和 \(\widehat{\eta}_{-k}\)。
设置 \(\widehat{\boldsymbol{V}}_{k}=\boldsymbol{D}_{k}-\boldsymbol{X}_{k} \widehat{\gamma}_{-k}\) 和 \(\widehat{\boldsymbol{U}}_{k}=\boldsymbol{Y}_{k}-\boldsymbol{X}_{k} \widehat{\eta}_{-k}\)。这些是使用 left-fold-out 估计器对 \(k^{t h}\) 折叠中的观测值进行 \(V\) 和 \(U\) 的估计值。

设置\(\widehat{\theta}_{\mathrm{DML}}=\left(\sum_{k=1}^{K} \widehat{\boldsymbol{V}}_{k}^{\prime} \widehat{\boldsymbol{V}}_{k}\right)^{-1}\left(\sum_{k=1}^{K} \widehat{\boldsymbol{V}}_{k}^{\prime} \widehat{\boldsymbol{U}}_{k}\right)\)。同样，将 \(\widehat{\boldsymbol{V}}_{k}\) 和 \(\widehat{\boldsymbol{U}}_{k}\) 堆叠到 \(n \times 1\) 向量 \(\widehat{\boldsymbol{V}}\) 和 \(\widehat{\boldsymbol{U}}\) 中，并设置 \(\widehat{\theta}_{\mathrm{DML}}=\left(\widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{V}}\right)^{-1}\left(\widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{U}}\right)\)。
为 \(\widehat{\theta}_{\mathrm{DML}}\) 构造一个常规（异方差）标准误差。

作者将 \(\widehat{\theta}_{\text {DML }}\) 称为交叉拟合估计器，因为在 \(K=2\) 情况下，它在两个方向上执行样本分割，因此完全渐近有效。上述估计器被作者标记为“DML2”估计器。他们标记为“DML1”的另一种选择是 \(\widehat{\theta}_{\mathrm{DML} 1}=\sum_{k=1}^{K}\left(\widehat{\boldsymbol{V}}_{k}^{\prime} \widehat{\boldsymbol{V}}_{k}\right)^{-1}\left(\widehat{\boldsymbol{V}}_{k}^{\prime} \widehat{\boldsymbol{U}}_{k}\right)\)。它们渐近等价，但首选 DML2。

估计器需要选择折叠数 \(K\)。与 K-fold CV 类似，作者推荐 \(K=10\)。计算成本大致与 \(K\) 成正比。

定理29.6 在定理29.5的假设下，

\[ \sqrt{n}\left(\widehat{\theta}_{\mathrm{DML}}-\theta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \frac{\mathbb{E}\left[V^{2} e^{2}\right]}{\left(\mathbb{E}\left[V^{2}\right]\right)^{2}}\right) . \]

此外，\(\widehat{\theta}_{\mathrm{DML}}\) 的标准方差估计量对于渐近方差是一致的。

定理 \(29.6\) 表明 DML 估计器实现了标准渐近分布。该证明是定理 \(29.5\) 的直接扩展，因此被省略。 Chernozhukov 等人提供了较弱（但高水平）的正则性条件。等人。（2018）。

作者认为，由于某些误差项的收敛速度有所提高，DML 估计器提高了采样性能。如果我们检查定理 29.5 的证明，错误界限之一是 (29.44)，这表明

\[ \left|\left(\widehat{\gamma}_{-k}-\gamma\right)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}_{k}^{\prime} \boldsymbol{e}_{k}\right| \leq O_{p}\left(\|\gamma\|_{0} \frac{\log p}{\sqrt{n}}\right)=o_{p}(1) . \]

然而，在样本分割下，我们的收敛速度有所提高。组件 \(\widehat{\gamma}_{-k}\) 和 \(\boldsymbol{X}_{k}^{\prime} \boldsymbol{e}_{k}\) 是独立的。因此，(29.27) 的左侧以 \(\widehat{\gamma}_{-k}\) 和 \(\boldsymbol{X}_{k}\) 为条件，平均值为零，并且条件方差以 \(\bar{\sigma}_{e}^{2}\left(\widehat{\gamma}_{-k}-\gamma\right)^{\prime} \frac{1}{n} \boldsymbol{X}_{k}^{\prime} \boldsymbol{X}_{k}\left(\widehat{\gamma}_{-k}-\gamma\right)\) 为界。这是定理 29.3 的 \(O_{p}\left(\|\gamma\|_{0} \frac{\log p}{n}\right)\)。因此 (29.27) 是 \(O_{p}\left(\sqrt{\|\gamma\|_{0} \frac{\log p}{n}}\right)\)，它的阶次较小。这一改进表明，在样本分割和 DML 估计器下，与渐近近似的偏差应该更小。然而，这些改进并没有导致规则性条件的放松。证明需要限制项 (29.42)-(29.43)，并且这些项不会通过样本分割得到改进。因此，尚不清楚样本分割的分布影响是大还是小。

DML 估计器相对于后正则化估计器的优点在于样本分割消除了两个估计步骤之间的依赖性，从而减少了后模型选择偏差。然而，该过程有几个缺点。首先，由于样本分裂，估计量是随机的。具有相同数据集但进行不同随机分割的两名研究人员将获得两个不同的估计量。这种随意性令人不安。通过使用较大的 \(K\) 值可以减少这种随机性，但这会增加计算成本。样本分割的另一个缺点是 \(\gamma\) 和 \(\eta\) 的估计是使用较小的样本来执行的，这会降低估计效率，尽管如果 \(K \geq 10\) 这种影响很小。无论如何，这些考虑因素表明 DML 可能最适合具有较大 \(n\) 和 \(K \geq 10\) 的设置。

在本节的开头，DML 估计器被描述为“最先进的”。这个领域正在迅速发展，因此这个特定的估计器可能很快就会因进一步的迭代而黯然失色。

在 Stata 中，DML 估计器可通过 xporegress 命令使用。默认情况下，它使用 \(K=10\) 折叠实现 DML2 估计器。系数 \(\gamma\) 和 \(\eta\) 由 post-Lasso 估计。

29.23 技术证明*

定理 29.2 的证明结合 (29.8) 和 (29.9) 我们发现

\[ \begin{aligned} \operatorname{mse}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right] &=\operatorname{var}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]+\operatorname{bias}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right] \text { bias }\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right]^{\prime} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}+\lambda^{2} \beta \beta^{\prime}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \end{aligned} \]

最小二乘估计量的 MSE 为

\[ \begin{aligned} \operatorname{mse}\left[\widehat{\beta}_{\mathrm{ols}} \mid \boldsymbol{X}\right] &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}+\lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)+\lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right.\\ &\left.+\lambda^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \\ & \geq\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}+\lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)+\lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} . \end{aligned} \]

他们的区别是

\[ \operatorname{mse}\left[\widehat{\beta}_{\text {ols }} \mid \boldsymbol{X}\right]-\operatorname{mse}\left[\widehat{\beta}_{\text {ridge }} \mid \boldsymbol{X}\right] \geq \lambda\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \boldsymbol{A}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\lambda \boldsymbol{I}_{p}\right)^{-1} \]

在哪里

\[ \boldsymbol{A}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)+\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\lambda \beta \beta^{\prime} . \]

如果 \(\boldsymbol{A}>0\) ，则 (29.28) 的右侧是正定的。其最小特征值满足

\[ \lambda_{\min }(\boldsymbol{A})=2 \min _{\alpha^{\prime} \alpha=1} \alpha^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1 / 2}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1 / 2} \alpha-\lambda \beta^{\prime} \beta \geq 2 \min _{h^{\prime} h=1} h^{\prime} \boldsymbol{D} h-\lambda \beta^{\prime} \beta=2 \underline{\sigma}^{2}-\lambda \beta^{\prime} \beta \]

当假设 \(0<\lambda<2 \underline{\sigma}^{2} / \beta^{\prime} \beta\) 时，它是严格正的。这表明 (29.28) 是正定的。

定理 29.3 的证明定义 \(V_{n j}=n^{-1} \sum_{i=1}^{n} X_{j i}^{2} \sigma^{2}\left(X_{i}\right)\)。正态性假设意味着对于每个 \(j,\left(n V_{n j}\right)^{-1 / 2} \boldsymbol{X}_{j}^{\prime} \boldsymbol{e} \sim \mathrm{N}(0,1)\)。高斯尾不等式 (B.39) 意味着对于任何 \(x\)

\[ \mathbb{P}\left[\left|\frac{1}{\sqrt{n V_{n j}}} \boldsymbol{X}_{j}^{\prime} \boldsymbol{e}\right|>x\right] \leq 2 \exp \left(-\frac{x^{2}}{2}\right) . \]

根据布尔不等式 (B.24)、(29.29)、Jensen 不等式、\(V_{n j} \leq \bar{\sigma}^{2}\) 和 (29.14)，

\[ \begin{aligned} \mathbb{P}\left[\left\|\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{e}\right\|_{\infty}>\frac{\lambda}{4 n} \mid \boldsymbol{X}\right] &=\mathbb{P}\left[\max _{1 \leq j \leq p}\left|\frac{1}{n} \boldsymbol{X}_{j}^{\prime} \boldsymbol{e}\right|>\frac{\lambda}{4 n} \mid \boldsymbol{X}\right] \\ &=\mathbb{P}\left[\bigcup_{1 \leq j \leq p}\left|\frac{1}{\sqrt{n V_{n j}}} \boldsymbol{X}_{j}^{\prime} \boldsymbol{e}\right|>\frac{\lambda}{4 \sqrt{n V_{n j}}} \mid \boldsymbol{X}\right] \\ & \leq \sum_{j=1}^{p}\left[\left|\frac{1}{\sqrt{n V_{n j}}} \boldsymbol{X}_{j}^{\prime} \boldsymbol{e}\right|>\frac{\lambda}{4 \sqrt{n V_{n j}}} \mid \boldsymbol{X}\right] \\ & \leq \sum_{j=1}^{p} 2 \exp \left(-\frac{\lambda^{2}}{16 n V_{n j}}\right) \\ & \leq 2 p \exp \left(-\frac{C^{2}}{16 \bar{\sigma}^{2}} \log p\right) \\ &=2 p^{1-C^{2} / 16 \bar{\sigma}^{2} .} \end{aligned} \]

由于 \(p>1\) 可以通过选择足够大的 \(C\) 来使其任意小。这表明

\[ \left\|\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{e}\right\|_{\infty} \leq \frac{\lambda}{4 n} \]

以任意大的概率成立。证明的其余部分是代数的，基于估计标准函数的操作，以事件（29.31）为条件。

由于 \(\widehat{\beta}\) 最小化了 \(\operatorname{SSE}_{1}(\beta, \lambda)\)，它满足 \(\operatorname{SSE}_{1}(\widehat{\beta}, \lambda) \leq \operatorname{SSE}_{1}(\beta, \lambda)\) 或

\[ (\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta})^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta})+\lambda\|\widehat{\beta}\|_{1} \leq \boldsymbol{e}^{\prime} \boldsymbol{e}+\lambda\|\beta\|_{1} . \]

写出左侧，除以 \(n\)，并重新排列和定义 \(R_{n}=(\widehat{\beta}-\beta)^{\prime} \boldsymbol{Q}_{n}(\widehat{\beta}-\beta)\)，这意味着

\[ \begin{aligned} R_{n}+\frac{\lambda}{n}\|\widehat{\beta}\|_{1} & \leq \frac{2}{n} \boldsymbol{e}^{\prime} \boldsymbol{X}(\widehat{\beta}-\beta)+\frac{\lambda}{n}\|\beta\|_{1} \\ & \leq 2\left\|\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{e}\right\|_{\infty}\|\widehat{\beta}-\beta\|_{1}+\frac{\lambda}{n}\|\beta\|_{1} \\ & \leq \frac{\lambda}{2 n}\|\widehat{\beta}-\beta\|_{1}+\frac{\lambda}{n}\|\beta\|_{1} . \end{aligned} \]

第二个不等式由 Hölder 的 (29.2) 成立，第三个不等式由 (29.31) 成立。

与 \(\beta=\left(\beta_{0}, \beta_{1}\right)\) 一致地划分 \(\widehat{\beta}=\left(\widehat{\beta}_{0}, \widehat{\beta}_{1}\right)\)。使用 1-范数的可加性属性和事实 \(\beta_{0}=0\)，上面的表达式意味着

\[ \begin{aligned} R_{n}+\frac{\lambda}{2 n}\left\|\widehat{\beta}_{0}-\beta_{0}\right\|_{1} & \leq \frac{\lambda}{2 n}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1}+\frac{\lambda}{n}\left(\left\|\beta_{1}\right\|_{1}-\left\|\widehat{\beta}_{1}\right\|_{1}\right) \\ & \leq \frac{3 \lambda}{2 n}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1} \end{aligned} \]

第二个不等式使用从 (29.3) 得出的事实 \(\|\beta\|_{1} \leq\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1}+\left\|\widehat{\beta}_{1}\right\|_{1}\)。

(29.32) 的蕴涵是 \(\left\|\widehat{\beta}_{0}-\beta_{0}\right\|_{1} \leq 3\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1}\)。因此\(\widehat{\beta}-\beta \in B\)。结果是我们可以应用假设 \(29.1\) 来获得

\[ R_{n}=(\widehat{\beta}-\beta)^{\prime} \boldsymbol{Q}_{n}(\widehat{\beta}-\beta) \geq c^{2}\|\widehat{\beta}-\beta\|_{2}^{2} . \]

这是证明中使用假设 \(29.1\) 的唯一（但关键）点。

与 (29.32) 一起，(29.33) 意味着

\[ \begin{aligned} c^{2}\|\widehat{\beta}-\beta\|_{2}^{2} & \leq \frac{3 \lambda}{2 n}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1} \\ & \leq \frac{3 \lambda}{2 n}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{2}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{0}^{1 / 2} \\ & \leq \frac{3 \lambda}{2 n}\|\widehat{\beta}-\beta\|_{2}\|\beta\|_{0}^{1 / 2} . \end{aligned} \]

第二个不等式是（29.4）。第三个是 \(\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{2} \leq\|\widehat{\beta}-\beta\|_{2}\) 和 \(\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{0}=\left\|\beta_{1}\right\|_{0}=\|\beta\|_{0}\)。重新排列并使用 (29.14) 我们得到

\[ \|\widehat{\beta}-\beta\|_{2} \leq \frac{3 \lambda}{2 c^{2} n}\|\beta\|_{0}^{1 / 2}=\frac{3 C}{2 c^{2}}\|\beta\|_{0}^{1 / 2} \sqrt{\frac{\log p}{n}} \]

\(D=3 C / 2 c^{2}\) 等于 (29.17)。 (29.32)、(29.4)、(29.17) 和 (29.14) 意味着

\[ \begin{aligned} R_{n}+\frac{\lambda}{2 n}\left\|\widehat{\beta}_{0}-\beta_{0}\right\|_{1} & \leq \frac{3 \lambda}{2 n}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{2}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{0}^{1 / 2} \\ & \leq \frac{3 \lambda}{2 n}\|\widehat{\beta}-\beta\|_{2}\|\beta\|_{0}^{1 / 2} \\ & \leq \frac{9 C}{4 c^{2}} \frac{\lambda}{n}\|\beta\|_{0} \sqrt{\frac{\log p}{n}} \\ &=\frac{9 C^{2}}{4 c^{2}}\|\beta\|_{0} \frac{\log p}{n} \end{aligned} \]

这意味着 \(D=9 C^{2} / 4 c^{2}\) 为 (29.15)。

方程（29.34）也意味着

\[ \left\|\widehat{\beta}_{0}-\beta_{0}\right\|_{1} \leq \frac{9 C}{2 c^{2}}\|\beta\|_{0} \sqrt{\frac{\log p}{n}} . \]

使用（29.4）和（29.17）

\[ \left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1} \leq\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{2}\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{0}^{1 / 2} \leq\|\widehat{\beta}-\beta\|_{2}\|\beta\|_{0}^{1 / 2} \leq \frac{3 C}{2 c^{2}}\|\beta\|_{0} \sqrt{\frac{\log p}{n}} . \]

因此

\[ \|\widehat{\beta}-\beta\|_{1}=\left\|\widehat{\beta}_{0}-\beta_{0}\right\|_{1}+\left\|\widehat{\beta}_{1}-\beta_{1}\right\|_{1} \leq \frac{6 C}{c^{2}}\|\beta\|_{0} \sqrt{\frac{\log p}{n}} \]

\(D=6 C / c^{2}\) 等于 (29.16)。

定理 29.4 的证明我们提供了证明的草图。我们从套索 IV 开始。首先，考虑理想化估计器 \(\widehat{\beta}=\left(\boldsymbol{W}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{W}^{\prime} \boldsymbol{Y}\right)\)，其中 \(\boldsymbol{W}=\boldsymbol{Z} \Gamma\)。如果 \(W\) 的分布不随 \(n\) 变化（当 \(\Gamma\) 中的非零系数不随 \(n\) 变化时成立），则 \(\widehat{\beta}\) 在标准假设下具有渐近分布 (29.20)。为了允许 \(\Gamma\) 中的非零系数随 \(n\) 变化，Belloni、Chen、Chernozhukov 和 Hansen (2012) 使用三角阵列中心极限理论，这需要一些额外的技术条件。鉴于此，如果 \(\widehat{\beta}=\left(\boldsymbol{W}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{W}^{\prime} \boldsymbol{Y}\right)\) 可以用预测值 \(\widehat{\beta}=\left(\boldsymbol{W}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{W}^{\prime} \boldsymbol{Y}\right)\) 替换而不改变 (29.20)，则 (29.20) 成立。这成立如果

\[ \begin{aligned} &\frac{1}{n}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime} \boldsymbol{X} \underset{p}{\longrightarrow} 0 \\ &\frac{1}{\sqrt{n}}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime} \boldsymbol{e} \underset{p}{\longrightarrow} 0 . \end{aligned} \]

为简单起见，假设 \(k=1\)。定理 \(29.3\) 表明，在套索应用于简化形式的正则条件下，

\[ \left|\frac{1}{n}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)\right|=(\widehat{\Gamma}-\Gamma)^{\prime}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)(\widehat{\Gamma}-\Gamma) \leq O_{p}\left(\|\Gamma\|_{0} \frac{\log p}{n}\right) \]

和

\[ \|\widehat{\Gamma}-\Gamma\|_{1} \leq O_{p}\left(\|\Gamma\|_{0} \sqrt{\frac{\log p}{n}}\right) . \]

与(29.30)类似，在充分正则条件下

\[ \left\|\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right\|_{\infty}=O_{p}(\sqrt{\log p}) . \]

由施瓦茨不等式和 (29.37)

\[ \begin{aligned} \left|\frac{1}{n}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime} \boldsymbol{X}\right| & \leq\left|\frac{1}{n}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)\right|^{1 / 2}\left|\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X}\right|^{1 / 2} \\ & \leq O_{p}\left(\|\Gamma\|_{0} \frac{\log p}{n}\right)^{1 / 2} \leq o_{p}(1) \end{aligned} \]

(29.19) 下的最终不等式。这就成立了 (29.35)。

根据霍尔德不等式 (29.2)、(29.38) 和 (29.39)，

\[ \begin{aligned} \left|\frac{1}{\sqrt{n}}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }}-\boldsymbol{W}\right)^{\prime} \boldsymbol{e}\right| &=\left|(\widehat{\Gamma}-\Gamma)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right| \\ & \leq\|\widehat{\Gamma}-\Gamma\|_{1}\left\|\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right\|_{\infty} \\ & \leq O_{p}\left(\|\Gamma\|_{0} \sqrt{\frac{\log p}{n}}\right) O_{p}(\sqrt{\log p}) \\ &=O_{p}\left(\|\Gamma\|_{0} \frac{\log p}{\sqrt{n}}\right) \\ & \leq o_{p}(1) \end{aligned} \]

(29.19) 下的最终不等式。这就成立了 (29.36)。

现在考虑套索 SSIV。除了 (29.40) 之外，步骤基本相同。为此，我们使用 \(\widehat{\Gamma}_{\text {Lasso }, A}\) 独立于 \(\boldsymbol{Z}_{B}^{\prime} \boldsymbol{e}_{B}\) 的事实。让 \(\boldsymbol{D}_{B}=\operatorname{diag}\left(\mathbb{E}\left[e_{i}^{2} \mid Z_{i}\right]\right)\) 代表样本 \(B\) 并假设 \(\mathbb{E}\left[e^{2} \mid Z\right] \leq\) \(\bar{\sigma}^{2}<\infty\)。有条件地基于 \(A\) 和 \(\boldsymbol{Z}_{B}\)

\[ \begin{aligned} \operatorname{var}\left[\frac{1}{\sqrt{n}}\left(\widehat{\boldsymbol{X}}_{\text {Lasso }, B}^{\prime}-\boldsymbol{W}_{B}\right)^{\prime} \boldsymbol{e}_{B} \mid A, \boldsymbol{Z}_{B}\right] &=\operatorname{var}\left[\left(\widehat{\Gamma}_{\text {Lasso, } A}-\Gamma\right)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{Z}_{B}^{\prime} \boldsymbol{e}_{B} \mid A, \boldsymbol{Z}_{B}\right] \\ &=\left(\widehat{\Gamma}_{\text {Lasso }, A}-\Gamma\right)^{\prime} \frac{1}{n} \boldsymbol{Z}_{B}^{\prime} \boldsymbol{D} \boldsymbol{Z}_{B}\left(\widehat{\Gamma}_{\text {Lasso }, A}-\Gamma\right) \\ & \leq \bar{\sigma}^{2}\left(\widehat{\Gamma}_{\text {Lasso }, A}-\Gamma\right)^{\prime} \frac{1}{n} \boldsymbol{Z}_{B}^{\prime} \boldsymbol{Z}_{B}\left(\widehat{\Gamma}_{\text {Lasso }, A}-\Gamma\right) \\ &=O_{p}\left(\|\Gamma\|_{0} \frac{\log p}{n}\right) \\ & \leq o_{p}(1) \end{aligned} \]

最终界限为（29.37）和（29.21）。因此 \(n^{-1 / 2}\left(\widehat{\boldsymbol{X}}_{\mathrm{Lasso}, B}^{\prime}-\boldsymbol{W}_{B}\right)^{\prime} \boldsymbol{e}_{B} \underset{p}{\longrightarrow} 0\) 根据需要。

定理 29.5 的证明理想化估计量 \(\widehat{\theta}_{\mathrm{PR}}=\left(\boldsymbol{V}^{\prime} \boldsymbol{V}\right)^{-1}\left(\boldsymbol{V}^{\prime} \boldsymbol{U}\right)\) 满足

\[ \sqrt{n}\left(\widehat{\theta}_{\mathrm{PR}}-\theta\right)=\left(n^{-1} \boldsymbol{V}^{\prime} \boldsymbol{V}\right)^{-1}\left(n^{-1 / 2} \boldsymbol{V}^{\prime} \boldsymbol{e}\right) \]

其具有规定的渐近分布。因此，如果 \((\boldsymbol{V}, \boldsymbol{U})\) 被 \((\widehat{\boldsymbol{V}}, \widehat{\boldsymbol{U}})\) 替换是渐近可忽略的，则该定理成立。从 \(\boldsymbol{Y}=\boldsymbol{X} \eta+\widehat{\boldsymbol{V}} \theta+\boldsymbol{X}(\widehat{\gamma}-\gamma) \theta+\boldsymbol{e}\) 开始

\[ \sqrt{n}\left(\widehat{\theta}_{\mathrm{PR}}-\theta\right)=\sqrt{n} \frac{\widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{U}}}{\widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{V}}}=\frac{\frac{1}{\sqrt{n}} \widehat{\boldsymbol{V}}^{\prime}(\widehat{\boldsymbol{V}} \theta+\boldsymbol{X}(\widehat{\gamma}-\gamma) \theta-\boldsymbol{X}(\widehat{\eta}-\eta)+\boldsymbol{e})}{\frac{1}{n} \widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{V}}} . \]

分母等于

\[ \frac{1}{n} \widehat{\boldsymbol{V}}^{\prime} \widehat{\boldsymbol{V}}=\frac{1}{n} \boldsymbol{V}^{\prime} \boldsymbol{V}-2(\widehat{\gamma}-\gamma)^{\prime} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{V}+(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\gamma}-\gamma) . \]

分子等于

\[ \begin{aligned} \frac{1}{\sqrt{n}} \widehat{\boldsymbol{V}}^{\prime}(\widehat{\boldsymbol{V}} \theta+\boldsymbol{X}(\widehat{\gamma}-\gamma) \theta-\boldsymbol{X}(\widehat{\eta}-\eta)+\boldsymbol{e}) &=\frac{1}{\sqrt{n}} \boldsymbol{V}^{\prime} \boldsymbol{e}-(\widehat{\gamma}-\gamma)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{e}-(\widehat{\eta}-\eta)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{V} \\ &+\theta(\widehat{\gamma}-\gamma)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{V}+\sqrt{n}(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\eta}-\eta)-\theta \sqrt{n}(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\gamma}-\gamma) . \end{aligned} \]

第一项之外的右侧项渐近可以忽略不计，因为

\[ \begin{aligned} &\sqrt{n}(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\gamma}-\gamma) \leq O_{p}\left(\|\gamma\|_{0} \frac{\log p}{\sqrt{n}}\right)=o_{p}(1) \\ &\sqrt{n}(\widehat{\eta}-\eta)^{\prime} \boldsymbol{Q}_{n}(\widehat{\eta}-\eta) \leq O_{p}\left(\|\eta\|_{0} \frac{\log p}{\sqrt{n}}\right)=o_{p}(1) \end{aligned} \]

通过定理 \(29.3\) 和假设 (29.26)，

\[ \begin{aligned} \sqrt{n}(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\eta}-\eta) & \leq\left(\sqrt{n}(\widehat{\gamma}-\gamma)^{\prime} \boldsymbol{Q}_{n}(\widehat{\gamma}-\gamma)\right)^{1 / 2}\left(\sqrt{n}(\widehat{\eta}-\eta)^{\prime} \boldsymbol{Q}_{n}(\widehat{\eta}-\eta)\right)^{1 / 2} \\ & \leq O_{p}\left(\|\gamma\|_{0}^{1 / 2}\|\eta\|_{0}^{1 / 2} \frac{\log p}{\sqrt{n}}\right)=o_{p}(1) \end{aligned} \]

由 Schwarz 不等式和上述结果，以及

\[ \begin{aligned} \left|(\widehat{\gamma}-\gamma)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{e}\right| & \leq\|\widehat{\gamma}-\gamma\|_{1}\left\|\frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{e}\right\|_{\infty} \\ & \leq O_{p}\left(\|\gamma\|_{0} \sqrt{\frac{\log p}{n}}\right) O_{p}(\sqrt{\log p})=O_{p}\left(\|\gamma\|_{0} \frac{\log p}{\sqrt{n}}\right)=o_{p}(1) \end{aligned} \]

由霍尔德 (29.2)、定理 29.3、(29.39) 和假设 (29.26) 得出。相似地

\[ \begin{aligned} &(\widehat{\gamma}-\gamma)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{V}=o_{p}(1) \\ &(\widehat{\eta}-\eta)^{\prime} \frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{V}=o_{p}(1) . \end{aligned} \]

我们一起证明，在 (29.41) 中，用 \((\widehat{\boldsymbol{V}}, \widehat{\boldsymbol{U}})\) 替换 \((\widehat{\boldsymbol{V}}, \widehat{\boldsymbol{U}})\) 是渐近可以忽略不计的。

29.24 练习

练习 29.1 证明定理 29.1。提示：证明与定理3.7类似。

练习29.2 证明(29.7) 是岭回归的Mallows 准则。有关 Mallows 准则的定义，请参阅 \(28.6\) 节。

练习29.3 导出岭回归估计量的条件偏差（29.8）和方差（29.9）。

练习29.4 表明岭回归估计量可以计算为应用于增强数据集的最小二乘法。取原始数据\((\boldsymbol{Y}, \boldsymbol{X})\)。将 \(p\) 添加到 \(\boldsymbol{Y}\) 和 \(\sqrt{\lambda} \boldsymbol{I}_{p}\) 到 \(\boldsymbol{X}\) 的 \(p\) 行，应用最小二乘法，并显示这等于 \(\widehat{\beta}_{\text {ridge }}\)。

练习 29.5 最小二乘法或岭回归中，哪种估计器能产生更高的回归\(R^{2}\)？

练习29.6 岭回归是否要求\(\boldsymbol{X}\)的列线性无关？取一个样本 \((\boldsymbol{Y}, \boldsymbol{X})\)。创建增强回归量集 \(\widetilde{\boldsymbol{X}}=(\boldsymbol{X}, \boldsymbol{X})\)（添加每个回归量的副本），并让 \(\left(\widehat{\beta}_{1}, \widehat{\beta}_{2}\right)\) 为 \(\boldsymbol{Y}\) 在 \(\widetilde{\boldsymbol{X}}\) 上回归的岭回归系数。用 \(\widetilde{\lambda}=\lambda / 2\) 显示 \(\widehat{\beta}_{1}=\widehat{\beta}_{2}=\frac{1}{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}+\boldsymbol{I}_{p} \widetilde{\lambda}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right)\)。

练习29.7 重复Lasso 回归的上一个问题。表明套索系数估计值 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 各自不确定，但它们的总和满足 \(\widehat{\beta}_{1}+\widehat{\beta}_{2}=\widehat{\beta}_{\text {Lasso }}\)，即 \(\boldsymbol{Y}\) 对 \(\boldsymbol{X}\) 的套索回归的系数。

练习29.8 你有连续变量\((Y, X)\)和\(X \geq 0\)，并且你想估计\(\mathbb{E}[Y \mid X]\)的回归树。一位朋友建议在变量中添加二次 \(X^{2}\) 以增加灵活性。这有道理吗？

练习29.9 采用cpsmar09数据集和亚洲女性的子样本\((n=1149)\)。估计 \(\log\)（工资）对以下变量的套索线性回归：教育；教育虚拟人等于 \(12,13,14,15,16,18\) 和 20；经验/40（1 到 9 的幂）；婚姻类别的虚拟对象已婚、离婚、分居、丧偶、从未结婚；四个区域的虚拟人；工会会员资格的虚拟人。报告估计模型和系数。

练习 29.10 使用西班牙裔男性 \((n=4547)\) 的子样本重复上述练习。