第20章: 序列回归

20 序列回归

20.1 介绍

第19章研究了核平滑方法的非参数回归。在本章中,我们研究另一类非参数方法,称为序列回归。

基本模型与第 19 章中检查的模型相同。我们假设存在随机变量 \((Y, X)\) 使得 \(\mathbb{E}\left[Y^{2}\right]<\infty\) 满足回归模型

\[ \begin{aligned} Y &=m(X)+e \\ \mathbb{E}[e \mid X] &=0 \\ \mathbb{E}\left[e^{2} \mid X\right] &=\sigma^{2}(X) . \end{aligned} \]

目标是估计 CEF \(m(x)\)。我们从简单的设置开始,其中 \(X\) 是标量,稍后考虑更一般的情况。

级数回归模型是一个序列 \(K=1,2, \ldots\),由带有 \(K\) 参数的近似模型 \(m_{K}(x)\) 组成。在本章中,我们专门关注线性级数模型,特别是多项式和样条曲线。这是因为这些方法简单、方便,涵盖了系列方法在应用经济学中的大部分应用。其他级数模型包括三角多项式、小波、正交小波、B 样条和神经网络。详细综述请参见 Chen (2007)。

线性系列回归模型采用以下形式

\[ Y=X_{K}^{\prime} \beta_{K}+e_{K} \]

其中 \(X_{K}=X_{K}(X)\) 是通过 \(X\) 变换获得的回归向量,\(\beta_{K}\) 是系数向量。系数 \(\beta_{K}\) 有多种可能的定义。我们通过投影来定义\({ }^{1}\)

\[ \beta_{K}=\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} Y\right]=\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} m(X)\right] . \]

系列回归误差 \(e_{K}\) 由 (20.2) 和 (20.3) 定义,与 (20.1) 中的回归误差 \(e\) 不同,并且由 \(K\) 索引,因为它取决于回归量 \(X_{K}\)\(m(x)\) 的级数近似为

\[ m_{K}(x)=X_{K}(x)^{\prime} \beta_{K} . \]

\({ }^{1}\) 另一种方法是将 \(\beta_{K}\) 定义为最佳均匀近似,如 (20.8) 中所示。只要我们小心地与我们的符号保持一致,这并不重要。该系数通常是通过最小二乘估计的 \({ }^{2}\)

\[ \widehat{\beta}_{K}=\left(\sum_{i=1}^{n} X_{K i} X_{K i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{K i} Y_{i}\right)=\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{Y}\right) \]

\(m(x)\) 的估计量是

\[ \widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K} . \]

具体模型之间的差异是由于\(X_{K}(x)\) 变换选择的不同而产生的。

本章将探讨的理论问题是:(1)多项式和样条的逼近性质; (2) \(m(x)\) 的一致估计; (3) 渐近正态近似; (4) \(K\)的选择; (5) 扩展。

有关序列回归的教科书处理,请参阅 Li 和 Racine (2007)。对于先进的治疗,请参见 Chen (2007)。 Andrews (1991a) 和 Newey (1997) 是两个开创性的贡献。最近的两篇重要论文是 Belloni、Chernozhukov、Chetverikov 和 Kato (2015) 以及 Chen 和 Christensen (2015)。

20.2 多项式回归

\(m(x)\) 的原型级数回归模型是 \(p^{t h}\) 阶多项式

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\cdots+\beta_{p} x^{p} . \]

我们可以用向量表示法将其写为 (20.4) 其中

\[ X_{K}(x)=\left(\begin{array}{c} 1 \\ x \\ \vdots \\ x^{p} \end{array}\right) . \]

参数数量为 \(K=p+1\)。请注意,我们通过 \(K\) 索引 \(X_{K}(x)\)\(\beta_{K}\),因为它们的维度和值随 \(K\) 变化。

随机对 \((Y, X)\) 的隐含多项式回归模型为 \((20.2)\),其中

\[ X_{K}=X_{K}(X)=\left(\begin{array}{c} 1 \\ X \\ \vdots \\ X^{p} \end{array}\right) \]

多项式回归的灵活性程度由多项式阶数 \(p\) 控制。较大的 \(p\) 会产生更灵活的模型,而较小的 \(p\) 通常会产生方差较小的估计量。

一般来说,线性系列回归模型采用以下形式

\[ m_{K}(x)=\beta_{1} \tau_{1}(x)+\beta_{2} \tau_{2}(x)+\cdots+\beta_{K} \tau_{K}(x) \]

其中函数 \(\tau_{j}(x)\) 称为基础变换。多项式回归模型使用幂基础 \(\tau_{j}(x)=x^{j-1}\)。模型 \(m_{K}(x)\) 称为级数回归,因为它是通过顺序添加一系列变量 \(\tau_{j}(x)\) 获得的。

\({ }^{2}\) 还推荐了惩罚估计器。我们在这里不回顾这些方法。

20.3 说明多项式回归

考虑 cps09mar 数据集和 \(\log (\) 工资 \()\) 对受过大学教育(教育=16)的女性经验的回归,分别针对白人女性和黑人女性。经典的 Mincer 模型使用二次经验。鉴于样本量较大(白人女性为 4682 个,黑人女性为 517 个),我们可以考虑更高阶的多项式。在图 \(20.1\) 中,我们使用 2、4、8 和 12 阶多项式绘制了 CEF 的最小二乘估计。

检查面板 (a),它显示了白人女性子样本的估计值。二次规格似乎指定错误,其形状与其他估计值明显不同。 4,8 阶多项式和 12 阶多项式之间的差异相对较小,特别是对于经验水平低于 20 的情况。

现在检查面板 (b),它显示了黑人女性子样本的估计值。该面板与面板(a)有很大不同。估计值是不稳定的,并且随着多项式阶数的增加而变得越来越不稳定。假设我们期望凹(或接近凹)的经验曲线,满足这一点的唯一估计是二次。

为什么面板(a)和(b)之间存在差异?最可能的解释是样本量不同。黑人女性的子样本的观察值要少得多,因此 CEF 的估计精度要低得多,从而导致绘图不稳定。这(非正式地)表明,在第二个子样本中最好使用较小的多项式阶数 \(p\),或者等效地当样本大小 \(n\) 较大时使用较大的 \(p\)。模型复杂性(系数 \(K\) 的数量)应随样本大小 \(n\) 变化的想法是序列回归的一个重要特征。

图 20.1(b) 中估计多项式回归的不稳定性质是高阶估计多项式回归的一个共同特征。有时可以通过第 20.5 节中描述的样条回归获得更好的结果。

  1. 白人妇女

  1. 黑人妇女

图 20.1:经验曲线的多项式估计

20.4 正交多项式

\(p\) 很大时,多项式回归的最小二乘估计器 (20.5) 的标准实现可能会返回计算错误消息。 (参见第 3.24 节。)这是因为 \(X^{j}\) 的矩在 \(j\) 上可能高度异质,并且因为变量 \(X^{j}\) 可能高度相关。这两个因素在实践中意味着矩阵 \(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\) 可能是病态的(最大与最小特征值的比率可能非常大),并且某些包将返回错误消息而不是计算 \(\widehat{\beta}_{K}\)

在大多数情况下,通过重新调整观测值可以显着改善 \(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\) 的状况。正如 \(3.24\) 节中所讨论的,非负回归量的一个简单方法是通过样本均值重新调整每个回归量的比例,例如将 \(X_{i}^{j}\) 替换为 \(X_{i}^{j} /\left(n^{-1} \sum_{i=1}^{n} X_{i}^{j}\right)\)。在应用幂之前,通过将 \(X_{i}\) 重新缩放到 \([-1,1]\) 中,通常可以获得更好的调节效果。在大多数应用中,这些方法之一足以进行条件良好的回归。

通过使用正交多项式可以获得计算上更鲁棒的实现。这些是多项式基函数的线性组合,并产生相同的回归估计量(20.6)。正交多项式的目标是产生正交或接近正交且具有相似方差的回归量,以便 \(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\) 接近具有相似对角线元素的对角线。这些正交回归量 \(X_{K}^{*}=\boldsymbol{A}_{K} X_{K}\) 可以写成原始变量 \(X_{K}\) 的线性组合。如果回归量是正交的,则通过用 \(X_{K}^{*}(x)=\boldsymbol{A}_{K} X_{K}(x)\) 替换 \(X_{K}(x)\) 来修改回归估计量 (20.6)。

一种方法是使用样本正交化。这是通过对先前正交化变量进行一系列 \(X_{i}^{j}\) 回归然后重新缩放来完成的。这将产生完全正交的变量。这是在“正交多项式”标签下的许多统计包中实现的,例如 R 中的函数 poly。如果这样做,则最小二乘系数在该特定样本之外没有任何意义,并且不方便计算\(\widehat{m}_{K}(x)\) 表示 \(x\) 的值(样本值除外)。这是上一节中介绍的示例所使用的方法。

另一种方法是使用代数正交多项式。这是一个与已知权重函数 \(w(x)\) 正交的多项式。具体来说,它是一个序列 \(p_{j}(x), j=0,1,2, \ldots\),具有 \(\int p_{j}(x) p_{\ell}(x) w(x) d x=0\) 对应 \(j \neq \ell\) 的属性。这意味着如果 \(w(x)=f(x)\)\(X\) 的边际密度,则基础变换 \(p_{j}(X)\) 将相互正交(在预期中)。由于我们现在知道 \(X\) 的密度,这在实践中是不可行的,但如果 \(w(x)\) 接近 \(w(x)\) 的密度,那么我们可以预期基础变换将接近相互正交。要实现代数正交多项式,您首先应该重新调整 \(w(x)\) 变量,使其满足权重函数 \(w(x)\) 的支持。

以下三个选择与经济应用最相关。

勒让德多项式。它们与 \([-1,1]\) 上的均匀密度正交。 (因此应该应用于缩放回归量以在 \([-1,1]\) 中获得支持。)

\[ p_{j}(x)=\frac{1}{2^{j}} \sum_{\ell=0}^{j}\left(\begin{array}{l} j \\ \ell \end{array}\right)^{2}(x-1)^{j-\ell}(x+1)^{\ell} . \]

例如,前四个是 \(p_{0}(x)=1, p_{1}(x)=x, p_{2}(x)=\left(3 x^{2}-1\right) / 2\)\(p_{3}(x)=\left(5 x^{3}-3 x\right) / 2\)。最好的计算方法是递推关系

\[ p_{j+1}(x)=\frac{(2 j+1) x p_{j}(x)-j p_{j-1}(x)}{j+1} . \]

拉盖尔多项式。它们与 \([0, \infty)\) 上的指数密度 \(e^{-x}\) 正交。 (因此,如果可能的话,应该应用于非负回归量,以具有大约单位均值和/或方差。)

\[ p_{j}(x)=\sum_{\ell=0}^{j}\left(\begin{array}{l} j \\ \ell \end{array}\right) \frac{(-x)^{\ell}}{\ell !} . \]

例如,前四个是 \(p_{0}(x)=1, p_{1}(x)=1-x, p_{2}(x)=\left(x^{2}-4 x+2\right) / 2\)\(p_{3}(x)=\left(-x^{3}+9 x^{2}-18 x+6\right) / 6\)。最好的计算方法是递推关系

\[ p_{j+1}(x)=\frac{(2 j+1-x) p_{j}(x)-j p_{j-1}(x)}{j+1} . \]

埃尔米特多项式。这些与 \((-\infty, \infty)\) 上的标准正态密度正交。 (因此应该应用于缩放为均值为零和方差为一的回归量。)

\[ p_{j}(x)=j ! \sum_{\ell=0}^{\lfloor j / 2\rfloor} \frac{(-1 / 2)^{\ell} x^{\ell-2 j}}{\ell !(j-2 \ell !)} . \]

例如,前四个是 \(p_{0}(x)=1, p_{1}(x)=x, p_{2}(x)=x^{2}-1\)\(p_{3}(x)=x^{3}-3 x\)。最好的计算方法是递推关系

\[ p_{j+1}(x)=x p_{j}(x)-j p_{j-1}(x) . \]

R 包正交多项式提供了一组方便的命令来计算许多正交多项式,包括上述多项式。

20.5 样条曲线

样条曲线是分段多项式。通常,多项式的阶数被预先选择为线性、二次或三次。模型的灵活性由多项式段的数量决定。线段之间的连接点称为结。

为了实现平滑性和简约性,通常将样条函数限制为具有高达样条阶数的连续导数。因此,线性样条被约束为连续,二次样条被约束为具有连续的一阶导数,三次样条被约束为具有连续的一阶和二阶导数。

构造回归样条的简单方法如下。具有一个结 \(\tau\) 的线性样条是

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2}(x-\tau) \mathbb{1}\{x \geq \tau\} . \]

要查看这是一个线性样条曲线,请观察对于 \(x \leq \tau\),函数 \(m_{K}(x)=\beta_{0}+\beta_{1} x\) 与斜率 \(\beta_{1}\) 呈线性关系;对于 \(x \geq \tau\),函数 \(m_{K}(x)\) 与斜率 \(\beta_{1}+\beta_{2}\) 呈线性关系;并且函数在 \(x=\tau\) 处连续。请注意,\(\beta_{2}\)\(\tau\) 处斜率的变化。具有两个节点 \(x \leq \tau\) 的线性样条是

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2}\left(x-\tau_{1}\right) \mathbb{1}\left\{x \geq \tau_{2}\right\}+\beta_{3}\left(x-\tau_{2}\right) \mathbb{1}\left\{x \geq \tau_{2}\right\} . \]

具有一个结的二次样条是

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\beta_{3}(x-\tau)^{2} \mathbb{1}\{x \geq \tau\} . \]

要看出这是一个二次样条曲线,请观察 \(x \leq \tau\) 的函数是具有二阶导数 \(m_{K}^{\prime \prime}(\tau)=2 \beta_{2}\) 的二次 \(\beta_{0}+\beta_{1} x+\beta_{2} x^{2}\);对于 \(x \geq \tau\),二阶导数是 \(m_{K}^{\prime \prime}(\tau)=2\left(\beta_{2}+\beta_{3}\right)\);所以 \(2 \beta_{3}\)\(\tau\) 处二阶导数的变化。 \(x=\tau\) 处的一阶导数是连续函数 \(m_{K}^{\prime}(\tau)=\) \(x \leq \tau\)

一般来说,带有 \(N\)\(\tau_{1}<\tau_{2}<\cdots<\tau_{N}\)\(p^{t h}\) 阶样条线是

\[ m_{K}(x)=\sum_{j=0}^{p} \beta_{j} x^{j}+\sum_{k=1}^{N} \beta_{p+k}\left(x-\tau_{k}\right)^{p} \mathbb{1}\left\{x \geq \tau_{k}\right\} \]

其中有 \(K=N+p+1\) 系数。

随机对 \((Y, X)\) 的隐含样条回归模型为 \((20.2)\),其中

\[ X_{K}=X_{K}(X)=\left(\begin{array}{c} 1 \\ X \\ \vdots \\ X^{p} \\ \left(X-\tau_{1}\right)^{p} \mathbb{1}\left\{X \geq \tau_{1}\right\} \\ \vdots \\ \left(X-\tau_{N}\right)^{p} \mathbb{1}\left\{X \geq \tau_{N}\right\} \end{array}\right) . \]

实际上,样条曲线主要取决于节点 \(\tau_{k}\) 的选择。当 \(X\) 受到近似均匀分布的限制时,通常均匀地间隔节点,以便所有线段具有相同的长度。当 \(X\) 的分布不均匀时,另一种方法是在分位数 \(j /(N+1)\) 处设置结,以便各段之间的概率质量相等。第三种选择是将结设置在 \(m(x)\) 曲率变化最大的点处(参见 Schumaker (2007),第 7 章)。在所有情况下,结集 \(\tau_{j}\) 都可以随 \(K\) 变化。因此,样条曲线是近似形式的特例

\[ m_{K}(x)=\beta_{1} \tau_{1 K}(x)+\beta_{2} \tau_{2 K}(x)+\cdots+\beta_{K} \tau_{K K}(x) \]

其中基础变换 \(\tau_{j K}(x)\) 取决于 \(j\)\(K\)。许多作者将这种近似称为筛而不是级数,因为基础变换随着 \(K\) 的变化而变化。这种区别对我们的处理并不重要,因此为了简单起见,我们将样条称为系列回归模型。

20.6 说明样条回归

\(20.3\) 节中,我们说明了受过大学教育的白人和黑人女性的经验对数(工资)的回归。现在我们考虑对受过大学教育的黑人进行类似的回归,这是一个包含 394 个观察值的子样本。

我们在经验水平为 \(10,20,30\) 和 40 时使用具有四个结的二次样条。这是一个具有七个系数的回归模型。估计的回归函数如图 \(20.2(\mathrm{a})\) 所示。还显示估计的 \(6^{\text {th }}\) 阶多项式回归以进行比较(\(6^{\text {th }}\) 阶多项式是适当的比较,因为它也有七个系数)。

虽然样条曲线在每个段上都是二次方,但您可以看到前两个段(0-10 年和 10-20 年之间的经验水平)基本上是线性的。大多数曲率发生在第三和第四段(20-30 和 30-40 年),其中估计的回归函数达到峰值并扭转为负斜率。估计的回归函数是平滑的。

当需要如图 20.2(a) 所示的平滑度时,二次或三次样条很有用。相反,当需要允许斜率急剧变化时,线性样条很有用。

为了说明这一点,我们考虑数据集 CHJ2004,它是 Cox、B. E. Hansen 和 Jimenez (2004) 的 8684 个城市菲律宾家庭的样本。本文研究了挤出效应

  1. 经验简介

  1. 收入对转移的影响

图 20.2:样条回归估计

非政府(例如大家庭)收入转移的家庭收入 \({ }^{3}\)。利他转移模型预测,当受赠家庭的收入足够低时,大家庭将提供礼物(转移),但如果受赠家庭的收入超过阈值,则不会进行转移。纯粹的利他模型预测,家庭收入转移的回归在达到此阈值时应具有 \(-1\) 的斜率,并在高于此阈值时保持平坦。我们使用结点为 10000、20000、50000、100000 和 150000 比索的线性样条来估计此回归(包括与作者 \({ }^{4}\) 相同的控制)。选择这些结是为了为有更多观察结果的低收入水平提供灵活性。该模型共有 22 个系数。

估计的回归函数(作为家庭收入的函数)如图 \(20.2\) (b) 所示。对于前两个部分(收入水平低于 20000 比索),回归函数呈负斜率,正如预测的那样,从 0 到 10000 比索的斜率约为 \(-0.7\),从 10000 比索到 20000 比索的斜率约为 \(-0.3\)。对于收入水平高于 20000 比索的情况,估计回归函数实际上是平坦的。这种形状与纯粹利他主义模型是一致的。线性样条模型特别适合此应用,因为它允许斜率的不连续变化。

Card、Lee、Pei 和 Weber (2015) 最近通过标签回归扭结设计推广了具有单结的线性样条模型。

20.7 系列回归的全局/局部性质

回想一下 \(19.18\) 节,我们将核回归描述为本质上是局部的。 CEF \(m(x)\) 的 Nadaraya-Watson、局部线性和局部多项式估计量是 \(X_{i}\) 接近 \(x\) 的观测值的 \(Y_{i}\) 的加权平均值。

\({ }^{3}\) 定义为国内、国外收到的转移以及实物(减去礼物)的总和。

\({ }^{4}\) 控制项为:户主年龄、教育程度(5 个虚拟类别)、已婚、女性、已婚女性、子女数量(3 个虚拟)、家庭规模、就业状况(2 个虚拟)。相反,序列回归通常被描述为全局性的。估计器 \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 是整个样本的函数。拟合多项式(或样条曲线)的系数受函数 \(m(x)\) 的全局形状影响,从而影响任意点 \(x\) 的估计器 \(\widehat{m}_{K}(x)\)

虽然这个描述有一些优点,但它并不是一个完整的描述。正如我们现在所展示的,级数回归估计器具有核回归的局部平滑特性。随着级数项 \(K\) 数量的增加,级数估计器 \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 也成为局部加权平均估计器。

为了看到这一点,观察我们可以将估计器写为

\[ \begin{aligned} \widehat{m}_{K}(x) &=X_{K}(x)^{\prime}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{Y}\right) \\ &=\frac{1}{n} \sum_{i=1}^{n} X_{K}(x)^{\prime} \widehat{\boldsymbol{Q}}_{K}^{-1} X_{K}\left(X_{i}\right) Y_{i} \\ &=\frac{1}{n} \sum_{i=1}^{n} \widehat{w}_{K}\left(x, X_{i}\right) Y_{i} \end{aligned} \]

其中 \(\widehat{\boldsymbol{Q}}_{K}=n^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\)\(\widehat{w}_{K}(x, u)=x_{K}(x)^{\prime} \widehat{\boldsymbol{Q}}_{K}^{-1} x_{K}(u)\)。因此,\(\widehat{m}_{K}(x)\) 是使用权重 \(\widehat{w}_{K}\left(x, X_{i}\right)\)\(Y_{i}\) 的加权平均值。权重函数 \(\widehat{w}_{K}\left(x, X_{i}\right)\) 似乎在 \(X_{i}=x\) 处最大化,因此 \(\widehat{m}(x)\)\(X_{i}\) 接近 \(\widehat{\boldsymbol{Q}}_{K}=n^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\) 的观测值赋予更多权重,与核回归类似。

(一)\(x=0.5\)

  1. \(x=0.25\)

图 20.3:多项式权重函数的核表示

为了更准确地看到这一点,请观察到,由于 \(\widehat{\boldsymbol{Q}}_{K}\) 在大样本中将接近 \(\boldsymbol{Q}_{K}=\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]\),因此 \(\widehat{w}_{K}(x, u)\) 将接近确定性权重函数

\[ w_{K}(x, u)=X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}(u) . \]

\(X \sim U[0,1]\) 为例。在图 \(20.3\) 中,我们在面板 ( a) 和 \(p=4\), 面板 (b) 中的 12。首先,检查面板 (a)。在这里您可以看到权重函数 \(X \sim U[0,1]\)\(X \sim U[0,1]\) 中关于 \(X \sim U[0,1]\) 对称。对于 \(X \sim U[0,1]\),权重函数看起来类似于 \(X \sim U[0,1]\) 中的二次函数,并且随着 \(X \sim U[0,1]\) 的增加,权重函数将其主要权重集中在 \(X \sim U[0,1]\) 周围。然而,权重函数不是非负的。它在形状上与所谓的高阶(或减少偏差)内核非常相似,后者在前一章中没有讨论,但属于内核估计工具包的一部分。其次,检查面板 (b)。权重函数再次在 \(X \sim U[0,1]\) 处最大化,但现在它在 \(X \sim U[0,1]\) 中关于点 \(X \sim U[0,1]\) 不对称。尽管如此,图 (a) 的一般特征仍然延续到图 (b)。也就是说,随着 \(20.3\) 的增加,多项式估计器将最大权重放在 \(20.3\) 接近 \(20.3\) 的观测值上(正如核回归一样),但与传统的核回归不同,因为权重函数不是非非-消极的。样条回归获得了定性相似的图。

很少有正式的理论(据我所知)可以在级数回归和核回归之间建立正式的联系,因此这里提出的评论是说明性的 \({ }^{5}\)。然而,关键是“级数回归是一种全局方法;核回归是一种局部方法”形式的陈述可能并不完整。当 \(h\) 较大(核)或 \(K\) 小(级数)时,两者本质上都是全局的;而当 \(h\) 小(核)或 \(K\) 大(级数)时,两者本质上都是局部的。

20.8 斯通-韦尔斯特拉斯和杰克逊近似理论

良好的级数近似 \(m_{K}(x)\) 具有这样的特性:随着复杂性 \(K\) 的增加,它会接近真实的 CEF \(m(x)\)。形式陈述可以从函数逼近的数学理论中导出。

一个优雅且著名的定理是 Stone-Weierstrass 定理(Weierstrass,1885;Stone,1948),该定理指出任何连续函数都可以通过足够高阶的多项式一致地很好地近似。具体来说,该定理指出,如果 \(m(x)\) 在紧集 \(S\) 上连续,那么对于任何 \(\epsilon>0\) ,都有一些足够大的 \(K\) 使得

\[ \inf _{\beta} \sup _{x \in S}\left|m(x)-X_{K}(x)^{\prime} \beta\right| \leq \epsilon . \]

因此,通过选择合适的多项式,可以任意很好地近似真实的未知数 \(m(x)\)

Jackson (1912) 强化了这一结果,给出了取决于 \(m(x)\) 平滑度的收敛率。基本结果已扩展到样条函数。下面的符号将会很有用。将 (20.7) 的左侧最小化的 \(\beta\) 定义为

\[ \beta_{K}^{*}=\underset{\beta}{\operatorname{argmin}} \sup _{x \in S}\left|m(x)-X_{K}(x)^{\prime} \beta\right|, \]

定义近似误差

\[ r_{K}^{*}(x)=m(x)-X_{K}(x)^{\prime} \beta_{K}^{*}, \]

并定义 (20.7) 的最小值

\[ \delta_{K}^{*} \stackrel{\text { def }}{=} \inf _{\beta} \sup _{x \in S}\left|m(x)-X_{K}(x)^{\prime} \beta\right|=\sup _{x \in S}\left|m(x)-X_{K}(x)^{\prime} \beta_{K}^{*}\right|=\sup _{x \in S}\left|r_{K}^{*}(x)\right| . \]

\({ }^{5}\) Chen、Liao 和 Sun (2012) 的附录中也有类似的联系。定理 20.1 如果对于某些 \(\alpha \geq 0, m^{(\alpha)}(x)\) 在紧集 \(S\) 上均匀连续,并且 \(X_{K}(x)\)\(s \geq \alpha\) 阶的多项式基或样条基(具有均匀的结间距),则 \(K \rightarrow \infty\)

\[ \delta_{K}^{*} \leq o\left(K^{-\alpha}\right) . \]

此外,如果 \(m^{(2)}(x)\)\(S\) 上一致连续并且 \(X_{K}(x)\) 是线性样条基础,则 \(\delta_{K}^{*} \leq O\left(K^{-2}\right)\)

有关多项式情况的证明,请参阅 Lorentz (1986) 的定理 \(4.3\) 或 Schumaker (2007) 的定理 \(3.12\) 以及他的方程 (2.119) 和 (2.121)。对于样条情况,请参见 Schumaker (2007) 的定理 \(6.27\) 以及他的方程 (2.119) 和 (2.121)。对于线性样条情况,请参见 Schumaker 的定理 \(6.15\),方程 (6.28)。

定理 \(20.1\) 比经典的 Stone-Weierstrass 定理更有用,因为它给出的近似率取决于平滑阶 \(\alpha\)。 (20.11) 中的速率 \(o\left(K^{-\alpha}\right)\) 意味着近似误差 (20.10) 随着 \(K\) 的增加而减小,并且当 \(\alpha\) 较大时以更快的速率减小。标准解释是,当 \(m(x)\) 更平滑时,可以用更少的项来近似它。

事实证明,对于我们的分布理论来说,考虑 \(m^{(2)}(x)\) 一致连续的情况就足够了。对于这种情况,定理 \(20.1\) 显示多项式和二次/三次样条达到 \(o\left(K^{-2}\right)\) 的速率,而线性样条达到 \(O\left(K^{-2}\right)\) 的速率。对于我们的大多数结果来说,后一个界限就足够了。

更一般地说,定理 \(20.1\) 对多项式和样条曲线进行了区分,因为多项式自适应地达到速率 \(o\left(K^{-\alpha}\right)\)(无需用户输入),而样条曲线仅在适当选择样条阶数 \(s\) 时才达到速率 \(o\left(K^{-\alpha}\right)\)。这是多项式的一个优点。然而,正如 Schumaker (2007) 所强调的那样,样条曲线同时近似于 \(q<\) \(\alpha\) 的导数 \(m^{(q)}(x)\)。因此,例如,二次样条同时近似函数 \(m(x)\) 及其一阶导数 \(m^{\prime}(x)\)。多项式没有可比较的结果。这是二次和三次样条的一个优点。由于经济学家通常对边际效应(导数)比对水平更感兴趣,这可能是更喜欢样条而不是多项式的一个很好的理由。

定理 \(20.1\) 是最佳均匀近似误差的界限。然而,最小化 (20.11) 的系数 \(\beta_{K}^{*}\) 并不是 (20.3) 中定义的投影系数 \(\beta_{K}\)。因此,定理 \(20.1\) 并没有直接告诉我们有关级数回归获得的近似误差的信息。然而,事实证明,投影误差可以很容易地从(20.11)中推导出来。

定义20.1 投影近似误差为

\[ r_{K}(x)=m(x)-X_{K}(x)^{\prime} \beta_{K} \]

其中系数 \(\beta_{K}\) 是投影系数 (20.3)。实现的投影近似误差为 \(r_{K}=r_{K}(X)\)。预期的平方投影误差为

\[ \delta_{K}^{2}=\mathbb{E}\left[r_{K}^{2}\right] . \]

投影近似误差与 (20.9) 类似,但使用投影系数而不是最小化系数 \(\beta_{K}^{*}\) (20.8) 进行评估。假设 \(X\) 具有紧凑支持 \(S\),预期平方投影误差满足

\[ \begin{aligned} \delta_{K} &=\left(\int_{S}\left(m(x)-X_{K}(x)^{\prime} \beta_{K}\right)^{2} d F(x)\right)^{1 / 2} \\ & \leq\left(\int_{S}\left(m(x)-X_{K}(x)^{\prime} \beta_{K}^{*}\right)^{2} d F(x)\right)^{1 / 2} \\ & \leq\left(\int_{S} \delta_{K}^{* 2} d F(x)\right)^{1 / 2} \\ &=\delta_{K}^{*} . \end{aligned} \]

第一个不等式成立,因为投影系数 \(\beta_{K}\) 最小化了预期平方投影误差(参见第 2.25 节)。第二个不等式是 \(\delta_{K}^{*}\) 的定义。结合定理\(20.1\)我们得出以下结果。

定理 \(20.2\) 如果 \(X\) 具有紧支持 \(S\),对于某些 \(\alpha \geq 0 m^{(\alpha)}(x)\)\(S\) 上一致连续,并且 \(X_{K}(x)\) 是阶 \(s \geq \alpha\) 的多项式基或样条基,则 \(数学8\)

\[ \delta_{K} \leq \delta_{K}^{*} \leq o\left(K^{-\alpha}\right) . \]

此外,如果 \(m^{(2)}(x)\)\(S\) 上一致连续并且 \(X_{K}(x)\) 是线性样条基础,则 \(\delta_{K} \leq O\left(K^{-2}\right)\)

可用的函数逼近理论超出了此处描述的结果。例如,有一个加权多项式逼近理论(Mhaskar,1996),当 \(X\) 具有指数尾部密度时,该理论为无界实线提供了定理 \(20.2\) 的模拟。

20.9 回归量界

定理 \(20.2\) 中的近似结果假设回归量 \(X\) 具有有限支持 \(S\)。这是传统的串联回归理论,因为它大大简化了分析。有界支持意味着回归函数 \(X_{K}(x)\) 是有界的。定义

\[ \begin{gathered} \zeta_{K}(x)=\left(X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}(x)\right)^{1 / 2} \\ \zeta_{K}=\sup _{x} \zeta_{K}(x) \end{gathered} \]

其中 \(\boldsymbol{Q}_{K}=\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]\) 是给定回归量 \(X_{K}\) 的总体设计矩阵。这意味着对于 \(X_{K}\) 的所有实现

\[ \left(X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{1 / 2} \leq \zeta_{K} . \]

常数 \(\zeta_{K}(x)\) 是回归向量 \(X_{K}(x)\) 的归一化长度。常数 \(\zeta_{K}\) 是最大标准化长度。它们的值由基函数变换和 \(X\) 的分布决定。它们对于重新缩放 \(X_{K}\) 或线性旋转是不变的。

对于多项式和样条曲线,我们有明确的表达式来表示 \(\zeta_{K}\)\(K\) 增长的速率。定理 20.3 如果 \(X\)\(S\) 上具有紧致支持 \(S\),并且具有严格正密度 \(f(x)\),则

  1. \(\zeta_{K} \leq O(K)\) 用于多项式

  2. \(\zeta_{K} \leq O\left(K^{1 / 2}\right)\) 用于样条线。

有关定理 \(20.3\) 的证明,请参阅 Newey (1997, 定理 4)。

此外,当 \(X\) 均匀分布时,我们可以显式计算 \(\zeta_{K}=K\) 的多项式,因此无法改进多项式边界 \(\zeta_{K} \leq O(K)\)

为了说明这一点,我们在图 \(20.4\) 中绘制了案例 \(X \sim U[0,1]\) 的值 \(\zeta_{K}(x)\)。我们为 \(p=9\) 次数的多项式和带有 \(N=7\) 结的二次样条绘制 \(\zeta_{K}(x)\) (均满足 \(K=10\) )。您可以看到,对于基础变换和 \(x\) 的大多数值,\(\zeta_{K}(x)\) 的值都接近 3,但在边界附近,\(20.4\)\(20.4\) 急剧增加。多项式的最大值为 \(20.4\),二次样条的最大值为 \(20.4\)。虽然定理 \(20.4\) 显示两者对于较大的 \(20.4\) 具有不同的比率,但我们发现对于中等的 \(20.4\) ,差异相对较小。

图 20.4:归一化回归量长度

20.10 矩阵收敛

开发最小二乘估计理论时出现的挑战之一是如何描述样本设计矩阵的大样本行为

\[ \widehat{\boldsymbol{Q}}_{K}=\frac{1}{n} \sum_{i=1}^{n} X_{K i} X_{K i}^{\prime} \]

作为 \(K \rightarrow \infty\)。困难在于它的维度随 \(K\) 变化,因此我们无法应用标准 WLLN。

如果我们首先旋转回归向量以使元素在期望中正交,结果会很方便。因此,我们将标准化回归量和设计矩阵定义为

\[ \begin{aligned} \widetilde{X}_{K i} &=\boldsymbol{Q}_{K}^{-1 / 2} X_{K i} \\ \widetilde{\boldsymbol{Q}}_{K} &=\frac{1}{n} \sum_{i=1}^{n} \widetilde{X}_{K i} \widetilde{X}_{K i}^{\prime} . \end{aligned} \]

请注意 \(\mathbb{E}\left[\widetilde{X}_{K} \widetilde{X}_{K}^{\prime}\right]=\boldsymbol{I}_{K}\)。标准化回归量并未在实践中使用;引入它们只是为了简化理论推导。

我们的收敛理论将需要系数 \(K\) 数量的以下基本速率限制。

假设 $20.1

1.\(\lambda_{\min }\left(\boldsymbol{Q}_{K}\right) \geq \underline{\lambda}>0\)

  1. \(\zeta_{K}^{2} \log (K) / n \rightarrow 0\)\(n, K \rightarrow \infty\)

假设 20.1.1 确保变换 (20.18) 是明确定义的 \({ }^{6}\)。假设 20.1.2 表明平方最大回归量长度 \(\zeta_{K}^{2}\) 的增长速度慢于 \(n\)。由于 \(\zeta_{K}\)\(K\) 增加,因此 \(K\)\(n\) 增加的速率受到限制。根据定理 \(20.2\),假设 \(20.1 .2\) 中的比率对于多项式(如果 \({ }^{6}\))成立,对于样条曲线(如果 \({ }^{6}\))成立。无论哪种情况,这都意味着系数 \({ }^{6}\) 的数量增长速度低于 \({ }^{6}\)

我们现在可以描述标准化设计矩阵的收敛结果。以下是 Belloni、Chernozhukov、Chetverikov 和 Kato (2015) 的引理 \(6.2\)

定理 \(20.4\) 如果假设 \(20.1\) 成立,则

\[ \left\|\widetilde{\boldsymbol{Q}}_{K}-\boldsymbol{I}_{K}\right\| \stackrel{p}{\longrightarrow} 0 . \]

使用比假设 \(20.1\) 更强的条件来证明定理 \(20.4\) 可以在第 20.31 节中找到。 (20.19) 中的范数是谱范数

\[ \|\boldsymbol{A}\|=\left(\lambda_{\max }\left(\boldsymbol{A}^{\prime} \boldsymbol{A}\right)\right)^{1 / 2} \]

\({ }^{6}\) 从技术上讲,需要的是 \(\lambda_{\min }\left(\boldsymbol{B}_{K} \boldsymbol{Q}_{K} \boldsymbol{B}_{K}^{\prime}\right) \geq \underline{\lambda}>0\) 对于某些 \(K \times K\) 矩阵序列 \(\boldsymbol{B}_{K}\),或者等效地,假设 20.1.1 在用 \(\boldsymbol{B}_{K} X_{K}\) 替换 \(X_{K}\) 后成立。其中 \(\lambda_{\max }(\boldsymbol{B})\) 表示矩阵 \(\boldsymbol{B}\) 的最大特征值。有关完整说明,请参阅第 A.23 节。

对于最小二乘估计量来说,特别重要的是样本设计矩阵的逆。幸运的是,当回归量按所述正交化时,我们可以轻松地从 (20.19) 推断出其逆的一致性。

定理 20.5 如果假设 \(20.1\) 成立,则

\[ \left\|\widetilde{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{I}_{K}\right\| \stackrel{p}{\longrightarrow} 0 \]

\[ \lambda_{\max }\left(\widetilde{\boldsymbol{Q}}_{K}^{-1}\right)=1 / \lambda_{\min }\left(\widetilde{\boldsymbol{Q}}_{K}\right) \stackrel{p}{\longrightarrow} 1 . \]

定理 \(20.5\) 的证明可以在 \(20.31\) 节中找到。

20.11 一致的估计

在本节中,我们给出级数估计器 \(\widehat{m}_{K}(x)=\) \(X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 一致估计 \(m(x)\) 的条件。

我们从标准回归理论知道,对于任何固定的 \(K, \widehat{\beta}_{K} \stackrel{p}{\rightarrow} \beta_{K}\) ,因此 \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K} \stackrel{p}{\rightarrow}\) \(X_{K}(x)^{\prime} \beta_{K}\)\(n \rightarrow \infty\) 相同。此外,根据 Stone-Weierstrass 定理,我们知道 \(X_{K}(x)^{\prime} \beta_{K} \rightarrow m(x)\)\(K \rightarrow \infty\) 相同。因此,预期 \(\hat{m}_{K}(x) \stackrel{p}{\longrightarrow} m(x)\) 既是 \(n \rightarrow \infty\) 又是 \(K \rightarrow \infty\) 似乎是合理的。然而,使这一论点变得严格在技术上具有挑战性,部分原因是 \(K, \widehat{\beta}_{K} \stackrel{p}{\rightarrow} \beta_{K}\) 及其组件的尺寸随着 \(K, \widehat{\beta}_{K} \stackrel{p}{\rightarrow} \beta_{K}\) 的变化而变化。

由于 \(\widehat{m}_{K}(x)\)\(m(x)\) 是函数,因此应根据适当的度量来定义收敛性。对于核回归,我们专注于逐点收敛(分别针对 \(x\) 的每个值),因为这是最容易分析的。对于级数回归,事实证明,描述积分平方误差 (ISE) 的收敛性是最简单的。我们将后者定义为

\[ \operatorname{ISE}(K)=\int\left(\widehat{m}_{K}(x)-m(x)\right)^{2} d F(x) \]

其中 \(F\)\(X\) 的边际分布。 ISE \((K)\)\(\widehat{m}_{K}(x)\)\(m(x)\) 之间的平均平方距离,由 \(X\) 的边际分布加权。 ISE 是随机的,取决于样本大小 \(n\) 和模型复杂度 \(K\),其分布由 \((Y, X)\) 的联合分布决定。我们可以建立以下内容。

定理20.6 假设\(20.1\)\(\delta_{K}=o(1)\),则为\(n, K \rightarrow \infty\)

\[ \operatorname{ISE}(K)=o_{p}(1) . \]

定理 \(20.6\) 的证明可以在 \(20.31\) 节中找到。

定理 \(20.6\) 表明,在温和条件下,级数估计器 \(\hat{m}_{K}(x)\) 在 ISE 范数中是一致的。如果 \(K \rightarrow \infty\)\(m(x)\) 一致连续,则假设 \(\delta_{K}=o(1)\) 对于多项式和样条成立。该结果类似于定理 \(19.8\),该定理表明如果 \(m(x)\) 连续,则核回归估计器是一致的。

20.12 收敛率

我们现在给出一个收敛速度。

定理20.7 假设\(20.1\)\(\sigma^{2}(x) \leq \bar{\sigma}^{2}<\infty\),则为\(n, K \rightarrow \infty\)

\[ \operatorname{ISE}(K) \leq O_{p}\left(\delta_{K}^{2}+\frac{K}{n}\right) \]

其中 \(\delta_{K}^{2}\) 是预期的平方预测误差 (20.13)。此外,如果 \(m^{\prime \prime}(x)\) 是一致连续的,那么对于多项式或样条基函数

\[ \operatorname{ISE}(K) \leq O_{p}\left(K^{-4}+\frac{K}{n}\right) . \]

定理 \(20.7\) 的证明可以在第 20.31 节中找到。它基于 Newey (1997)。

界限 (20.25) 特别有用,因为它给出了以 \(K\)\(n\) 表示的明确比率。结果表明,积分平方误差的概率受两项限制。第一个 \(K^{-4}\) 是平方偏差。第二个 \(K / n\) 是估计方差。这类似于内核回归的 AIMSE (19.5)。我们可以看到,增加级数项 \(K\) 的数量会通过减少偏差但增加方差来影响积分平方误差。估计方差的阶数为 \(K / n\),这一事实可以通过回归模型估计 \(K\) 系数这一事实来直观地解释。

对于多项式和二次样条,边界 (20.25) 可以写为 \(o_{p}\left(K^{-4}\right)+O_{p}(K / n)\)

我们对序列 \(K\) 感兴趣,它最小化了 (20.25) 中的权衡。通过检查一阶条件,我们发现最小化此界限的序列是 \(K \sim n^{1 / 5}\)。通过这种选择,我们获得了最佳积分平方误差 \(\operatorname{ISE}(K) \leq O_{p}\left(n^{-4 / 5}\right)\)。这与在类似假设下通过核回归获得的收敛速度相同。

将系列回归的最优速率 \(K \sim n^{1 / 5}\) 与核回归的最优速率 \(h \sim n^{-1 / 5}\) 进行对比是很有趣的。本质上,我们可以将级数回归中的 \(K^{-1}\) 视为类似于核回归的“带宽”,或者可以将核回归中的 \(1 / h\) 视为系数的有效数量。

比率 \(K \sim n^{1 / 5}\) 意味着最优 \(K\) 随着样本大小的增加非常缓慢。例如,样本量加倍意味着最佳系数数量 \(K\) 增加 \(15 %\)。要获得最佳系数数量加倍,您需要将样本大小乘以 32。

为了说明这一点,图 \(20.5\) 将 ISE 速率界限 \(K^{-4}+K / n\) 显示为 \(n=10,30,150\)\(K\) 的函数。实心圆圈标记 ISE 最小化 \(K\),这三个函数分别是 \(K=2\)、3 和 4。请注意,对于较小的 \(K\),ISE 函数急剧向下倾斜,对于较大的 \(K\)(当 \(n\) 较大时),ISE 函数几乎持平。这是因为偏差项 \(20.5\)\(20.5\) 的小值中占主导地位,而方差项 \(20.5\)\(20.5\) 的大值中占主导地位,并且后者随着 \(20.5\) 的增加而变平。

20.13 渐近正态性

采用参数 \(\theta=a(m)\),它是回归函数的实值线性函数。这包括给定点 \(x\) 处的回归函数 \(m(x)\)\(m(x)\) 的导数以及 \(m(x)\) 上的积分。给定 \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 作为 \(m(x)\) 的估计器,对于某些 \(\theta=a(m)\) 常量向量 \(\theta=a(m)\)\(\theta\) 的估计器是 \(\widehat{\theta}_{K}=a\left(\widehat{m}_{K}\right)=a_{K}^{\prime} \widehat{\beta}_{K}\)。 (关系 \(\theta=a(m)\) 如下,因为 \(\theta=a(m)\)\(\theta=a(m)\) 中是线性的,而 \(\theta=a(m)\)\(\theta=a(m)\) 中是线性的。)

图 20.5:积分平方误差

如果 \(K\) 固定为 \(n \rightarrow \infty\),那么根据标准渐近理论,我们预计 \(\widehat{\theta}_{K}\) 是渐近正态的,方差为 \(V_{K}=a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} \Omega_{K} \boldsymbol{Q}_{K}^{-1} a_{K}\),其中 \(\Omega_{K}=\mathbb{E}\left[X_{K} X_{K}^{\prime} e^{2}\right]\)。然而,标准论证在非参数情况下无效。部分原因是 \(V_{K}\) 可能与 \(K \rightarrow \infty\) 不同,部分原因是近似误差导致有限样本偏差。因此需要一个新的理论。有趣的是,事实证明,在非参数情况下,\(\widehat{\theta}_{K}\) 仍然是渐近正态的,而 \(V_{K}\) 仍然是 \(K\) 的适当方差。证明与参数情况不同,因为矩阵的维数随着 \(K\) 的增加而增加,并且我们需要注意由于级数近似而导致的估计器偏差。

假设 20.2.1 是条件平方可积。这意味着条件方差 \(\mathbb{E}\left[e^{2} \mid X\right]\) 是有界的。它用于验证 CLT 的 Lindeberg 条件。假设 20.2.2 表明条件方差不会退化。因此,不存在 \(X\) 可以完全预测 \(Y\) 的情况。这是用于从下面约束 \(V_{K}\) 的技术条件。

假设 20.2.3 表明近似误差 \(\delta_{K}\) 比最大回归量长度 \(\zeta_{K}\) 下降得更快。对于多项式,此假设的充分条件是 \(m^{\prime \prime}(x)\) 是一致连续的。对于样条曲线,充分条件是 \(m^{\prime}(x)\) 一致连续。

定理 20.8 在假设 20.2 下,作为 \(n \rightarrow \infty\)

\[ \frac{\sqrt{n}\left(\widehat{\theta}_{K}-\theta+a\left(r_{K}\right)\right)}{V_{K}^{1 / 2}} \underset{d}{\longrightarrow} \mathrm{N}(0,1) . \]

定理 \(20.8\) 的证明可以在 \(20.31\) 节中找到。

定理 \(20.8\) 表明估计量 \(\widehat{\theta}_{K}\) 在偏差 \(-a\left(r_{K}\right)\) 和方差 \(V_{K} / n\) 下近似正态。方差与参数情况下的方差相同。渐近偏差与核回归中的渐近偏差类似。

定理 \(20.8\) 的一个有用信息是,\(\widehat{\theta}_{K}\) 的经典方差公式 \(V_{K}\) 适用于级数回归。这证明了 \(V_{K}\) 的传统估计器是合理的,这将在 \(20.18\) 节中讨论。

定理 \(20.8\) 表明估计器 \(\widehat{\theta}_{K}\) 存在偏差 \(a\left(r_{K}\right)\)。这是什么?它与函数 \(r_{K}(x)\) 的变换与回归函数 \(m(x)\)\(\theta=a(m)\) 相同。例如,如果 \(\theta=m(x)\) 是固定点 \(x\) 处的回归,则 \(a\left(r_{K}\right)=r_{K}(x)\) 是同一点处的近似误差。如果 \(20.8\) 是回归导数,则 \(20.8\) 是近似误差的导数。

这意味着定理 \(20.8\) 中显示的 \(\theta\) 的估计器 \(\widehat{\theta}_{K}\) 的偏差只是由感兴趣的函数转换的近似误差。如果我们估计回归函数,那么偏差就是逼近回归函数的误差;如果我们估计回归导数,那么偏差就是回归函数近似误差中导数的误差。

20.14 回归估计

线性估计器的一个特殊但重要的例子是固定点 \(x\) 处的回归函数。在上一节的符号中,\(a(m)=m(x)\)\(a_{K}=X_{K}(x)\)\(m(x)\) 的级数估计器是 \(\widehat{\theta}_{K}=\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\)。由于这是一个令人感兴趣的关键问题,我们重申该估计量定理 \(20.8\) 的渐近结果。

定理 20.9 在假设 20.2 下,作为 \(n \rightarrow \infty\)

\[ \frac{\sqrt{n}\left(\hat{m}_{K}(x)-m(x)+r_{K}(x)\right)}{V_{K}^{1 / 2}(x)} \underset{d}{\longrightarrow} \mathrm{N}(0,1) \]

其中 \(V_{K}(x)=X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} \Omega_{K} \boldsymbol{Q}_{K}^{-1} X_{K}(x)\).

渐近分布 (20.27) 有几个重要特征。

首先,如上一节所述,它表明经典方差公式 \(V_{K}(x)\) 适用于级数估计器 \(\widehat{m}_{K}(x)\)。其次,(20.27) 表明估计量具有渐近偏差 \(r_{K}(x)\)。这是因为有限阶序列是未知回归函数 \(m(x)\) 的近似,这会导致有限样本偏差。

定理 \(20.9\) 的渐近方差与 (20.15) 的回归长度 \(\zeta_{K}(x)\) 之间还有另一个令人着迷的联系。在条件同方差下,我们得到简化 \(V_{K}(x)=\sigma^{2} \zeta_{K}(x)^{2}\)。因此,回归估计器的渐近方差与回归长度的平方成正比。从图 \(20.4\) 中,我们了解到回归长度 \(\zeta_{K}(x)\) 在回归量的支持边缘处要高得多,尤其是对于多项式。这意味着系列回归估计器的精度在支持边缘处显着降低。

20.15 欠平滑

定理 \(20.9\) 的一个令人不快的方面是偏差项。一个有趣的技巧是,如果我们假设 \(K\) 以足够快的速度随 \(n\) 增加,则可以使该偏差项渐近忽略不计。

定理 20.10 在假设 20.2 下,如果另外加上 \(n \delta_{K}^{* 2} \rightarrow 0\)

\[ \frac{\sqrt{n}\left(\widehat{m}_{K}(x)-m(x)\right)}{V_{K}^{1 / 2}(x)} \underset{d}{\longrightarrow} \mathrm{N}(0,1) \text {. } \]

条件 \(n \delta_{K}^{* 2} \rightarrow 0\) 意味着平方偏差比估计方差收敛得更快,因此前者渐近可以忽略不计。如果 \(m^{\prime \prime}(x)\) 一致连续,则多项式和二次样条的充分条件是 \(K \sim n^{1 / 4}\)。对于线性样条,充分条件是 \(K\)\(K^{1 / 4}\) 发散得更快。速率 \(K \sim n^{1 / 4}\) 比 ISE 最佳速率 \(K \sim n^{1 / 5}\) 稍快。

作者经常将假设 \(n \delta_{K}^{* 2} \rightarrow 0\) 表述为无害的技术条件。这是一种误导,因为它是一种技术技巧,应该明确讨论。该假设消除了(20.28)中的偏差的原因是该假设迫使估计方差主导平方偏差,从而可以忽略后者。这意味着估计器本身效率低下。

因为 \(n \delta_{K}^{* 2} \rightarrow 0\) 意味着 \(K\) 大于最优值,所以我们说 \(\widehat{m}_{K}(x)\) 相对于最优级数估计器而言是欠平滑的。

许多作者喜欢将他们的渐近理论集中在定理 \(20.10\) 中的假设上,因为分布 (20.28) 看起来更清晰。然而,这是对渐近理论的糟糕运用。假设 \(n \delta_{K}^{* 2} \rightarrow 0\) 和近似值 (20.28) 存在三个问题。首先,估计器 \(\widehat{m}_{K}(x)\) 效率低下。其次,虽然假设 \(n \delta_{K}^{* 2} \rightarrow 0\) 使偏差的阶数低于方差,但它仅使偏差的阶数稍低,这意味着渐近逼近的准确性很差。实际上,估计器在有限样本中仍然存在偏差。第三,\(n \delta_{K}^{* 2} \rightarrow 0\) 是一个假设,而不是经验实践的规则。目前尚不清楚“Assume \(n \delta_{K}^{* 2} \rightarrow 0\)”语句在实际应用中的含义。从这个角度来看,(20.26)和(20.28)之间的差异在于假设,而不是实际情况,也不在于实际的经验实践。通过假设消除麻烦(渐近偏差)是一种技巧,而不是对理论的实质性运用。我强烈认为结果 (20.26) 比 (20.28) 提供更多信息。它表明渐近分布是正态分布,但具有非平凡的有限样本偏差。

20.16 残差和回归拟合

\(x=X_{i}\) 处的拟合回归为 \(\widehat{m}_{K}\left(X_{i}\right)=X_{K i}^{\prime} \widehat{\beta}_{K}\),拟合残差为 \(\widehat{e}_{K i}=Y_{i}-\widehat{m}_{K}\left(X_{i}\right)\)。留一预测误差为

\[ \widetilde{e}_{K i}=Y_{i}-\widehat{m}_{K,-i}\left(X_{i}\right)=Y_{i}-X_{K i}^{\prime} \widehat{\beta}_{K,-i} \]

其中 \(\widehat{\beta}_{K,-i}\) 是省略 \(i^{t h}\) 观测值的最小二乘系数。使用(3.44)我们有简单的计算公式

\[ \widetilde{e}_{K i}=\widehat{e}_{K i}\left(1-X_{K i}^{\prime}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} X_{K i}\right)^{-1} . \]

对于核回归,预测误差 \(\widetilde{e}_{K i}\) 是比拟合残差 \(\widehat{e}_{K i}\) 更好的误差估计器,因为当系列项数量很大时,前者不会出现过度拟合的趋势。

20.17 交叉验证模型选择

选择级数项 \(K\) 数量的常用方法是交叉验证。交叉验证标准是预测误差平方的 \(\operatorname{sum}^{7}\)

\[ \operatorname{CV}(K)=\sum_{i=1}^{n} \widetilde{e}_{K i}^{2}=\sum_{i=1}^{n} \widehat{e}_{K i}^{2}\left(1-X_{K i}^{\prime}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} X_{K i}\right)^{-2} . \]

\(K\) 的 CV 选择值是最小化 \(\mathrm{CV}(K)\) 的整数。

如定理 \(19.7 \mathrm{CV}(K)\) 所示,它是积分均方误差 (IMSE) 的近似无偏估计量,即期望积分平方误差 (ISE)。结果的证明对于所有非参数估计器(级数和核)都是相同的,因此不需要在此处重复。因此,找到产生 \(\mathrm{CV}(K)\) 最小值的 \(K\) 是一个很好的指标,表明估计器 \(\widehat{m}_{K}(x)\) 具有较小的 IMSE。

对于实际实现,我们首先指定一组要搜索的模型(基本变换集和变量数量 \(K\) )。 (例如,对于某些预先选择的 \(K_{\max }\),从 1 阶多项式到 \(K_{\max }\)。)对于每个多项式,都有一组回归量 \(X_{K}\),它们是通过原始变量 \(X\) 的变换获得的。对于每组,我们通过最小二乘法估计回归,计算留置预测误差和 CV 标准。由于误差是线性运算,因此计算很简单。 CV 选择的 \(K\) 是产生 \(\mathrm{CV}(K)\) 最小值的整数。 \(\mathrm{CV}(K)\)\(K\)\(\operatorname{Plots}\) 可以帮助评估和解释。由于模型阶数 \(K\) 是一个整数,因此序列回归的 CV 标准是一个离散函数,这与核回归的情况不同。

如果希望生成偏差较小的估计器 \(\widehat{m}_{K}(x)\),则最好选择略高于单独 CV 选择的值的 \(K\) 值。

为了说明这一点,在图 \(20.6\) 中,我们绘制了图 20.1 中多项式回归估计的交叉验证函数。最低点标记最小化交叉验证函数的多项式阶数。在面板 (a) 中,我们绘制了白人女性子样本的 CV 函数。这里我们看到 CV 选择的阶数是 \(p=3\),一个三次多项式。在面板 (b) 中,我们绘制了黑人女性子样本的 CV 函数,发现 CV 选择的阶数是 \(p=2\),一个二次函数。正如图 20.1 的目视检查所预期的那样,所选模型对于面板 (b) 来说更为简约,很可能是因为它的样本量要小得多。可能令人惊讶的是,即使对于具有大样本和平滑估计的面板 (a),CV 选择的模型仍然相对简约。

希望减少偏差估计器的用户可能会将白人女性子样本的多项式阶数增加到 \(p=4\) 甚至 \(p=5\),并将黑人女性子样本的多项式阶数增加到 \(p=3\)\(p=4\)。两个 CV 函数在这些值上都相对相似。

\({ }^{7}\) 一些作者将 \(\mathrm{CV}(K)\) 定义为平均值而不是总和。

  1. 白人妇女

  1. 黑人妇女

图 20.6:经验曲线多项式估计的交叉验证函数

20.18 方差和标准误差估计

独立采样下最小二乘估计量 \(\widehat{\beta}_{K}\) 的精确条件方差为

\[ \boldsymbol{V}_{\widehat{\beta}}=\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{i=1}^{n} X_{K i} X_{K i}^{\prime} \sigma^{2}\left(X_{i}\right)\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} . \]

条件均值估计器 \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 的精确条件方差为

\[ V_{K}(x)=X_{K}(x)^{\prime}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{i=1}^{n} X_{K i} X_{K i}^{\prime} \sigma^{2}\left(X_{i}\right)\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} X_{K}(x) . \]

使用 \(20.7\) 部分的符号,这等于

\[ \frac{1}{n^{2}} \sum_{i=1}^{n} \widehat{w}_{K}\left(x, X_{i}\right)^{2} \sigma^{2}\left(X_{i}\right) . \]

在条件同方差的情况下,后者简化为

\[ \frac{1}{n} \widehat{w}_{K}(x, x) \sigma^{2} \simeq \frac{1}{n} \zeta_{K}(x)^{2} \sigma^{2} . \]

其中 \(\zeta_{K}(x)\) 是 (20.15) 中定义的归一化回归量长度。在条件异方差、大样本和 \(K\) 大(因此 \(\widehat{w}_{K}\left(x, X_{i}\right)\) 是局部核)的情况下,它大约等于

\[ \frac{1}{n} w_{K}(x, x) \sigma^{2}(x)=\frac{1}{n} \zeta_{K}(x)^{2} \sigma^{2}(x) . \]

在任何一种情况下,我们发现方差大约为

\[ V_{K}(x) \simeq \frac{1}{n} \zeta_{K}(x)^{2} \sigma^{2}(x) . \]

这表明级数回归估计量的方差是 \(\zeta_{K}(x)^{2}\) 和条件方差的尺度。从图 \(20.4\) 所示的 \(\zeta_{K}(x)\) 图中,我们可以推断出级数回归估计器在 \(X\) 的支持边界处相对不精确。

Andrews (1991a) 推荐的 (20.31) 估计量是 HC3 估计量

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}=\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{i=1}^{n} X_{K i} X_{K i}^{\prime} \widetilde{e}_{K i}^{2}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} \]

其中 \(\widetilde{e}_{K i}\) 是留一预测误差 (20.29)。替代方案包括 HC1 或 HC2 估计器。

给定 (20.32) \(\widehat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K}\) 的方差估计量为

\[ \widehat{V}_{K}(x)=X_{K}(x)^{\prime}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{i=1}^{n} X_{K i} X_{K i}^{\prime} \widetilde{e}_{K i}^{2}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} X_{K}(x) . \]

\(\widehat{m}(x)\) 的标准误差是 \(\widehat{V}_{K}(x)\) 的平方根。

20.19 聚类观察

聚类观察结果是聚类 \(g=1, \ldots, G\) 中个体 \(i=1, \ldots, n_{g}\)\(\left(Y_{i g}, X_{i g}\right)\)。模型是

\[ \begin{aligned} Y_{i g} &=m\left(X_{i g}\right)+e_{i g} \\ \mathbb{E}\left[e_{i g} \mid \boldsymbol{X}_{g}\right] &=0 \end{aligned} \]

其中 \(\boldsymbol{X}_{g}\) 是堆叠的 \(X_{i g}\)。将 \(Y_{i g}\)\(e_{i g}\) 堆叠到簇级变量 \(\boldsymbol{Y}_{g}\)\(\boldsymbol{e}_{g}\) 中。

使用簇级表示法的序列回归模型是 \(\boldsymbol{Y}_{g}=\boldsymbol{X}_{g} \beta_{K}+\boldsymbol{e}_{K g}\)。我们可以将级数估计器写为

\[ \widehat{\beta}_{K}=\left(\sum_{g=1}^{G} \boldsymbol{X}_{g}^{\prime} \boldsymbol{X}_{g}\right)^{-1}\left(\sum_{g=1}^{G} \boldsymbol{X}_{g}^{\prime} \boldsymbol{Y}_{g}\right) . \]

簇级残差向量为\(\widehat{\boldsymbol{e}}_{g}=\boldsymbol{Y}_{g}-\boldsymbol{X}_{g} \widehat{\beta}_{K}\)

对于具有聚类观察的参数回归,标准假设是聚类是相互独立的,但每个聚类内的依赖性是非结构化的。因此,我们使用与参数回归相同的方差公式。标准估计量是

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{CR1}}=\left(\frac{G}{G-1}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{g=1}^{G} \boldsymbol{X}_{g}^{\prime} \widehat{\boldsymbol{e}}_{g} \widehat{\boldsymbol{e}}_{g}^{\prime} \boldsymbol{X}_{g}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} . \]

另一种方法是使用删除簇预测错误 \(\widetilde{\boldsymbol{e}}_{g}=\boldsymbol{Y}_{g}-\boldsymbol{X}_{g} \widetilde{\beta}_{K,-g}\),其中

\[ \widetilde{\beta}_{K,-g}=\left(\sum_{j \neq g} \boldsymbol{X}_{j}^{\prime} \boldsymbol{X}_{j}\right)^{-1}\left(\sum_{j \neq g} \boldsymbol{X}_{j}^{\prime} \boldsymbol{Y}_{j}\right) \]

导致估计器

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{CR} 3}=\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\sum_{g=1}^{G} \boldsymbol{X}_{g}^{\prime} \widetilde{\boldsymbol{e}}_{g} \widetilde{\boldsymbol{e}}_{g}^{\prime} \boldsymbol{X}_{g}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} . \]

当前没有关于如何为聚类观测选择系列项 \(K\) 数量的理论。合理的选择是最小化删除集群交叉验证标准 \(\mathrm{CV}(K)=\sum_{g=1}^{G} \widetilde{\boldsymbol{e}}_{g}^{\prime} \widetilde{\boldsymbol{e}}_{g}\)

20.20 置信带

当显示非参数估计量(例如 \(\widehat{m}_{K}(x)\))时,通常会显示置信区间。 \(m(x)\) 的渐近逐点 \(95 %\) 置信区间为 \(\widehat{m}_{K}(x) \pm 1.96 \widehat{V}_{K}^{1 / 2}(x)\)。这些置信区间可以与 \(\widehat{m}_{K}(x)\) 一起绘制。

为了说明这一点,图 \(20.7\) 使用图 20.1 中选定的估计值以及 95% 的置信区间绘制了 \(\log (\) 工资 \()\) 对经验的回归的多项式估计值。图 (a) 使用 \(p=5\) 绘制了白人女性子样本的估计值。图 (b) 使用 \(p=3\) 绘制了黑人女性子样本的估计值。标准误差使用公式(20.33)计算。您可以看到置信带在边界处变宽。对于较大的白人女性子样本,置信带很紧,而对于较小的黑人女性子样本,置信带则明显较宽。无论如何,这两个图都表明,经验水平达到 20 年左右时,平均工资会上升,而经验水平超过 20 年时,平均工资会趋于平缓。

  1. 白人妇女

  1. 黑人妇女

图 20.7:95% 置信区间的多项式估计

这些置信带有两个缺陷。首先,他们没有考虑级数估计器的偏差 \(r_{K}(x)\)。因此,我们应该将置信界限解释为对伪真实回归(最佳有限 \(K\) 近似)有效,而不是对真实回归函数 \(m(x)\) 有效。其次,上述置信区间基于逐点(在 \(x\) 中)渐近分布理论。因此,我们应该将它们的覆盖范围解释为具有逐点有效性,并谨慎地从置信带解释全局形状。

20.21 统一近似

由于 \(\widehat{m}_{K}(x)\) 是一个函数,因此需要有一个适用于整个函数的分布理论,而不仅仅是某个点的估计量。例如,这可以用于构建具有统一(在 \(x\) 中)覆盖属性的置信带。对于那些熟悉经验过程理论的人来说,可能希望随机过程

\[ \eta_{K}(x)=\frac{\sqrt{n}\left(\widehat{m}_{K}(x)-m(x)\right)}{V_{K}^{1 / 2}(x)} \]

可能会收敛到随机(高斯)过程,但事实并非如此。实际上,过程 \(\eta_{K}(x)\) 并不是随机等连续的,因此传统的经验过程理论不适用。

为了发展统一理论,Belloni、Chernozhukov、Chetverikov 和 Kato (2015) 引入了所谓的强近似。他们的方法表明 \(\eta_{K}(x)\) 的分布等于一系列高斯过程加上可忽略的误差。他们的理论(定理 4.4)采用以下形式。在比假设 \(20.2\) 更强的条件下

\[ \eta_{K}(x)={ }_{d} \frac{X_{K}(x)^{\prime}\left(\boldsymbol{Q}_{K}^{-1} \Omega_{K} \boldsymbol{Q}_{K}^{-1}\right)^{1 / 2}}{V_{K}^{1 / 2}(x)} G_{K}+o_{p}(1) \]

统一在 \(x\) 中,其中“ \(=d\) ”表示“分配平等”,\(G_{K} \sim \mathrm{N}\left(0, \boldsymbol{I}_{K}\right)\) 表示。

这表明定理 \(20.10\) 中的分布结果可以解释为在 \(x\) 中均匀成立。它还可用于开发具有渐进均匀覆盖的置信带(与上一节中的不同)。

20.22 部分线性模型

级数回归的常见用途是允许 \(m(x)\) 相对于一个变量是非参数的,但在其他变量中是线性的。这使得特定感兴趣变量具有灵活性。具有向量值回归量 \(X_{1}\) 和实值连续 \(X_{2}\) 的部分线性模型采用以下形式

\[ m\left(x_{1}, x_{2}\right)=x_{1}^{\prime} \beta_{1}+m_{2}\left(x_{2}\right) . \]

\(X_{1}\) 是离散的(例如二进制)而 \(X_{2}\) 是连续分布时,此模型很常见。

级数方法对于部分线性模型很方便,因为我们可以用级数展开替换未知函数 \(m_{2}\left(x_{2}\right)\) 以获得

\[ m(X) \simeq m_{K}(X)=X_{1}^{\prime} \beta_{1}+X_{2 K}\left(X_{2}\right)^{\prime} \beta_{2 K}=X_{K}^{\prime} \beta_{K} \]

其中 \(X_{2 K}=X_{2 K}\left(x_{2}\right)\)\(x_{2}\) 的基础变换(通常是多项式或样条曲线)。转换后,回归量为 \(X_{K}=\left(X_{1}^{\prime}, X_{2 K}^{\prime}\right)\),系数为 \(\beta_{K}=\left(\beta_{1}^{\prime}, \beta_{2 K}^{\prime}\right)^{\prime}\)

20.23 面板固定效果

单向误差分量非参数回归模型为

\[ Y_{i t}=m\left(X_{i t}\right)+u_{i}+\varepsilon_{i t} \]

对于 \(i=1, \ldots, N\)\(t=1, \ldots, T\)。标准是将个体效应 \(u_{i}\) 视为固定效应。尽管 \(u_{i}\) 的维度随着 \(N\) 的增加而增加,但该模型可以解释为上一节中部分线性模型的特例。

级数估计器用 \(m_{K}(x)=X_{K}(x)^{\prime} \beta_{K}\) 逼近函数 \(m(x)\),如 (20.4) 所示。这导致系列回归模型 \(Y_{i t}=X_{K i t}^{\prime} \beta_{K}+u_{i}+\varepsilon_{K i t}\) 其中 \(X_{K i t}=X_{K}\left(X_{i t}\right)\)

固定效应估计量与线性面板数据回归中的相同。首先,将内变换应用于 \(Y_{i t}\) 和基础变换 \(X_{K i t}\) 的元素。它们是 \(\dot{Y}_{i t}=Y_{i t}-\bar{Y}_{i}\)\(\dot{X}_{K i t}=X_{K i t}-\bar{X}_{K i t}\)。转换后的回归方程为 \(\dot{Y}_{i t}=\dot{X}_{K i t}^{\prime} \beta_{K}+\dot{\varepsilon}_{K i t}\)。回归量的内变换的重要之处在于,它应用于变换后的变量 \(\dot{X}_{K i t}\),而不是原始回归量 \(X_{i t}\)。例如,在多项式回归中,内变换应用于幂 \(X_{i t}^{j}\)。将内部变换应用于 \(X_{i t}\) 然后构建基础变换是不合适的。

通过内部变换变量的最小二乘估计系数

\[ \widehat{\beta}_{K}=\left(\sum_{i=1}^{n} \sum_{t=1}^{T} \dot{X}_{K i t} \dot{X}_{K i t}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \sum_{t=1}^{T} \dot{X}_{K i t} \dot{Y}_{i t}\right) . \]

方差估计量应该使用聚类方差公式来计算,聚类在个体 \(i\) 的水平上,如第 20.19 节所述。

对于级数项 \(K\) 数量的选择,当前没有理论。合理的方法是使用删除集群交叉验证,如 \(20.19\) 节中所述。

20.24 多重回归器

假设 \(X \in \mathbb{R}^{d}\) 是向量值且连续分布。多元级数近似可以如下获得。分别为每个变量构建一组基础变换。取它们的张量叉积。使用它们作为回归量。例如,\(p^{t h}\)阶多项式是

\[ m_{K}(x)=\beta_{0}+\sum_{j_{1}=1}^{p} \cdots \sum_{j_{d}=1}^{p} x_{1}^{j_{1}} \cdots x_{d}^{j_{d}} \beta_{j_{1}, \ldots, j_{d} K} \]

这包括所有权力和叉积。系数向量的维度为 \(K=1+p^{d}\)

相对于单变量情况,包含叉积大大增加了系数的数量。因此,具有多个回归器的系列应用通常需要大样本量。

20.25 可加分离模型

正如上一节所讨论的,当\(X \in \mathbb{R}^{d}\)时,全级数展开需要大量系数,这意味着除非样本量很大,否则估计精度会很低。常见的简化是将回归函数 \(m(x)\) 视为各个回归量中可加分离的。这意味着

\[ m(x)=m_{1}\left(x_{1}\right)+m_{2}\left(x_{2}\right)+\cdots+m_{d}\left(x_{d}\right) . \]

然后,我们对每个分量 \(m_{j}\left(x_{j}\right)\) 分别应用级数展开式(多项式或样条曲线)。本质上,这与上一节中讨论的扩展相同,但省略了交互项。

加法可分离性的优点是降维。无约束 \(p^{t h}\) 阶多项式具有 \(1+p^{d}\) 系数,而加法可分多项式模型仅具有 \(1+d p\) 系数。这是一个重大的减少。

加性可分离性的缺点是相互作用效应被消除了。这是对 \(m(x)\) 的实质性限制。

施加加性可分性的决定可以基于表明不存在相互作用效应的经济模型,或者可以是类似于级数项数量的选择的模型选择决策。

20.26 非参数工具变量回归

基本非参数工具变量 (NPIV) 模型采用以下形式

\[ \begin{aligned} Y &=m(X)+e \\ \mathbb{E}[e \mid Z] &=0 \end{aligned} \]

其中 \(Y, X\)\(Z\) 是实值。这里,\(Z\) 是一个工具变量,\(X\) 是一个内生回归量。

近年来,计量经济学文献中有许多论文研究了 NPIV 模型,探索识别、估计和推理。其中许多论文在数学上都是先进的。 Newey 和 Powell (2003) 以及 Horowitz (2011) 是两个重要且易于理解的贡献。在这里,我们描述了一些主要结果。

级数估计器用 \(m_{K}(x)=X_{K}(x)^{\prime} \beta_{K}\) 逼近函数 \(m(x)\),如 (20.4) 所示。这导致了级数结构方程

\[ Y=X_{K}^{\prime} \beta_{K}+e_{K} \]

其中 \(X_{K}=X_{K}(X)\).例如,如果使用多项式基,则 \(X_{K}=\left(1, X, \ldots, X^{K-1}\right)\)

由于 \(X\) 是内生的,因此整个向量 \(X_{K}\) 也是内生的。因此我们至少需要 \(K\) 工具变量。考虑 \(X\) 的简化形式方程很有用。非参数规范是

\[ \begin{aligned} X &=g(Z)+u \\ \mathbb{E}[u \mid Z] &=0 . \end{aligned} \]

我们可以通过级数展开来挪用 \(g(z)\)

\[ g(z) \simeq g_{L}(z)=Z_{L}(z)^{\prime} \gamma_{L} \]

其中\(Z_{L}(z)\)是基础变换的\(L \times 1\)向量,\(\gamma_{L}\)\(L \times 1\)系数向量。例如,如果使用多项式基,则 \(Z_{L}(z)=\left(1, z, \ldots, z^{L-1}\right)\)。为简单起见,大多数文献都关注 \(L=K\) 的情况,但这对于该方法来说并不是必需的。

如果 \(L \geq K\) 我们可以使用 \(Z_{L}=Z_{L}(Z)\) 作为 \(X_{K}\) 的工具。 \(\beta_{K}\) 的 2 个 SLS 估计器 \(\widehat{\beta}_{K, L}\)

\[ \widehat{\beta}_{K, L}=\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{Z}_{L}\left(\boldsymbol{Z}_{L}^{\prime} \boldsymbol{Z}_{L}\right)^{-1} \boldsymbol{Z}_{L}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{Z}_{L}\left(\boldsymbol{Z}_{L}^{\prime} \boldsymbol{Z}_{L}\right)^{-1} \boldsymbol{Z}_{L}^{\prime} \boldsymbol{Y}\right) . \]

\(m(x)\) 的估计量是 \(\hat{m}_{K}(x)=X_{K}(x)^{\prime} \widehat{\beta}_{K, L}\)。如果 \(L>K\) 线性 GMM 估计器可以类似地定义。

考虑工具选择的一种方法是认识到我们实际上是在估计 \(X_{K}\) 的每个元素的简化形式方程。简化形式的系统是

\[ \begin{aligned} X_{K} &=\Gamma_{K}^{\prime} Z_{L}+u_{K} \\ \Gamma_{K} &=\mathbb{E}\left[Z_{L} Z_{L}^{\prime}\right]^{-1} \mathbb{E}\left[Z_{L} X_{K}^{\prime}\right] . \end{aligned} \]

例如,假设我们使用 \(K=L=3\) 的多项式基。那么简化形式的系统(忽略截距)是

\[ \left[\begin{array}{c} X \\ X^{2} \\ X^{3} \end{array}\right]=\left[\begin{array}{lll} \Gamma_{11} & \Gamma_{21} & \Gamma_{31} \\ \Gamma_{12} & \Gamma_{22} & \Gamma_{32} \\ \Gamma_{13} & \Gamma_{13} & \Gamma_{23} \end{array}\right]\left[\begin{array}{c} Z \\ Z^{2} \\ Z^{3} \end{array}\right]+\left[\begin{array}{l} u_{1} \\ u_{2} \\ u_{3} \end{array}\right] . \]

这是将 \(X, X^{2}\)\(X^{3}\) 的条件均值建模为 \(Z, Z^{2}\)\(Z^{3}\) 的线性函数。

要了解系数 \(\beta_{K}\) 是否已确定,考虑简单的简化形式方程 \(X=\gamma_{0}+\gamma_{1} Z+u\) 很有用。假设 \(\gamma_{1} \neq 0\) 以便方程被强烈识别,并为简单起见假设 \(u\) 独立于 \(Z\),均值为零,方差为 \(\sigma_{u}^{2}\)。简化形式的识别属性对于重新缩放和重新定位 \(X\)\(Z\) 是不变的,因此在不失一般性的情况下,我们可以设置 \(\gamma_{0}=0\)\(\beta_{K}\)。那么我们可以计算出(20.36)中的系数矩阵为

\[ \left[\begin{array}{lll} \Gamma_{11} & \Gamma_{21} & \Gamma_{31} \\ \Gamma_{12} & \Gamma_{22} & \Gamma_{32} \\ \Gamma_{13} & \Gamma_{13} & \Gamma_{23} \end{array}\right]=\left[\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 3 \sigma_{u}^{2} & 0 & 1 \end{array}\right] . \]

请注意,这是下三角且满秩的。事实证明,这个属性对于 \(K=L\) 的任何值都成立,因此 (20.36) 中的系数矩阵对于 \(K=L\) 的任何选择都是满秩的。这意味着如果 \(X\) 的简化形式方程很强,则系数 \(\beta_{K}\) 的识别也很强。因此,要检查 \(\beta_{K}\) 的识别条件,检查 \(X\) 的简化形式方程就足够了。然而,正如下一节所讨论的,一个极其重要的警告是,识别 \(\beta_{K}\) 并不意味着识别结构函数 \(m(x)\)

逐点推理的一个简单方法是使用传统方法估计 \(V_{K, L}=\operatorname{var}\left[\widehat{\beta}_{K, L}\right]\),然后通过 \(X_{K}(x)^{\prime} \widehat{V}_{K, L} X_{K}(x)\) 估计 \(\operatorname{var}\left[\hat{m}_{K}(x)\right]\),就像级数回归一样。通常提倡使用 Bootstrap 方法来实现更好的覆盖范围。详细信息请参见 Horowitz (2011)。对于最先进的推理方法,请参阅 Chen 和 Pouzo (2015) 以及 Chen 和 Christensen (2018)。

20.27 NPIV鉴定

在上一节中,我们讨论了伪真系数 \(\beta_{K}\) 的识别。在本节中,我们讨论结构函数 \(m(x)\) 的识别。这更具挑战性。

要了解函数 \(m(x)\) 是如何确定的,请将期望运算符 \(\mathbb{E}[\cdot \mid Z=z]\) 应用于 (20.34)。我们发现

\[ \mathbb{E}[Y \mid Z=z]=\mathbb{E}[m(X) \mid Z=z] \]

余数为零,因为 \(\mathbb{E}[e \mid Z]=0\)。我们可以把这个方程写成

\[ \mu(z)=\int m(x) f(x \mid z) d x \]

其中\(\mu(z)=\mathbb{E}[Y \mid Z=z]\)是给定\(Z=z\)\(Y\)的CEF,\(f(x \mid z)\)是给定\(Z\)\(X\)的条件密度。这两个函数是从 \((Y, X, Z)\) 的联合分布中识别出 \({ }^{8}\) 的。这意味着未知函数 \(m(x)\) 是积分方程 (20.37) 的解。从概念上讲,您可以想象使用标准技术估计 \(\mu(z)=\mathbb{E}[Y \mid Z=z]\)\(\mu(z)=\mathbb{E}[Y \mid Z=z]\),然后找到解决方案 \(\mu(z)=\mathbb{E}[Y \mid Z=z]\)。本质上,这就是 \(\mu(z)=\mathbb{E}[Y \mid Z=z]\) 的定义方式,并且是结构形式和简化形式之间经典关系的非参数模拟。

不幸的是,即使在线性 IV 模型被强烈识别的情况下,解 \(m(x)\) 也可能不是唯一的。它与所谓的不适定反问题有关。后者意味着解 \(m(x)\) 不一定是 \(\mu(z)\) 的连续函数。识别需要限制允许的函数 \(f(x \mid z)\) 的类别。这类似于线性 IV 模型,其中识别需要对简化形式方程进行限制。指定和理解所需的限制比线性情况更微妙。

如果函数 \(m(x)\) 是 (20.37) 的唯一解,则该函数被识别。同样,对于某些非平凡函数 \(\delta(x)\),如果我们可以将 (20.37) 中的 \(m(x)\) 替换为 \(m(x)+\delta(x)\),则 \(m(x)\) 不会被识别,但解不会改变。后者发生在

\[ \int \delta(x) f(x \mid z) d x=0 \]

\({ }^{8}\) 从技术上讲,如果\(\mathbb{E}|Y|<\infty\),则\((Z, X)\) 的联合密度存在,并且\(Z\) 的边际密度为正。对于所有 \(z\)。等价地,当(且仅当)(20.38) 仅对于平凡函数 \(\delta(x)=0\) 成立时,\(m(x)\) 才被识别。

Newey 和 Powell (2003) 将这一基本条件定义为完整性。

命题 20.1 完整性。当(且仅当)完整性条件成立时,\(m(x)\) 才被识别:对于所有 \(z\),(20.38) 隐含 \(\delta(x)=0\)

完整性是简化形式条件密度 \(f(x \mid z)\) 的一个属性。它不受结构方程 \(m(x)\) 的影响。这类似于线性 IV 模型,其中识别是简化形式方程的属性,而不是结构方程的属性。

如上所述,即使简化形式关系很强,也可能无法满足完整性。通过构建的示例 \({ }^{9}\) 可能最容易看出这一点。假设简化形式为\(X=Z+u\)\(\operatorname{var}[Z]=1, u\) 独立于\(Z\)\(u\) 分布于\(U[-1,1]\)。这个简化形式的方程有 \(R^{2}=\) \(0.75\) 所以很强。简化形式的条件密度是 \({ }^{9}\) 上的 \(f(x \mid z)=1 / 2\)。考虑 \({ }^{9}\)。我们计算出

\[ \int \delta(x) f(x \mid z) d x=\int_{-1+z}^{1+z} \sin (x / \pi) d x=0 \]

对于每个 \(z\),因为 \(\sin (x / \pi)\) 在长度为 2 的间隔上是周期性的,并且在 \([-1,1]\) 上积分为零。这意味着方程 (20.37) 对于 \(m(x)+\sin (x / \pi)\) 来说适用 \({ }^{10}\)。因此 \(m(x)\) 未被识别。尽管事实上简化形式方程是强的。

虽然某些条件分布的识别失败,但并非所有条件分布都失败。 Andrews (2017) 提供了满足完整性条件的分布类,并表明这些分布类非常通用。

这在实践中意味着什么?如果完整性失败,则结构方程无法识别并且无法一致地估计。此外,通过与弱仪器文献进行类比,我们预计如果条件分布接近不完整,那么结构方程将很难识别,并且我们的估计量将不精确。由于条件分布是否完整是未知的(并且比线性模型更难评估),这对于实证研究来说是一个麻烦。实际上,在任何给定的应用程序中,我们都不知道结构函数 \(m(x)\) 是否被识别。

Freyberger (2017) 提供了部分答案。他证明了不完备性和小渐近偏差的联合假设是可以被检验的。通过应用 Freyberger (2017) 中提出的测试,用户可以获得证据证明他们的 NPIV 估计器在低偏差的意义上表现良好。然而,与 Stock 和 Yogo (2005) 不同的是,Freyberger 的结果并不涉及推理。

20.28 NPIV收敛率

正如 Horowitz (2011) 中所述,\(\widehat{m}_{K}(x)\)\(m(x)\) 的收敛率为

\[ \left|\widehat{m}_{K}(x)-m(x)\right|=O_{p}\left(K^{-s}+K^{r}\left(\frac{K}{n}\right)^{1 / 2}\right) \]

\({ }^{9}\) 这个例子是由 Joachim Freyberger 建议的。

\({ }^{10}\) 事实上,对于任何函数 \(\delta(x)\)\(m(x)+\delta(x)\) 都成立 (20.38),该函数在长度为 2 的间隔内呈周期性,并且在 \([-1,1]\) 上积分为零,其中 \(s\)\(m(x)\) 的平滑度 \({ }^{11}\) \(r\)\({ }^{10}\) 的关节密度 \(f_{X Z}(x, z)\) 的平滑度。第一项 \({ }^{10}\) 是由于 \({ }^{10}\)\({ }^{10}\) 逼近而产生的偏差,并且采用与级数回归相同的形式。第二项 \({ }^{10}\)\({ }^{10}\) 的标准差。组件 \({ }^{10}\) 与序列回归的组件相同。额外的分量 \({ }^{10}\) 是由于不适定逆问题造成的(参见上一节)。

根据比率 (20.39),我们可以计算出级数项的最佳数量为 \(K \sim n^{1 /(2 r+2 s+1)}\)。给定这个速率,(20.39) 中可能的最佳收敛速率是 \(O_{p}\left(n^{-s /(2 r+2 s+1)}\right)\)。对于 \(r>0\),这些速率比序列回归慢。如果我们考虑 \(s=2\) 的情况,这些速率是 \(K \sim n^{1 /(2 r+5)}\)\(O_{p}\left(n^{-2 /(2 r+5)}\right)\),它们比通过级数回归获得的 \(K \sim n^{1 / 5}\)\(O_{p}\left(n^{-2 / 5}\right)\) 速率慢。

速率 (20.39) 的一个非常不寻常的方面是 \(f_{X Z}(x, z)\) 的平滑度会对收敛速率产生不利影响。 \(r\) 越大意味着收敛速度越慢。极限情况为 \(r \rightarrow \infty\) (例如, \(X\)\(Z\) 的联合正态性)会导致对数收敛率。这看起来很奇怪。原因是当密度 \(f_{X Z}(x, z)\) 非常平滑时,数据包含关于函数 \(m(x)\) 的信息很少。这并不直观,需要更深入的数学处理。

收敛率 (20.39) 的实际含义是级数项 \(K\) 的数量应远小于回归估计的数量。估计方差随着 \(K\) 的增加而快速增加。因此 \(K\) 不应太大。然而,在实践中,由于标准交叉验证方法不适用,因此尚不清楚如何选择序列顺序 \(K\)

20.29 非参数与参数识别

非参数识别文献的见解之一是,了解模型的哪些特征是非参数识别的非常重要,这意味着哪些特征是在没有功能形式假设的情况下识别的,哪些特征是仅根据功能形式假设识别的。由于函数形式假设在大多数经济应用中都是可疑的,因此强烈的暗示是研究人员应该努力只使用非参数识别的模型。

即使模型被确定为非参数识别,研究人员也可以估计线性(或其他简单参数)模型。这是有效的,因为它可以被视为非参数结构的近似。然而,如果模型仅在参数假设下确定,则不能将其视为近似值,并且不清楚如何更广泛地解释该模型。

例如,在回归模型 \(Y=m(X)+e\)\(\mathbb{E}[e \mid X]=0\) 中,CEF 由定理 2.14 非参数识别。这意味着估计线性回归(或其他低维回归)的研究人员可以将他们的估计模型解释为基础 CEF 的近似值。

另一个例子,在 NPIV 模型中,\(\mathbb{E}[e \mid Z]=0\) 的结构函数 \(m(x)\) 在完整性条件下被识别。这意味着估计线性 2SLS 回归的研究人员可以将他们的估计模型解释为 \(m(x)\) 的近似值(需要注意的是很难知道完整性是否成立)。

但分析也可以指出简单而微妙的错误。采用具有一个外生回归量 \(X_{1}\) 和一个内生回归量 \(X_{2}\) 的简单 IV 模型

\[ \begin{aligned} Y &=\beta_{0}+\beta_{1} X_{1}+\beta_{2} X_{2}+e \\ \mathbb{E}\left[e \mid X_{1}\right] &=0 \end{aligned} \]

无需额外仪器。假设一位有进取心的研究人员建议使用工具 \(X_{1}^{2}\) 代替 \(X_{2}\),其推理是假设意味着 \(\mathbb{E}\left[X_{1}^{2} e\right]=0\) 因此 \(X_{1}^{2}\) 是一个有效的工具。

\({ }^{11}\) 有界导数的数量。问题在于基本模型不是非参数识别的。如果我们将 (20.40) 写为部分线性非参数 IV 问题

\[ \begin{aligned} Y &=m\left(X_{1}\right)+\beta_{2} X_{2}+e \\ \mathbb{E}\left[e \mid X_{1}\right] &=0 \end{aligned} \]

然后我们可以看到这个模型没有被识别。我们需要一个有效的排除工具 \(Z\)。由于 (20.41) 未被识别,因此 (20.40) 不能被视为有效的近似值。 (20.40) 的明显识别关键取决于 (20.40) 中线性的未知真相。

这个例子的要点是,(20.40) 永远不应该通过 2 SLS 使用 \(X_{1}^{2}\) 工具来估计 \(X_{2}\),根本上是因为非参数模型 (20.41) 没有被识别。

描述错误的另一种方法是观察 \(X_{1}^{2}\) 仅当它是结构方程 (20.40) 的有效排除限制时才是 (20.40) 中的有效工具。从 (20.41) 的上下文来看,我们可以看到这是一个函数形式限制。如上所述,仅基于功能形式限制的识别是非常不可取的,因为功能形式假设是可疑的。

20.30 示例:安格里斯特和拉维 (1999)

为了说明实践中的非参数工具变量,我们遵循 Horowitz (2011),扩展了 Angrist 和 Lavy (1999) 中报告的实证工作。他们的论文涉及衡量小学教室中学生人数对学业成绩的因果影响。他们使用 4067 个以色列 \(4^{t h}\)\(5^{t h}\) 年级教室的样本来解决这个问题。因变量是成绩测试的课堂平均分。这里我们考虑平均动词阅读分数。解释变量是教室里的学生人数(分类)、学校年级的学生人数(入学率)以及学生社会经济地位的学校水平指数(作者称之为弱势群体百分比)。入学率和弱势群体变量被视为外生变量,但分类被视为内生变量,因为较富裕的学校可能能够提供较小的班级规模。

作者建议使用以下用于班级规模的工具变量。以色列法规规定班级人数不得超过 40 人。这意味着班级的划分应该完全可以从入学情况中预测出来。如果遵守规定,学生人数不超过 40 人的学校将在该年级拥有一间教室,学生人数为 41-80 人的学校将拥有两间教室。准确的预测是类别大小等于

\[ p=\frac{\text { enrollment }}{1+\lfloor 1-\text { enrollment } / 40\rfloor} \]

其中 \(\lfloor a\rfloor\)\(a\) 的整数部分。 Angrist 和 Lavy 使用 \(p\) 作为分类的工具变量。

他们估计了几个规格。我们重点关注表七中的方程(6),该方程将 avgverb 指定为分类、弱势群体、入学率、年级 4 以及分类和弱势群体相互作用的线性函数,其中年级 4 是 \(4^{t h}\) 年级教室的虚拟指标。该方程是通过工具变量估计的,使用弱势的 \(p\)\(p \times\) 作为工具。这些观察结果被视为在学校层面进行聚类。他们的估计显示班级规模对阅读测试成绩产生负面且具有统计显着性的影响。

我们对他们的方程的非参数版本感兴趣。为了保持规范合理简约但灵活,我们使用以下等式。

\[ \begin{aligned} \text { avgverb } &=\beta_{1}\left(\frac{\text { classize }}{40}\right)+\beta_{2}\left(\frac{\text { classize }}{40}\right)^{2}+\beta_{3}\left(\frac{\text { classize }}{40}\right)^{3} \\ &+\beta_{4}\left(\frac{\text { disadvantaged }}{14}\right)+\beta_{5}\left(\frac{\text { disadvantaged }}{14}\right)^{2}+\beta_{6}\left(\frac{\text { disadvantaged }}{14}\right)^{3} \\ &+\beta_{7}\left(\frac{\text { classize }}{40}\right)\left(\frac{\text { disadvantaged }}{14}\right)+\beta_{8} \text { enrollment }+\beta_{9} \text { grade } 4+\beta_{10}+e . \end{aligned} \]

这是分类和弱势群体的三次方程,具有单个交互项,并且与入学和年级呈线性关系4。处于不利地位的立方体是通过删除簇交叉验证回归而不进行分类来选择的。选择分类中的三次方是为了在不过度参数化的情况下实现最小程度的非参数灵活性。变量分类和弱势分别按 40 和 14 缩放,以便回归得到良好的调节。选择分类的缩放比例,以便变量基本上落在 \([0,1]\) 中,选择弱势群体的缩放比例,使其平均值为 1。

表 20.1:阅读测试成绩的非参数工具变量回归

classize/40 \(34.2\)
\((33.4)\)
classize/40) \(^{2}\) \(-61.2\)
\((53.0)\)
(classize/40) \(^{3}\) \(29.0\)
\((26.8)\)
disadvantaged/14 \(-12.4\)
\((1.7)\)
(disadvantaged/14) \(^{2}\) \(3.33\)
\((0.54)\)
(disadvantaged/14) \(^{3}\) \(-0.377\)
\((0.078)\)
(classize/40)(disadvantaged/14) \(0.81\)
\((1.77)\)
enrollment \(0.015\)
\((0.007)\)
grade 4 \(-1.96\)
\((0.16)\)
Intercept \(77.0\)
\((6.9)\)

该方程由 2 SLS 估计,使用 \((p / 40),(p / 40)^{2},(p / 40)^{3}\)\((p / 40) \times(\) 不利/14) 作为涉及分类的四个变量的工具。参数估计值如表 20.1 所示。标准误集中在学校级别。大多数单独的系数没有可解释的意义,除了入学的正系数表明较大的学校取得了稍高的测试成绩,而 4 年级的负系数表明 \(4^{\text {th }}\) 年级学生的测试成绩略低于 \(5^{\text {th }}\) 年级的学生。

为了更好地解释结果,我们在图 20.8 中显示了估计的回归函数。图 (a) 显示了分类对阅读测试成绩的估计影响。图(b)显示了弱势群体的估计影响。在这两个图中,其他变量均按其样本平均值 \({ }^{12}\) 设置。

\({ }^{12}\) 如果将它们设置为其他值,则不会改变图的定性性质。

  1. 分类的效果

  1. 弱势群体百分比的影响

图 20.8:分类和劣势对阅读测试成绩影响的非参数工具变量估计

在面板(a)中,我们可以看到增加班级规模会降低平均考试成绩。这与 Angrist 和 Lavy (1999) 估计的线性模型的结果一致。估计的效果非常接近线性。

在面板(b)中,我们可以看到,增加弱势学生的比例会大大降低平均考试成绩。这种影响的幅度远大于班级规模的影响。该效应似乎也是非线性的。通过严格的逐点置信带精确估计效果。

我们还可以使用估计模型进行假设检验。安格里斯特和拉维提出的问题是班级规模是否会影响考试成绩。在此处估计的非参数模型中,该假设在线性限制 \(\mathbb{H}_{0}: \beta_{1}=\beta_{2}=\beta_{3}=\beta_{7}=0\) 下成立。通过检查各个系数估计值和标准误差,尚不清楚这是否具有显着影响,因为这四个系数估计值在统计上均不不同于零。通过 Wald 检验(使用聚类稳健方差估计)可以更好地检验该假设。该统计量为 \(12.7\),其渐近 \(\mathrm{p}\) 值为 \(0.013\)。这支持了班级规模对学生成绩有负面影响的假设。

我们还可以使用该模型来量化班级规模对考试成绩的影响。考虑一下将班级人数从 20 名学生增加到 40 名学生的影响。在上述模型中,对测试成绩的预测影响是

\[ \theta=\frac{1}{2} \beta_{1}+\frac{3}{4} \beta_{2}+\frac{7}{8} \beta_{3}+\frac{1}{2} \beta_{4} . \]

这是系数的线性函数。点估计值为 \(\widehat{\theta}=-2.96\),标准误差为 \(1.21\)。 (点估计与面板(a)中显示的估计函数端点之间的差异相同。)这是一个微小但实质性的影响。

20.31 技术证明*

定理20.4的证明。我们在更强的假设 \(\zeta_{K}^{2} K / n \rightarrow 0\) 下提供了证明。 (Belloni、Chernozhukov、Chetverikov 和 Kato (2015) 提出的证明需要更高级的处理。)令 \(\|\boldsymbol{A}\|_{F}\) 表示 Frobenius 范数(参见第 A.23 节),并写出 \(\widetilde{X}_{K i}\)\(j^{t h}\) 元素如 \(\widetilde{X}_{j K i}\)。使用(A.18),

\[ \left\|\widetilde{\boldsymbol{Q}}_{K}-\boldsymbol{I}_{K}\right\|^{2} \leq\left\|\widetilde{\boldsymbol{Q}}_{K}-\boldsymbol{I}_{K}\right\|_{F}^{2}=\sum_{j=1}^{K} \sum_{\ell=1}^{K}\left(\frac{1}{n} \sum_{i=1}^{n}\left(\widetilde{X}_{j K i} \widetilde{X}_{\ell K i}-\mathbb{E}\left[\widetilde{X}_{j K i} \widetilde{X}_{\ell K i}\right]\right)\right)^{2} . \]

然后

\[ \begin{aligned} \mathbb{E}\left[\left\|\widetilde{\boldsymbol{Q}}_{K}-\boldsymbol{I}_{K}\right\|^{2}\right] & \leq \sum_{j=1}^{K} \sum_{\ell=1}^{K} \operatorname{var}\left[\frac{1}{n} \sum_{i=1}^{n} \widetilde{X}_{j K i} \widetilde{X}_{\ell K i}\right] \\ &=\frac{1}{n} \sum_{j=1}^{K} \sum_{\ell=1}^{K} \operatorname{var}\left[\widetilde{X}_{j K i} \widetilde{X}_{\ell K i}\right] \\ & \leq \frac{1}{n} \mathbb{E}\left[\sum_{j=1}^{K} \widetilde{X}_{j K i}^{2} \sum_{\ell=1}^{K} \widetilde{X}_{\ell K i}^{2}\right] \\ &=\frac{1}{n} \mathbb{E}\left[\left(\widetilde{X}_{K i}^{\prime} \widetilde{X}_{K i}\right)^{2}\right] \\ & \leq \frac{\zeta_{K}^{2}}{n} \mathbb{E}\left[\widetilde{X}_{K i}^{\prime} \widetilde{X}_{K i}\right]=\frac{\zeta_{K}^{2} K}{n} \rightarrow 0 \end{aligned} \]

其中最后几行使用 (20.17)、\(\mathbb{E}\left[\widetilde{X}_{K i}^{\prime} \widetilde{X}_{K i}\right]=K\)\(\zeta_{K}^{2} K / n \rightarrow 0\)。马尔可夫不等式意味着 (20.19)。

定理 20.5 的证明。通过谱分解,我们可以写出 \(\widetilde{\boldsymbol{Q}}_{K}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\),其中 \(\boldsymbol{H}^{\prime} \boldsymbol{H}=\boldsymbol{I}_{K}\)\(\Lambda=\operatorname{diag}\left(\lambda_{1}, \ldots, \lambda_{K}\right)\) 是特征值。然后

\[ \left\|\widetilde{\boldsymbol{Q}}_{K}-\boldsymbol{I}_{K}\right\|=\left\|\boldsymbol{H}^{\prime}\left(\Lambda-\boldsymbol{I}_{K}\right) \boldsymbol{H}\right\|=\left\|\Lambda-\boldsymbol{I}_{K}\right\|=\max _{j \leq K}\left|\lambda_{j}-1\right| \underset{p}{\longrightarrow} 0 \]

由定理 20.4。这意味着 \(\min _{j \leq K}\left|\lambda_{j}\right| \underset{p}{\longrightarrow} 1\) 是 (20.21)。相似地

\[ \begin{aligned} \left\|\widetilde{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{I}_{K}\right\| &=\left\|\boldsymbol{H}^{\prime}\left(\Lambda^{-1}-\boldsymbol{I}_{K}\right) \boldsymbol{H}\right\| \\ &=\left\|\Lambda^{-1}-\boldsymbol{I}_{K}\right\| \\ &=\max _{j \leq K}\left|\lambda_{j}^{-1}-1\right| \\ & \leq \frac{\max _{j \leq K}\left|1-\lambda_{j}\right|}{\min _{j \leq K}\left|\lambda_{j}\right|} \underset{p}{\longrightarrow} 0 . \end{aligned} \]

定理20.6的证明。使用(20.12)我们可以写

\[ \widehat{m}_{K}(x)-m(x)=X_{K}(x)^{\prime}\left(\widehat{\beta}_{K}-\beta_{K}\right)-r_{K}(x) . \]

由于 \(e_{K}=r_{K}+e\) 是投影误差,因此它满足 \(\mathbb{E}\left[X_{K} e_{K}\right]=0\)。由于 \(e\) 是回归误差,因此它满足 \(\mathbb{E}\left[X_{K} e\right]=0\)。我们推导出 \(\mathbb{E}\left[X_{K} r_{K}\right]=0\)。因此\(\int X_{K}(x) r_{K}(x) f(x) d x=\mathbb{E}\left[X_{K} r_{K}\right]=0\)。另请注意 \(\int X_{K}(x) X_{K}(x)^{\prime} d F(x)=\boldsymbol{Q}_{K}\)\(\int r_{K}(x)^{2} d F(x)=\mathbb{E}\left[r_{K}^{2}\right]=\delta_{K}^{2}\)。然后

\[ \begin{aligned} \operatorname{ISE}(K) &=\int\left(X_{K}(x)^{\prime}\left(\widehat{\beta}_{K}-\beta_{K}\right)-r_{K}(x)\right)^{2} d F(x) \\ &=\left(\widehat{\beta}_{K}-\beta_{K}\right)^{\prime}\left(\int X_{K}(x) X_{K}(x)^{\prime} d F(x)\right)\left(\widehat{\beta}_{K}-\beta_{K}\right) \\ &-2\left(\widehat{\beta}_{K}-\beta_{K}\right)^{\prime}\left(\int X_{K}(x) r_{K}(x) d F(x)\right)+\int r_{K}(x)^{2} d F(x) \\ &=\left(\widehat{\beta}_{K}-\beta_{K}\right)^{\prime} \boldsymbol{Q}_{K}\left(\widehat{\beta}_{K}-\beta_{K}\right)+\delta_{K}^{2} \end{aligned} \]

我们计算出

\[ \begin{aligned} \left(\widehat{\beta}_{K}-\beta_{K}\right)^{\prime} \boldsymbol{Q}_{K}\left(\widehat{\beta}_{K}-\beta_{K}\right) &=\left(\boldsymbol{e}_{K}^{\prime} \boldsymbol{X}_{K}\right)\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1} \boldsymbol{Q}_{K}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{X}_{K}\right)^{-1}\left(\boldsymbol{X}_{K}^{\prime} \boldsymbol{e}_{K}\right) \\ &=\left(\boldsymbol{e}_{K}^{\prime} \widetilde{\boldsymbol{X}}_{K}\right)\left(\widetilde{\boldsymbol{X}}_{K}^{\prime} \widetilde{\boldsymbol{X}}_{K}\right)^{-1}\left(\widetilde{\boldsymbol{X}}_{K}^{\prime} \widetilde{\boldsymbol{X}}_{K}\right)^{-1}\left(\widetilde{\boldsymbol{X}}_{K}^{\prime} \boldsymbol{e}_{K}\right) \\ &=n^{-2}\left(\boldsymbol{e}_{K}^{\prime} \widetilde{\boldsymbol{X}}_{K}\right) \widetilde{\boldsymbol{Q}}_{K}^{-1} \widetilde{\boldsymbol{Q}}_{K}^{-1}\left(\widetilde{\boldsymbol{X}}_{K}^{\prime} \boldsymbol{e}_{K}\right) \\ & \leq\left(\lambda_{\max }\left(\widetilde{\boldsymbol{Q}}_{K}^{-1}\right)\right)^{2}\left(n^{-2} \boldsymbol{e}_{K}^{\prime} \widetilde{\boldsymbol{X}}_{K} \widetilde{\boldsymbol{X}}_{K}^{\prime} \boldsymbol{e}_{K}\right) \\ & \leq O_{p}(1)\left(n^{-2} \boldsymbol{e}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e}_{K}\right) \end{aligned} \]

其中 \(\widetilde{\boldsymbol{X}}_{K}\)\(\widetilde{\boldsymbol{Q}}_{K}\) 是(20.18)中定义的正交回归量。第一个不等式是二次不等式 (B.18),第二个不等式是 (20.21)。

利用 \(X_{K} e_{K}\) 均值为零且不相关的事实,(20.17)、\(\mathbb{E}\left[e_{K}^{2}\right] \leq \mathbb{E}\left[Y^{2}\right]<\infty\) 和假设 20.1.2,

\[ \begin{aligned} \mathbb{E}\left[n^{-2} \boldsymbol{e}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e}_{K}\right] &=n^{-1} \mathbb{E}\left[X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K} e_{K}^{2}\right] \\ & \leq \frac{\zeta_{K}^{2}}{n} \mathbb{E}\left[e_{K}^{2}\right] \leq o(1) . \end{aligned} \]

这表明 (20.45) 是 \(o_{p}\) (1)。结合 (20.44),我们发现 \(\operatorname{ISE}(K)=o_{p}(1)\) 正如所声称的那样。

定理20.7的证明。假设 \(\sigma^{2}(x) \leq \bar{\sigma}^{2}\) 意味着

\[ \mathbb{E}\left[e_{K}^{2} \mid X\right]=\mathbb{E}\left[\left(r_{K}+e\right)^{2} \mid X\right]=r_{K}^{2}+\sigma^{2}(X) \leq r_{K}^{2}+\bar{\sigma}^{2} . \]

因此 \((20.46)\) 的边界为

\[ \begin{aligned} n^{-1} \mathbb{E}\left[X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K} r_{K}^{2}\right]+n^{-1} \mathbb{E}\left[X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right] \bar{\sigma}^{2} & \leq \frac{\zeta_{K}^{2}}{n} \mathbb{E}\left[r_{K}^{2}\right]+n^{-1} \mathbb{E}\left[\operatorname{tr}\left(\boldsymbol{Q}_{K}^{-1} X_{K} X_{K}^{\prime}\right)\right] \bar{\sigma}^{2} \\ &=\frac{\zeta_{K}^{2}}{n} \delta_{K}^{2}+n^{-1} \operatorname{tr}\left(\boldsymbol{I}_{K}\right) \bar{\sigma}^{2} \\ & \leq o\left(\delta_{K}^{2}\right)+\frac{K}{n} \bar{\sigma}^{2} \end{aligned} \]

其中不等式为假设 20.1.2。这意味着 (20.45) 是 \(o_{p}\left(\delta_{K}^{2}\right)+O_{p}(K / n)\)。结合 (20.44),我们发现 \(\operatorname{ISE}(K)=O_{p}\left(\delta_{K}^{2}+K / n\right)\) 正如所声称的那样。

定理20.8的证明。使用 (20.12) 和线性

\[ \theta=a(m)=a\left(Z_{K}(x)^{\prime} \beta_{K}\right)+a\left(r_{K}\right)=a_{K}^{\prime} \beta_{K}+a\left(r_{K}\right) . \]

因此

\[ \begin{aligned} \sqrt{\frac{n}{V_{K}}}\left(\widehat{\theta}_{K}-\theta+a\left(r_{K}\right)\right) &=\sqrt{\frac{n}{V_{K}}} a_{K}^{\prime}\left(\widehat{\beta}_{K}-\beta_{K}\right) \\ &=\sqrt{\frac{1}{n V_{K}}} a_{K}^{\prime} \widehat{\boldsymbol{Q}}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e}_{K} \\ &=\frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e} \\ &+\frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) \boldsymbol{X}_{K}^{\prime} \boldsymbol{e} \\ &+\frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime} \widehat{\boldsymbol{Q}}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K} \end{aligned} \]

我们使用 \(\boldsymbol{e}_{K}=\boldsymbol{e}+\boldsymbol{r}_{K}\) 的地方。我们分别取(20.47)-(20.49)中的项。我们证明 (20.47) 是渐近正态的,而 (20.48)-(20.49) 是渐近可忽略的。

首先,取(20.47)。我们可以写

\[ \frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e}=\frac{1}{\sqrt{n}} \sum_{i=1}^{n} \frac{1}{\sqrt{V_{K}}} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K i} e_{i} . \]

观察 \(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K i} e_{i} / \sqrt{V_{K}}\)\(i\) 之间是独立的,均值为零,方差为 1 。我们将应用定理 6.4,它足以验证 Lindeberg 的条件: 对于所有 \(\epsilon>0\)

\[ \mathbb{E}\left[\frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K} e\right)^{2}}{V_{K}} \mathbb{1}\left\{\frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K} e\right)^{2}}{V_{K}} \geq n \epsilon\right\}\right] \rightarrow 0 . \]

选择 \(\eta>0\)。将 \(B\) 设置得足够大,以便 \(\mathbb{E}\left[e^{2} \mathbb{1}\left\{e^{2}>B\right\} \mid X\right] \leq \underline{\sigma}^{2} \eta\) 根据假设 20.2.1 是可行的。选择足够大的 \(n\) 以使 \(\zeta_{K}^{2} / n \leq \epsilon \underline{\sigma}^{2} / B\) 足够大,这在假设 20.1.2 下是可行的。

根据假设 20.2.2

\[ \begin{aligned} V_{K} &=\mathbb{E}\left[\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2} e^{2}\right] \\ &=\mathbb{E}\left[\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2} \sigma\left(X^{2}\right)\right] \\ & \geq \mathbb{E}\left[\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2} \underline{\sigma}^{2}\right] \\ &=a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} \mathbb{E}\left[X_{K} X_{K}^{\prime}\right] \boldsymbol{Q}_{K}^{-1} a_{K} \underline{\sigma}^{2} \\ &=a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K} \underline{\sigma}^{2} . \end{aligned} \]

然后根据施瓦茨不等式,(20.17)、(20.52) 和 \(\zeta_{K}^{2} / n \leq \epsilon \underline{\sigma}^{2} / B\)

\[ \frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2}}{V_{K}} \leq \frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K}\right)\left(X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)}{V_{K}} \leq \frac{\zeta_{K}^{2}}{\underline{\sigma}^{2}} \leq \frac{\epsilon}{B} n . \]

那么 (20.51) 的左边小于

\[ \begin{aligned} \mathbb{E}\left[\frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2}}{V_{K}} e^{2} \mathbb{1}\left\{e^{2} \geq B\right\}\right] &=\mathbb{E}\left[\frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2}}{V_{K}} \mathbb{E}\left[e^{2} \mathbb{1}\left\{e^{2} \geq B\right\} \mid X\right]\right] \\ & \leq \mathbb{E}\left[\frac{\left(a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2}}{V_{K}}\right] \underline{\sigma}^{2} \eta \\ & \leq \frac{a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K}}{V_{K}} \underline{\sigma}^{2} \eta \leq \eta \end{aligned} \]

最终的不等式为(20.52)。由于 \(\eta\) 是任意的,因此验证了 (20.51) 并且我们得出结论

\[ \frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{e} \underset{d}{\longrightarrow} \mathrm{N}(0,1) \text {. } \]

其次,取(20.48)。假设 \(20.2\) 意味着 \(\mathbb{E}\left[e^{2} \mid X\right] \leq \bar{\sigma}^{2}<\infty\)。从 \(\mathbb{E}[\boldsymbol{e} \mid \boldsymbol{X}]=0\) 开始,应用 \(\mathbb{E}\left[e^{2} \mid X\right] \leq \bar{\sigma}^{2}\)、Schwarz 和范数不等式 (20.52) 以及定理 \(20.4\)\(20.5\)

\[ \begin{aligned} &\mathbb{E}\left[\left(\frac{1}{\sqrt{n V_{K}}} a_{K}^{\prime}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) \boldsymbol{X}_{K}^{\prime} \boldsymbol{e}\right)^{2} \mid \boldsymbol{X}\right] \\ &=\frac{1}{n V_{K}} a_{K}^{\prime}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) \boldsymbol{X}_{K}^{\prime} \mathbb{E}\left[\boldsymbol{e} \boldsymbol{e}^{\prime} \mid \boldsymbol{X}\right] \boldsymbol{X}_{K}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) a_{K} \\ &\leq \frac{\bar{\sigma}^{2}}{V_{K}} a_{K}^{\prime}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) \widehat{\boldsymbol{Q}}_{K}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) a_{K} \\ &\leq \frac{\bar{\sigma}^{2} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K}}{V_{K}}\left\|\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right) \widehat{\boldsymbol{Q}}_{K}\left(\widehat{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{Q}_{K}^{-1}\right)\right\| \\ &=\frac{\bar{\sigma}^{2} a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K}}{V_{K}}\left\|\left(\boldsymbol{I}_{K}-\widetilde{\boldsymbol{Q}}_{K}\right)\left(\widetilde{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{I}_{K}\right)\right\| \\ &\leq \frac{\bar{\sigma}^{2}}{\underline{\sigma}^{2}}\left\|\boldsymbol{I}_{K}-\widetilde{\boldsymbol{Q}}_{K}\right\|\left\|\widetilde{\boldsymbol{Q}}_{K}^{-1}-\boldsymbol{I}_{K}\right\| \\ &\leq \frac{\bar{\sigma}^{2}}{\underline{\sigma}^{2}} o_{p}(1) . \end{aligned} \]

这确定 (20.48) 是 \(o_{p}(1)\)

第三,取(20.49)。根据柯西-施瓦茨不等式、二次不等式、(20.52) 和 (20.21),

\[ \begin{aligned} \left(\frac{1}{\sqrt{n v_{K}}} a_{K}^{\prime} \widehat{\boldsymbol{Q}}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K}\right)^{2} & \leq \frac{a_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} a_{K}}{n v_{K}} \boldsymbol{r}_{K}^{\prime} \boldsymbol{X}_{K} \widehat{\boldsymbol{Q}}_{K}^{-1} \boldsymbol{Q}_{K} \widehat{\boldsymbol{Q}}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K} \\ & \leq \frac{1}{\underline{\sigma}^{2}}\left(\lambda_{\max } \widetilde{\boldsymbol{Q}}_{K}^{-1}\right)^{2} \frac{1}{n} \boldsymbol{r}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K} \\ & \leq O_{p}(1) \frac{1}{n} \boldsymbol{r}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K} . \end{aligned} \]

观察到,因为观察值是独立的,\(\mathbb{E}\left[X_{K} r_{K}\right]=0, X_{K i}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K i} \leq \zeta_{K}^{2}\)\(\mathbb{E}\left[r_{K}^{2}\right]=\delta_{K}^{2}\)

\[ \begin{aligned} \mathbb{E}\left[\frac{1}{n} \boldsymbol{r}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K}\right] &=\mathbb{E}\left[\frac{1}{n} \sum_{i=1}^{n} r_{K i} X_{K i}^{\prime} \boldsymbol{Q}_{K}^{-1} \sum_{i j=1}^{n} X_{K j} r_{K j}\right] \\ &=\mathbb{E}\left[X_{K}^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K} r_{K}^{2}\right] \\ & \leq \zeta_{K}^{2} \mathbb{E}\left[r_{K}^{2}\right]=\zeta_{K}^{2} \delta_{K}^{2}=o(1) \end{aligned} \]

根据假设 20.2.3。因此\(\frac{1}{n} \boldsymbol{r}_{K}^{\prime} \boldsymbol{X}_{K} \boldsymbol{Q}_{K}^{-1} \boldsymbol{X}_{K}^{\prime} \boldsymbol{r}_{K}=o_{p}(1)\),(20.54) 是\(o_{p}(1)\),(20.49) 是\(o_{p}(1)\)

我们共同证明了

\[ \sqrt{\frac{n}{V_{K}}}\left(\widehat{\theta}_{K}-\theta_{K}+a\left(r_{K}\right)\right) \underset{d}{\longrightarrow} \mathrm{N}(0,1) \]

正如所声称的那样。定理 20.10 的证明。足以证明

\[ \frac{\sqrt{n}}{V_{K}^{1 / 2}(x)} r_{K}(x)=o(1) \text {. } \]

请注意,根据假设 \(20.2 .2\)

\[ \begin{aligned} V_{K}(x) &=X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} \boldsymbol{\Omega}_{K} \boldsymbol{Q}_{K}^{-1} X_{K}(x) \\ &=\mathbb{E}\left[\left(X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2} e^{2}\right] \\ &=\mathbb{E}\left[\left(X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2} \sigma^{2}(X)\right] \\ & \geq \mathbb{E}\left[\left(X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}\right)^{2}\right] \underline{\sigma}^{2} \\ &=X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} \mathbb{E}\left[X_{K} X_{K}^{\prime}\right] \boldsymbol{Q}_{K}^{-1} X_{K}(x) \underline{\sigma}^{2} \\ &=X_{K}(x)^{\prime} \boldsymbol{Q}_{K}^{-1} X_{K}(x) \underline{\sigma}^{2} \\ &=\zeta_{K}(x)^{2} \underline{\sigma}^{2} . \end{aligned} \]

使用第 20.8 节中 \(\beta_{K}^{*}, r_{K}^{*}(x)\)\(\delta_{K}^{*}\) 的定义,请注意

\[ r_{K}(x)=m(x)-X_{K}^{\prime}(x) \beta_{K}=r_{K}^{*}(x)+X_{K}^{\prime}(x)\left(\beta_{K}^{*}-\beta_{K}\right) . \]

由三角不等式及其定义 (20.10)、施瓦茨不等式及其定义 (20.15)

\[ \begin{aligned} \left|r_{K}(x)\right| & \leq\left|r_{K}^{*}(x)\right|+\left|X_{K}^{\prime}(x)\left(\beta_{K}^{*}-\beta_{K}\right)\right| \\ & \leq \delta_{K}^{*}+\left|X_{K}^{\prime}(x) \boldsymbol{Q}_{K}^{-1} X_{K}^{\prime}(x)\right|^{1 / 2}\left|\left(\beta_{K}^{*}-\beta_{K}\right)^{\prime} \boldsymbol{Q}_{K}\left(\beta_{K}^{*}-\beta_{K}\right)\right|^{1 / 2} \\ &=\delta_{K}^{*}+\zeta_{K}(x)\left|\left(\beta_{K}^{*}-\beta_{K}\right)^{\prime} \boldsymbol{Q}_{K}\left(\beta_{K}^{*}-\beta_{K}\right)\right|^{1 / 2} . \end{aligned} \]

系数满足关系

\[ \beta_{K}=\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} m(X)\right]=\beta_{K}^{*}+\mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} r_{K}^{*}\right] . \]

因此

\[ \left(\beta_{K}^{*}-\beta_{K}\right)^{\prime} \boldsymbol{Q}_{K}\left(\beta_{K}^{*}-\beta_{K}\right)=\mathbb{E}\left[r_{K}^{*} X_{K}^{\prime}\right] \mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} r_{K}^{*}\right] \leq \mathbb{E}\left[r_{K}^{2 *}\right] \leq \delta_{K}^{* 2} . \]

第一个不等式是因为 \(\mathbb{E}\left[r_{K}^{*} X_{K}^{\prime}\right] \mathbb{E}\left[X_{K} X_{K}^{\prime}\right]^{-1} \mathbb{E}\left[X_{K} r_{K}^{*}\right]\) 是一个投影。第二个不等式由定义 (20.10) 得出。我们推断

\[ \left|r_{K}(x)\right| \leq\left(1+\zeta_{K}(x)\right) \delta_{K}^{*} \leq 2 \zeta_{K}(x) \delta_{K}^{*} . \]

方程 (20.56)、(20.57) 和 \(n \delta_{K}^{* 2}=o(1)\) 一起意味着

\[ \frac{n}{V_{K}(x)} r_{K}^{2}(x) \leq \frac{4}{\underline{\sigma}^{2}} n \delta_{K}^{* 2}=o(1) \]

根据要求,即 (20.55)。

20.32 练习

练习20.1 采用估计模型

\[ Y=-1+2 X+5(X-1) \mathbb{1}\{X \geq 1\}-3(X-2) \mathbb{1}\{X \geq 2\}+e . \]

对于 \(X=3\)\(X\)\(Y\) 的估计边际效应是多少?

练习 20.2 获取具有三个节点的线性样条

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2}\left(x-\tau_{1}\right) \mathbb{1}\left\{x \geq \tau_{1}\right\}+\beta_{3}\left(x-\tau_{2}\right) \mathbb{1}\left\{x \geq \tau_{2}\right\}+\beta_{4}\left(x-\tau_{3}\right) \mathbb{1}\left\{x \geq \tau_{3}\right\} . \]

求系数 \(\beta_{j}\) 的不等式限制,使得 \(m_{K}(x)\) 不减。

练习20.3 从上一个问题中获取线性样条。求系数 \(\beta_{j}\) 的不等式限制,使得 \(m_{K}(x)\) 是凹的。

练习 20.4 获取具有三个节点的二次样条

\[ m_{K}(x)=\beta_{0}+\beta_{1} x+\beta_{2} x^{3}+\beta_{3}\left(x-\tau_{1}\right)^{2} \mathbb{1}\left\{x \geq \tau_{1}\right\}+\beta_{4}\left(x-\tau_{2}\right)^{2} \mathbb{1}\left\{x \geq \tau_{2}\right\}+\beta_{5}\left(x-\tau_{3}\right)^{2} \mathbb{1}\left\{x \geq \tau_{3}\right\} . \]

求系数 \(\beta_{j}\) 的不等式限制,使得 \(m_{K}(x)\) 是凹的。

练习 20.5 考虑使用单结 \(\tau\) 进行样条估计。解释为什么结 \(\tau\) 必须在 \(X\) 的样本支持范围内。 [解释一下,如果您将结放置在 \(X]\) 的支撑之外来估计回归,会发生什么

练习20.6 估计多项式回归模型:

\[ \widehat{m}_{K}(x)=\widehat{\beta}_{0}+\widehat{\beta}_{1} x+\widehat{\beta}_{2} x^{2}+\cdots+\widehat{\beta}_{p} x^{p} . \]

您对 \(x\) 处的回归导数 \(m^{\prime}(x)\) 感兴趣。

  1. 写出 \(m^{\prime}(x)\) 的估计器 \(\widehat{m}_{K}^{\prime}(x)\)

  2. \(\widehat{m}_{K}^{\prime}(x)\) 是系数估计的线性函数吗?

  3. 使用定理\(20.8\)获得\(\widehat{m}_{K}^{\prime}(x)\)的渐近分布。

  4. 展示如何构建 \(\widehat{m}_{K}^{\prime}(x)\) 的标准误差和置信区间。

练习 20.7 重新缩放 \(Y\)\(X\)(乘以常数)是否会影响 \(\mathrm{CV}(K)\) 函数? \(K\) 最小化它?

练习 20.8 取 NPIV 近似方程 (20.35) 和误差 \(e_{K}\)

  1. 它满足 \(\mathbb{E}\left[e_{K} \mid Z\right]=0\) 吗?

  2. 如果 \(L=K\) 可以定义 \(\beta_{K}\) 以便 \(\mathbb{E}\left[Z_{K} e_{K}\right]=0\) 吗?

  3. 如果 \(L>K\)\(\mathbb{E}\left[Z_{K} e_{K}\right]=0\) 吗?

练习 20.9 获取 cps09mar 数据集(完整样本)。 (a) 根据经验估计 \(\log (\) 工资 \()\)\(6^{\text {th }}\) 阶多项式回归。为了减少病态问题,在估计回归之前,首先将经验重新调整到 \([0,1]\) 区间内。

  1. 绘制估计的回归函数以及 95% 逐点置信区间。

  2. 解释研究结果。您如何解释经验水平高于 65 的估计函数?

练习 20.10 继续前面的练习,计算多项式阶数 1 到 8 的交叉验证函数(或者 AIC)。

  1. 哪一个顺序使函数最小化?

  2. 绘制估计的回归函数以及 \(95 %\) 逐点置信区间。

练习 20.11 获取 cps09mar 数据集(完整样本)。

  1. 估计教育方面 \(\log (\) 工资 \()\)\(6^{\text {th }}\) 阶多项式回归。为了减少病态问题,首先将教育重新调整到 \([0,1]\) 区间内。

  2. 绘制估计的回归函数以及 \(95 %\) 逐点置信区间。

练习 20.12 继续前面的练习,计算多项式阶数 1 到 8 的交叉验证函数(或者 AIC)。

  1. 哪一个顺序使函数最小化?

  2. 绘制估计的回归函数以及 \(95 %\) 逐点置信区间。

练习20.13 获取\(\mathrm{cps} 09 \mathrm{mar}\)数据集(完整样本)。

  1. 根据经验估计 \(\log (\) 工资 \()\) 的二次样条回归。估计四种模型:(1)无结(二次); (2)20年一结; (3) 20 节和 40 节两个节; (4) 10、20、30 处四节,\(\& 40\)。绘制四个估计值。解释你的发现。

  2. 使用交叉验证或 AIC 比较四个样条模型。首选规格是哪一个?

  3. 对于您选择的规格,绘制估计回归函数以及 95% 逐点置信区间。解释你的发现。

  4. 如果您还估计了多项式规范,您更喜欢多项式还是二次样条估计?

练习 20.14 获取 cps09mar 数据集(完整样本)。

  1. 估计 \(\log (\) 工资 \()\) 对教育的二次样条回归。估计四种模型:(1)无结(二次); (2)10年一结; (3) 5、10、15 处三节; (4) 4,8 , 12, & 16 处的四个节。绘制四个估计值。解释你的发现。

  2. 使用交叉验证或 AIC 比较四个样条模型。首选规格是哪一个?

  3. 对于您选择的规格,绘制估计回归函数以及 95% 逐点置信区间。解释你的发现。 (d) 如果您还估计了多项式规范,您更喜欢多项式还是二次样条估计?

练习 20.15 RR2010 数据集来自 Reinhart 和 Rogoff (2010)。它包含对 1791 年至 2009 年较长时期内美国 GDP 增长率、通货膨胀率以及债务/GDP 比率的观察。该论文强烈主张,GDP 增长会随着债务/GDP 的增加而放缓,特别是这种关系是非线性的,债务比率超过 \(90 %\) 时,债务会对增长产生负面影响。他们的完整数据集包括 44 个国家,我们的摘录仅包括美国。让 \(Y_{t}\) 表示 GDP 增长,让 \(D_{t}\) 表示债务/GDP。我们将估计部分线性规格

\[ Y_{t}=\alpha Y_{t-1}+m\left(D_{t-1}\right)+e_{t} \]

\(m(D)\) 使用线性样条。

(a)估计(1)线性模型; (2) \(D_{t-1}=60\) 处有一个结的线性样条; (3) 40 和 80 处有两个节的线性花键。绘制三个估计值。

  1. 对于具有 \(95 %\) 置信区间的单结图模型。

  2. 使用交叉验证或 AIC 比较三个样条模型。首选规格是哪一个?

  3. 解释研究结果。

练习20.16 获取DDK2011数据集(完整样本)。使用二次样条来估计测试分数对百分位数的回归。

  1. 估计五个模型: (1) 无结(二次); (2) 50 节一节; (3) 33 节和 66 节两个节; (4) 25,50 & 75 处三节; (5) 20、40、60、&80 节。绘制五个估计值。解释你的发现。

  2. 选择型号。考虑使用leave-cluster-one CV。

  3. 对于您选择的规格,绘制估计回归函数以及 95% 逐点置信区间。 [使用集群稳健的标准错误。] 解释你的发现。

练习 20.17 CH J2004 数据集来自 Cox、Hansen 和 Jimenez (2004)。如 \(20.6\) 部分所述,它包含 8684 个菲律宾城市家庭的样本。本文研究了家庭收入对民间转移支付的挤出影响。使用多项式回归估计图 20.2(b) 的类似情况。对收入的高阶多项式以及可能的一组回归控制进行回归转移。理想情况下,通过交叉验证选择多项式阶数。在采用多项式幂之前,您需要重新调整可变收入。绘制估计函数以及 \(95 %\) 逐点置信区间。评论一下与图20.2(b)的异同。对于回归控制,请考虑以下选项: (a) 不包括其他控制; (b) 按照原始论文和图 20.2(b),包含数据描述文件中列出的变量 12-26; (c) 可能基于交叉验证做出不同的选择。

练习 20.18 AL1999 数据集来自 Angrist 和 Lavy (1999)。它包含 4067 个关于课堂测试成绩和解释变量的观察结果,包括第 20.30 节中描述的变量。在 \(20.30\) 节中,我们使用 Angrist-Levy 变量 (20.42) 作为工具,报告了关于分类、弱势、入学和年级 = 4 的虚拟的阅读测试分数 (avgverb) 的非参数工具变量回归。重复分析,但不使用数学测试分数 (avgmath) 作为因变量,而不是读取测试分数。评论与阅读测试成绩结果的异同。