第7章: 最小二乘法的渐近理论

7 最小二乘法的渐近理论

7.1 介绍

事实证明，最小二乘估计的渐近理论同样适用于投影模型和线性CEF模型。因此，本章的结果将针对第 2.18 节中描述的更广泛的投影模型进行阐述。回想一下，模型是 \(Y=X^{\prime} \beta+e\)，具有线性投影系数 \(\beta=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y]\)。

本章中保留的假设是随机采样（假设 1.2）和有限二阶矩（假设 2.1）。为了清楚起见，我们在此重申这些内容。

假设7.1

变量 \(\left(Y_{i}, X_{i}\right), i=1, \ldots, n\) 是独立同分布的。

2.\(\mathbb{E}\left[Y^{2}\right]<\infty\)。

3.\(\mathbb{E}\|X\|^{2}<\infty\)。

\(\boldsymbol{Q}_{X X}=\mathbb{E}\left[X X^{\prime}\right]\) 是正定的。

分布结果需要将这些假设强化到有限四阶矩。我们在 7.3 节中讨论具体条件。

7.2 最小二乘估计器的一致性

在本节中，我们使用弱大数定律（WLLN、定理 6.1 和定理 6.2）和连续映射定理（CMT、定理 6.6）来证明最小二乘估计器 \(\widehat{\beta}\) 对于投影系数 \(\beta\) 是一致的。

这一推导基于三个关键组成部分。首先，OLS 估计器可以写成一组样本矩的连续函数。其次，WLLN 显示样本矩在概率上收敛于总体矩。第三，CMT 指出连续函数保持概率收敛。现在我们先简要解释每个步骤，然后更详细地解释。首先，观察 OLS 估计器

\[ \widehat{\beta}=\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i}\right)=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\boldsymbol{Q}}_{X Y} \]

是样本矩 \(\widehat{\boldsymbol{Q}}_{X X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\) 和 \(\widehat{\boldsymbol{Q}}_{X Y}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i}\) 的函数。

其次，通过应用 WLLN，这些样本矩在概率上收敛到其总体期望。具体来说，\(\left(Y_{i}, X_{i}\right)\) 相互独立同分布。意味着 \(\left(Y_{i}, X_{i}\right)\) 的任何函数都是独立同分布的，包括 \(X_{i} X_{i}^{\prime}\) 和 \(X_{i} Y_{i}\)。在假设 7.1 下，这些变量也有有限的期望。在这些条件下，WLLN 意味着 \(n \rightarrow \infty\)，

\[ \widehat{\boldsymbol{Q}}_{X X}=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \underset{p}{\longrightarrow}\left[X X^{\prime}\right]=\boldsymbol{Q}_{X X} \]

和

\[ \widehat{\boldsymbol{Q}}_{X Y}=\frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i} \underset{p}{\longrightarrow}[X Y]=\boldsymbol{Q}_{X Y} \]

第三，CMT 允许我们组合这些方程来表明 \(\widehat{\beta}\) 在概率上收敛于 \(\beta\)。具体来说，作为 \(n \rightarrow \infty\)，

\[ \widehat{\beta}=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\boldsymbol{Q}}_{X Y} \underset{p}{\longrightarrow} \boldsymbol{Q}_{X X}^{-1} \boldsymbol{Q}_{X Y}=\beta . \]

我们已经将 \(\widehat{\beta} \underset{p}{\rightarrow} \beta\) 显示为 \(n \rightarrow \infty\)。换句话说，随着样本量 \(n\) 变大，OLS 估计器概率收敛到投影系数向量 \(\beta\)。

为了充分理解 CMT 的应用，我们详细介绍一下它。我们可以写

\[ \widehat{\beta}=g\left(\widehat{\boldsymbol{Q}}_{X X}, \widehat{\boldsymbol{Q}}_{X Y}\right) \]

其中 \(g(\boldsymbol{A}, \boldsymbol{b})=\boldsymbol{A}^{-1} \boldsymbol{b}\) 是 \(\boldsymbol{A}\) 和 \(\boldsymbol{b}\) 的函数。函数 \(\boldsymbol{g}(\boldsymbol{A}, \boldsymbol{b})\) 是 \(\boldsymbol{A}\) 和 \(\boldsymbol{b}\) 在所有参数值处的连续函数，使得 \(A^{-1}\) 存在。假设 \(7.1\) 指定 \(\boldsymbol{Q}_{X X}\) 是正定的，这意味着 \(g(\boldsymbol{A}, \boldsymbol{b})=\boldsymbol{A}^{-1} \boldsymbol{b}\) 存在。因此 \(g(\boldsymbol{A}, \boldsymbol{b})=\boldsymbol{A}^{-1} \boldsymbol{b}\) 在 \(g(\boldsymbol{A}, \boldsymbol{b})=\boldsymbol{A}^{-1} \boldsymbol{b}\) 处连续。这证明了 (7.2) 中 CMT 的应用是合理的。

对于（7.2）的稍微不同的证明，回想一下（4.6）意味着

\[ \widehat{\beta}-\beta=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\boldsymbol{Q}}_{X e} \]

在哪里

\[ \widehat{\boldsymbol{Q}}_{X e}=\frac{1}{n} \sum_{i=1}^{n} X_{i} e_{i} . \]

WLLN 和 (2.25) 意味着

\[ \widehat{\boldsymbol{Q}}_{X e} \underset{p}{\longrightarrow} \mathbb{E}[X e]=0 . \]

所以

\[ \widehat{\beta}-\beta=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\boldsymbol{Q}}_{X e} \underset{p}{\longrightarrow} \boldsymbol{Q}_{X X}^{-1} 0=0 \]

与 \(\widehat{\beta} \underset{p}{\vec{p}}\) 相同。定理7.1 最小二乘法的一致性。在假设 7.1 下，\(\widehat{\boldsymbol{Q}}_{X X} \vec{p}\)、\(\boldsymbol{Q}_{X X}, \widehat{\boldsymbol{Q}}_{X Y} \underset{p}{\boldsymbol{Q}_{X Y}}, \widehat{\boldsymbol{Q}}_{X X}^{-1} \vec{p} \boldsymbol{Q}_{X X}^{-1}, \widehat{\boldsymbol{Q}}_{X e} \underset{p}{\rightarrow} 0\) 和 \(\widehat{\beta} \underset{p}{\overrightarrow{3}} \beta\) 为 \(n \rightarrow \infty\)

定理 \(7.1\) 表明，随着 \(n\) 的增加，OLS 估计器 \(\widehat{\beta}\) 在概率上收敛到 \(\beta\)，因此 \(\widehat{\beta}\) 与 \(\beta\) 是一致的。在随机顺序表示法中，定理 \(7.1\) 可以等效地写为

\[ \widehat{\beta}=\beta+o_{p}(1) . \]

为了说明样本大小对最小二乘估计量的影响，请考虑最小二乘回归

\[ \log (\text { wage })=\beta_{1} \text { education }+\beta_{2} \text { experience }+\beta_{3} \text { experience }^{2}+\beta_{4}+e . \]

我们使用 2009 年 3 月 CPS 中的 24,344 名白人男性样本。我们对观测值进行随机排序，并从前 5 个观测值开始，通过最小二乘法顺序估计模型，直到使用完整样本。估计的顺序如图 7.1 所示。您可以看到最小二乘估计如何随样本大小变化。随着观察数量的增加，它稳定在全样本估计 \(\widehat{\beta}_{1}=0.114\) 上。

图 7.1：最小二乘估计量作为样本大小的函数

7.3 渐近正态性

本章一开始我们就讨论了对 OLS 估计器 \(\widehat{\beta}\) 分布的近似的需要。在 \(7.2\) 节中，我们证明了 \(\widehat{\beta}\) 在概率上收敛于 \(\beta\)。一致性是一个很好的第一步，但其本身并不能描述估计量的分布。在本节中，我们得出一个通常称为渐近分布的近似值。

推导首先将估计器编写为样本矩的函数。其中一个矩必须写成零均值随机向量之和并进行归一化，以便可以应用中心极限定理。步骤如下。

将方程 (7.3) 乘以 \(\sqrt{n}\)。这产生表达式

\[ \sqrt{n}(\widehat{\beta}-\beta)=\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^{n} X_{i} e_{i}\right) \]

这表明归一化中心估计量 \(\sqrt{n}(\widehat{\beta}-\beta)\) 是样本平均值 \(n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\) 和归一化样本平均值 \(n^{-1 / 2} \sum_{i=1}^{n} X_{i} e_{i}\) 的函数。

随机对 \(\left(Y_{i}, X_{i}\right)\) 是独立同分布的，这意味着它们在 \(i\) 上是独立的并且分布相同。 \(\left(Y_{i}, X_{i}\right)\) 的任何函数也是独立同分布的。这包括 \(e_{i}=Y_{i}-X_{i}^{\prime} \beta\) 和产品 \(X_{i} e_{i}\)。后者是零均值 \((\mathbb{E}[X e]=0)\) 并具有 \(k \times k\) 协方差矩阵

\[ \Omega=\mathbb{E}\left[(X e)(X e)^{\prime}\right]=\mathbb{E}\left[X X^{\prime} e^{2}\right] . \]

我们在下面证明，在强化假设 7.1 的情况下，\(\Omega\) 具有有限元。由于 \(X_{i} e_{i}\) 是独立同分布、均值为零和有限方差，因此中心极限定理（定理 6.3）意味着

\[ \frac{1}{\sqrt{n}} \sum_{i=1}^{n} X_{i} e_{i} \underset{d}{\longrightarrow} \mathrm{N}(0, \Omega) \]

我们在这里说明所需的条件。

假设7.2

变量 \(\left(Y_{i}, X_{\boldsymbol{i}}\right), i=1, \ldots, n\) 是 i.i.d..

2.\(\mathbb{E}\left[Y^{4}\right]<\infty\)。

3.\(\mathbb{E}\|X\|^{4}<\infty\)。

\(\boldsymbol{Q}_{X X}=\mathbb{E}\left[X X^{\prime}\right]\) 是正定的。

假设 \(7.2\) 意味着 \(\Omega<\infty\)。要查看这一点，请使用其 \(j \ell^{t h}\) 元素 \(\mathbb{E}\left[X_{j} X_{\ell} e^{2}\right]\)。定理 2.9.6 表明 \(\mathbb{E}\left[e^{4}\right]<\infty\)。根据期望不等式 (B.30)，\(\Omega\) 的 \(j \ell^{t h}\) 元素的边界为

\[ \left|\mathbb{E}\left[X_{j} X_{\ell} e^{2}\right]\right| \leq \mathbb{E}\left|X_{j} X_{\ell} e^{2}\right|=\mathbb{E}\left[\left|X_{j}\right|\left|X_{\ell}\right| e^{2}\right] . \]

通过柯西-施瓦茨不等式 (B.32) 的两次应用，这小于

\[ \left(\mathbb{E}\left[X_{j}^{2} X_{\ell}^{2}\right]\right)^{1 / 2}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 2} \leq\left(\mathbb{E}\left[X_{j}^{4}\right]\right)^{1 / 4}\left(\mathbb{E}\left[X_{\ell}^{4}\right]\right)^{1 / 4}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 2}<\infty \]

其中有限性在假设 7.2.2 和 7.2.3 下成立。因此\(\Omega<\infty\)。

证明 \(\Omega\) 元素有限的另一种方法是使用矩阵范数 \(\|\cdot\|\)（参见附录 A.23）。然后通过期望不等式、柯西-施瓦茨不等式、假设 7.2.3 和 \(\mathbb{E}\left[e^{4}\right]<\infty\)，

\[ \|\Omega\| \leq \mathbb{E}\left\|X X^{\prime} e^{2}\right\|=\mathbb{E}\left[\|X\|^{2} e^{2}\right] \leq\left(\mathbb{E}\|X\|^{4}\right)^{1 / 2}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 2}<\infty . \]

这是一个更紧凑的论证（通常被描述为更优雅），但是在不理解论证的每个步骤的符号和适用性的情况下，不应进行此类操作。

无论如何，协方差矩阵的有限性意味着我们可以应用多元 CLT（定理 6.3）。

定理 7.2 假设 \(7.2\) 意味着

\[ \Omega<\infty \]

和

\[ \frac{1}{\sqrt{n}} \sum_{i=1}^{n} X_{i} e_{i} \underset{d}{\longrightarrow} \mathrm{N}(0, \Omega) \]

作为 \(n \rightarrow \infty\)

将(7.1)、(7.5)和(7.7)放在一起，

\[ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \boldsymbol{Q}_{X X}^{-1} \mathrm{~N}(0, \Omega)=\mathrm{N}\left(0, \boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}\right) \]

作为 \(n \rightarrow \infty\)。最终的等式源自法向量的线性组合也是法向量的性质（定理 5.2）。

我们导出了最小二乘估计量分布的渐近正态近似。

定理7.3最小二乘估计量的渐近正态性根据假设 7.2，如 \(n \rightarrow \infty\)

\[ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \]

其中\(\boldsymbol{Q}_{X X}=\mathbb{E}\left[X X^{\prime}\right], \Omega=\mathbb{E}\left[X X^{\prime} e^{2}\right]\)，和

\[ \boldsymbol{V}_{\beta}=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1} . \]

在随机顺序表示法中，定理 \(7.3\) 意味着 \(\widehat{\beta}=\beta+O_{p}\left(n^{-1 / 2}\right)\) 比 (7.4) 更强。

矩阵 \(\boldsymbol{V}_{\beta}=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}\) 是 \(\sqrt{n}(\widehat{\beta}-\beta)\) 渐近分布的方差。因此，\(\boldsymbol{V}_{\beta}\) 通常被称为 \(\widehat{\beta}\) 的渐近协方差矩阵。表达式 \(\boldsymbol{V}_{\beta}=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}\) 称为三明治形式，因为矩阵 \(\Omega\) 夹在 \(\boldsymbol{Q}_{X X}^{-1}\) 的两个副本之间。比较 (7.8) 中给出的渐近分布的方差和 (4.10) 中给出的 CEF 模型中的有限样本条件方差是有用的：

\[ \boldsymbol{V}_{\widehat{\beta}}=\operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} . \]

请注意，\(\boldsymbol{V}_{\widehat{\beta}}\) 是 \(\widehat{\beta}\) 的精确条件方差，\(\boldsymbol{V}_{\beta}\) 是 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近方差。因此，\(\boldsymbol{V}_{\beta}\) 应该（大约）是 \(n\) 的倍数，是 \(\boldsymbol{V}_{\widehat{\beta}}\) 或 \(\boldsymbol{V}_{\beta} \approx n \boldsymbol{V}_{\widehat{\beta}}\) 的倍数。事实上，将 (7.9) 乘以 \(n\) 并分布我们发现

\[ n \boldsymbol{V}_{\widehat{\beta}}=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \]

它看起来像 \(\boldsymbol{V}_{\beta}\) 的估计器。事实上，如 \(n \rightarrow \infty, n \boldsymbol{V}_{\widehat{\beta}} \underset{p}{\rightarrow} \boldsymbol{V}_{\beta}\)。表达式 \(\boldsymbol{V}_{\widehat{\beta}}\) 对于实际推理（例如标准误差和测试的计算）很有用，因为它是估计器 \(\widehat{\beta}\) 的方差，而 \(V_{\beta}\) 对于渐近理论很有用，因为它在极限中被很好地定义为\(n\) 趋于无穷大。我们将使用这两个符号，并且建议遵守此约定。

有一种特殊情况，\(\Omega\) 和 \(\boldsymbol{V}_{\beta}\) 会简化。假设

\[ \operatorname{cov}\left(X X^{\prime}, e^{2}\right)=0 . \]

条件（7.10）在同方差线性回归模型中成立，但范围更广。在 (7.10) 下，渐近方差公式简化为

\[ \begin{aligned} \Omega &=\mathbb{E}\left[X X^{\prime}\right] \mathbb{E}\left[e^{2}\right]=\boldsymbol{Q}_{X X} \sigma^{2} \\ \boldsymbol{V}_{\beta} &=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}=\boldsymbol{Q}_{X X}^{-1} \sigma^{2} \equiv \boldsymbol{V}_{\beta}^{0} . \end{aligned} \]

在（7.11）中，我们定义\(\boldsymbol{V}_{\beta}^{0}=\boldsymbol{Q}_{X X}^{-1} \sigma^{2}\)无论（7.10）是真还是假。当 (7.10) 为真时，则为 \(\boldsymbol{V}_{\beta}=\boldsymbol{V}_{\beta}^{0}\)，否则为 \(\boldsymbol{V}_{\beta} \neq \boldsymbol{V}_{\beta}^{0}\)。我们将 \(\boldsymbol{V}_{\beta}^{0}\) 称为同方差渐近协方差矩阵。

定理 \(7.3\) 指出，当样本量 \(n\) 足够大时，最小二乘估计量的采样分布在重新缩放后近似正态分布。这对于满足假设 7.2 条件的 \((Y, X)\) 的所有联合分布都成立。因此，渐近正态性通常用于近似 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的有限样本分布。

困难在于，对于任何固定的 \(n\)，\(\widehat{\beta}\) 的采样分布可能与正态分布相差任意远。正态近似随着 \(n\) 的增加而改善，但是 \(n\) 应该有多大才能使近似有用？不幸的是，这个合理的问题没有简单的答案。问题在于，无论样本量有多大，对于满足假设的某些数据分布，正态近似都是任意差的。我们通过模拟来说明这个问题。设\(Y=\beta_{1} X+\beta_{2}+e\)，其中\(X\) 是\(\mathrm{N}(0,1)\)，\(e\) 独立于具有双帕累托密度\(n\) 的\(X\)。如果 \(n\) 错误 \(n\) 的均值和方差为零 \(n\)。然而，当 \(n\) 接近 2 时，其方差发散至无穷大。在这种情况下，归一化最小二乘斜率估计器 \(n\) 对于任何 \(n\) 都具有 \(n\) 渐近分布。在图 \(n\) a) 中，我们显示了归一化估计器 \(n\) 的有限样本密度，设置 \(\widehat{\beta}\) 并改变参数 \(\widehat{\beta}\)。对于 \(\widehat{\beta}\) 来说，密度非常接近 \(\widehat{\beta}\) 密度。随着 \(\widehat{\beta}\) 的减小，密度发生显着变化，大部分概率质量集中在零附近。

另一个例子如图7.2(b)所示。这里的模型是 \(Y=\beta+e\) 其中

\[ e=\frac{u^{r}-\mathbb{E}\left[u^{r}\right]}{\left(\mathbb{E}\left[u^{2 r}\right]-\left(\mathbb{E}\left[u^{r}\right]\right)^{2}\right)^{1 / 2}} \]

和 \(u \sim \mathrm{N}(0,1)\)。我们展示了 \(\sqrt{n}(\widehat{\beta}-\beta)\) 对于 \(n=100\) 的抽样分布，随 \(r=1,4,6\) 和 8 的变化而变化。随着 \(r\) 的增加，抽样分布变得高度偏斜和非正态。从图 \(7.2\) 中得到的教训是，\(\mathrm{N}(0,1)\) 渐近近似永远无法保证准确。

双帕累托误差

错误处理(7.12)

图 7.2：归一化 OLS 估计器的密度

7.4 联合分配

定理 \(7.3\) 给出系数估计量的联合渐近分布。我们可以使用结果来研究系数估计器之间的协方差。为简单起见，采用两个回归量、无截距和同方差的情况。假设回归量均值为零，方差为一，相关性为 \(\rho\)。然后使用 \(2 \times 2\) 矩阵的求逆公式，

\[ \boldsymbol{V}_{\beta}^{0}=\sigma^{2} \boldsymbol{Q}_{X X}^{-1}=\frac{\sigma^{2}}{1-\rho^{2}}\left[\begin{array}{cc} 1 & -\rho \\ -\rho & 1 \end{array}\right] . \]

因此，如果 \(X_{1}\) 和 \(X_{2}\) 正相关，\((\rho>0)\) 则 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 负相关（反之亦然）。

为了便于说明，图 7.3(a) 显示了 \(\beta_{1}=\beta_{2}=0\) 和 \(\rho=0.5\) 时 \(\widehat{\beta}_{1}-\beta_{1}\) 和 \(\widehat{\beta}_{2}-\beta_{2}\) 联合渐近分布的概率等值线。系数估计量呈负相关，因为回归量呈正相关。这意味着如果 \(\widehat{\beta}_{1}\) 异常为负，则 \(\widehat{\beta}_{2}\) 很可能异常为正，反之亦然。我们也不太可能观察到 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 都异常大且符号相同。

回归量的相关性与系数估计的相关性具有相反符号这一发现对于同方差性假设很敏感。如果误差是异方差的，则无法保证这种关系。

这可以通过一个简单的构造示例看出。假设 \(X_{1}\) 和 \(X_{2}\) 仅采用值 \(\{-1,+1\}\)，与 \(\mathbb{P}\left[X_{1}=X_{2}=1\right]=\mathbb{P}\left[X_{1}=X_{2}=-1\right]=3 / 8\) 和 \(\mathbb{P}\left[X_{1}=1, X_{2}=-1\right]=\) 对称。您可以检查回归量是否为零均值、单位方差和相关性 \(0.5\)，这与图 7.3(a) 中显示的设置相同。

现在假设误差是异方差的。具体来说，假设 \(\mathbb{E}\left[e^{2} \mid X_{1}=X_{2}\right]=5 / 4\) 和 \(\mathbb{E}\left[e^{2} \mid X_{1} \neq X_{2}\right]=1 / 4\)。您可以检查 \(\mathbb{E}\left[e^{2}\right]=1\)、\(\mathbb{E}\left[X_{1}^{2} e^{2}\right]=\mathbb{E}\left[X_{2}^{2} e^{2}\right]=1\) 和 \(\mathbb{E}\left[X_{1} X_{2} e_{i}^{2}\right]=7 / 8\)。那里-

同方差情况

异方差情况

图 7.3：\(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 的联合分布等值线

前面

\[ \begin{aligned} \boldsymbol{V}_{\beta} &=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1} \\ &=\frac{9}{16}\left[\begin{array}{cc} 1 & -\frac{1}{2} \\ -\frac{1}{2} & 1 \end{array}\right]\left[\begin{array}{cc} 1 & \frac{7}{8} \\ \frac{7}{8} & 1 \end{array}\right]\left[\begin{array}{cc} 1 & -\frac{1}{2} \\ -\frac{1}{2} & 1 \end{array}\right] \\ &=\frac{4}{3}\left[\begin{array}{cc} 1 & \frac{1}{4} \\ \frac{1}{4} & 1 \end{array}\right] \end{aligned} \]

因此，系数估计量 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 呈正相关（它们的相关性为 \(1 / 4\)）。它们渐近分布的联合概率等值线如图 7.3(b) 所示。我们可以看到这两个估计量是如何正相关的。

通过这个例子我们发现，在存在异方差的情况下，回归量的相关性和参数估计量的相关性之间不存在简单的关系。

我们可以扩展上述分析来研究系数子向量之间的协方差。例如，划分\(X^{\prime}=\left(X_{1}^{\prime}, X_{2}^{\prime}\right)\)和\(\beta^{\prime}=\left(\beta_{1}^{\prime}, \beta_{2}^{\prime}\right)\)，我们可以将通用模型写为

\[ Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e \]

系数估计为 \(\widehat{\beta}^{\prime}=\left(\widehat{\beta}_{1}^{\prime}, \widehat{\beta}_{2}^{\prime}\right)\)。制作分区

\[ \boldsymbol{Q}_{X X}=\left[\begin{array}{ll} \boldsymbol{Q}_{11} & \boldsymbol{Q}_{12} \\ \boldsymbol{Q}_{21} & \boldsymbol{Q}_{22} \end{array}\right], \quad \Omega=\left[\begin{array}{ll} \Omega_{11} & \Omega_{12} \\ \Omega_{21} & \Omega_{22} \end{array}\right] . \]

从 (2.43)

\[ \boldsymbol{Q}_{X X}^{-1}=\left[\begin{array}{cc} \boldsymbol{Q}_{11 \cdot 2}^{-1} & -\boldsymbol{Q}_{11 \cdot 2}^{-1} \boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \\ -\boldsymbol{Q}_{22 \cdot 1}^{-1} \boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} & \boldsymbol{Q}_{22 \cdot 1}^{-1} \end{array}\right] \]

其中 \(\boldsymbol{Q}_{11 \cdot 2}=\boldsymbol{Q}_{11}-\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}\) 和 \(\boldsymbol{Q}_{22 \cdot 1}=\boldsymbol{Q}_{22}-\boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} \boldsymbol{Q}_{12}\)。因此当误差是同方差时

\[ \operatorname{cov}\left(\widehat{\beta}_{1}, \widehat{\beta}_{2}\right)=-\sigma^{2} \boldsymbol{Q}_{11 \cdot 2}^{-1} \boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \]

这是二回归量情况的矩阵推广。

一般来说，你可以证明（练习 7.5）

\[ \boldsymbol{V}_{\boldsymbol{\beta}}=\left[\begin{array}{ll} \boldsymbol{V}_{11} & \boldsymbol{V}_{12} \\ \boldsymbol{V}_{21} & \boldsymbol{V}_{22} \end{array}\right] \]

在哪里

\[ \begin{aligned} \boldsymbol{V}_{11} &=\boldsymbol{Q}_{11 \cdot 2}^{-1}\left(\Omega_{11}-\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \Omega_{21}-\Omega_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}+\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \Omega_{22} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}\right) \boldsymbol{Q}_{11 \cdot 2}^{-1} \\ \boldsymbol{V}_{21} &=\boldsymbol{Q}_{22 \cdot 1}^{-1}\left(\Omega_{21}-\boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} \Omega_{11}-\Omega_{22} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}+\boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} \Omega_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}\right) \boldsymbol{Q}_{11 \cdot 2}^{-1} \\ \boldsymbol{V}_{22} &=\boldsymbol{Q}_{22 \cdot 1}^{-1}\left(\Omega_{22}-\boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} \Omega_{12}-\Omega_{21} \boldsymbol{Q}_{11}^{-1} \boldsymbol{Q}_{12}+\boldsymbol{Q}_{21} \boldsymbol{Q}_{11}^{-1} \Omega_{11} \boldsymbol{Q}_{11}^{-1} \boldsymbol{Q}_{12}\right) \boldsymbol{Q}_{22 \cdot 1}^{-1} \end{aligned} \]

不幸的是，这些表达方式并不容易解释。

7.5 误差方差估计器的一致性

使用 \(7.2\) 节的方法，我们可以证明 \(\widehat{\sigma}^{2}=n^{-1} \sum_{i=1}^{n} \widehat{e}_{i}^{2}\) 和 \(s^{2}=(n-k)^{-1} \sum_{i=1}^{n} \widehat{e}_{i}^{2}\) 的估计量对于 \(\sigma^{2}\) 是一致的。

技巧是将残差 \(\widehat{e}_{i}\) 写为等于误差 \(e_{i}\) 加上偏差

\[ \widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}=e_{i}-X_{i}^{\prime}(\widehat{\beta}-\beta) . \]

因此残差平方等于误差平方加上偏差

\[ \widehat{e}_{i}^{2}=e_{i}^{2}-2 e_{i} X_{i}^{\prime}(\widehat{\beta}-\beta)+(\widehat{\beta}-\beta)^{\prime} X_{i} X_{i}^{\prime}(\widehat{\beta}-\beta) . \]

因此，当我们取残差平方的平均值时，我们得到了平方误差的平均值，加上两项（希望）渐近可以忽略不计。这个平均值是：

\[ \widehat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}-2\left(\frac{1}{n} \sum_{i=1}^{n} e_{i} X_{i}^{\prime}\right)(\widehat{\beta}-\beta)+(\widehat{\beta}-\beta)^{\prime}\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)(\widehat{\beta}-\beta) . \]

WLLN 意味着

\[ \begin{aligned} &\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \underset{p}{\longrightarrow} \sigma^{2} \\ &\frac{1}{n} \sum_{i=1}^{n} e_{i} X_{i}^{\prime} \underset{p}{\longrightarrow} \mathbb{E}\left[e X^{\prime}\right]=0 \\ &\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \underset{p}{\longrightarrow}\left[X X^{\prime}\right]=\boldsymbol{Q}_{X X} \end{aligned} \]

定理\(7.1\)表明\(\widehat{\beta} \underset{p}{\rightarrow} \beta\)。因此，(7.18) 按期望收敛到 \(\sigma^{2}\) 的概率。

最后，由于 \(n /(n-k) \rightarrow 1\) 与 \(n \rightarrow \infty\) 相同，因此 \(s^{2}=\left(\frac{n}{n-k}\right) \widehat{\sigma}^{2} \underset{p}{\rightarrow} \sigma^{2}\) 也相同。因此两个估计量是一致的。定理 7.4 在假设 7.1 下，\(\widehat{\sigma}^{2} \underset{p}{\longrightarrow} \sigma^{2}\) 和 \(s^{2} \underset{p}{\rightarrow} \sigma^{2}\) 与 \(n \rightarrow \infty\) 相同。

7.6 同方差协方差矩阵估计

定理 \(7.3\) 表明 \(\sqrt{n}(\widehat{\beta}-\beta)\) 对于渐近协方差矩阵 \(\boldsymbol{V}_{\beta}\) 是渐近正态的。对于渐近推理（置信区间和测试），我们需要 \(\boldsymbol{V}_{\beta}\) 的一致估计器。在同方差下，\(\boldsymbol{V}_{\beta}\) 简化为 \(\boldsymbol{V}_{\beta}^{0}=\boldsymbol{Q}_{X X}^{-1} \sigma^{2}\)，在本节中，我们考虑估计 \(V_{\beta}^{0}\) 的简化问题。

\(\boldsymbol{Q}_{X X}\) 的标准矩估计量是 (7.1) 中定义的 \(\widehat{\boldsymbol{Q}}_{X X}\)，因此 \(\boldsymbol{Q}_{X X}^{-1}\) 的估计量是 \(\widehat{\boldsymbol{Q}}_{X X}^{-1}\)。 \(\sigma^{2}\) 的标准估计量是（4.31）中定义的无偏估计量 \(s^{2}\)。因此 \(\boldsymbol{V}_{\beta}^{0}=\boldsymbol{Q}_{X X}^{-1} \sigma^{2}\) 的自然插件估计器是 \(\widehat{\boldsymbol{V}}_{\beta}^{0}=\widehat{\boldsymbol{Q}}_{X X}^{-1} s^{2}\)。

\(\widehat{\boldsymbol{V}}_{\beta}^{0}\) 与 \(\boldsymbol{V}_{\beta}^{0}\) 的一致性源自矩估计器 \(\widehat{\boldsymbol{Q}}_{X X}\) 和 \(s^{2}\) 的一致性以及连续映射定理的应用。具体来说，定理\(7.1\)建立了\(\widehat{\boldsymbol{Q}}_{X X} \underset{p}{\rightarrow} \boldsymbol{Q}_{X X}\)，定理\(7.4\)建立了\(s^{2} \underset{p}{\rightarrow} \sigma^{2}\)。函数 \(\boldsymbol{V}_{\beta}^{0}=\boldsymbol{Q}_{X X}^{-1} \sigma^{2}\) 是 \(\widehat{\boldsymbol{V}}_{\beta}^{0}\) 和 \(\widehat{\boldsymbol{V}}_{\beta}^{0}\) 的连续函数，只要 \(\widehat{\boldsymbol{V}}_{\beta}^{0}\) 成立，这在假设 7.1.4 下成立。 CMT 得出结论：

\[ \widehat{\boldsymbol{V}}_{\beta}^{0}=\widehat{\boldsymbol{Q}}_{X X}^{-1} s^{2} \underset{p}{\longrightarrow} \boldsymbol{Q}_{X X}^{-1} \sigma^{2}=\boldsymbol{V}_{\beta}^{0} \]

这样 \(\widehat{\boldsymbol{V}}_{\beta}^{0}\) 与 \(\boldsymbol{V}_{\beta}^{0}\) 是一致的。

定理 7.5 在假设 7.1 下，\(\widehat{\boldsymbol{V}}_{\beta}^{0} \underset{p}{\rightarrow} \boldsymbol{V}_{\beta}^{0}\) 为 \(n \rightarrow \infty\)

注意到定理 \(7.5\) 不需要同方差假设是有启发性的。也就是说，无论回归是同方差还是异方差，\(\widehat{V}_{\beta}^{0}\) 对于 \(\boldsymbol{V}_{\beta}^{0}\) 都是一致的。然而，\(\boldsymbol{V}_{\beta}^{0}=\boldsymbol{V}_{\beta}=\operatorname{avar}[\widehat{\beta}]\) 仅在同方差下。因此，在一般情况下，\(\widehat{\boldsymbol{V}}_{\beta}^{0}\)对于定义明确但无用的对象是一致的。

7.7 异方差协方差矩阵估计

定理 \(7.3\) 确定 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近协方差矩阵为 \(\boldsymbol{V}_{\beta}=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}\)。我们现在考虑在不施加同方差的情况下估计该协方差矩阵。标准方法是使用插件估计器，用样本矩替换未知数。

如上一节所述，\(\boldsymbol{Q}_{X X}^{-1}\) 的自然估计量是 \(\widehat{\boldsymbol{Q}}_{X X}^{-1}\)，其中 \(\widehat{\boldsymbol{Q}}_{X X}\) 在 (7.1) 中定义。 \(\Omega\) 的矩估计器是

\[ \widehat{\Omega}=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{e}_{i}^{2}, \]

导致插件协方差矩阵估计器

\[ \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\Omega} \widehat{\boldsymbol{Q}}_{X X}^{-1} . \]

您可以检查 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 0}\)，其中 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 0}\) 是 (4.36) 中的 HC0 协方差矩阵估计器。

如定理7.1所示，\(\widehat{\boldsymbol{Q}}_{X X}^{-1} \underset{p}{\rightarrow} \boldsymbol{Q}_{X X}^{-1}\)，所以我们只需验证\(\widehat{\Omega}\)的一致性即可。关键是将残差平方 \(\widehat{e}_{i}^{2}\) 替换为误差平方 \(e_{i}^{2}\)，然后证明差异渐近可以忽略不计。

具体来说，观察

\[ \begin{aligned} \widehat{\Omega} &=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{e}_{i}^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} e_{i}^{2}+\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\left(\widehat{e}_{i}^{2}-e_{i}^{2}\right) . \end{aligned} \]

第一项是 i.i.d 的平均值。随机变量 \(X_{i} X_{i}^{\prime} e_{i}^{2}\)，因此通过 WLLN 收敛到其期望的概率，即

\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} e_{i}^{2} \underset{p}{\longrightarrow}\left[X X^{\prime} e^{2}\right]=\Omega . \]

从技术上讲，这要求 \(\Omega\) 具有有限元，如 (7.6) 所示。

为了证明 \(\widehat{\Omega}\) 与 \(\Omega\) 是一致的，还需要证明

\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\left(\widehat{e}_{i}^{2}-e_{i}^{2}\right) \underset{p}{\longrightarrow} 0 \]

有多种方法可以做到这一点。一个相当简单但有点乏味的推导是首先使用矩阵范数应用三角不等式 (B.16)：

然后回忆残差平方的表达式 (7.17)，应用三角不等式 (B.1)，然后应用施瓦茨不等式 (B.12) 两次

\[ \begin{aligned} \left|\widehat{e}_{i}^{2}-e_{i}^{2}\right| & \leq 2\left|e_{i} X_{i}^{\prime}(\widehat{\beta}-\beta)\right|+(\widehat{\beta}-\beta)^{\prime} X_{i} X_{i}^{\prime}(\widehat{\beta}-\beta) \\ &=2\left|e_{i}\right|\left|X_{i}^{\prime}(\widehat{\beta}-\beta)\right|+\left|(\widehat{\beta}-\beta)^{\prime} X_{i}\right|^{2} \\ & \leq 2\left|e_{i}\right|\left\|X_{i}\right\|\|\widehat{\beta}-\beta\|+\left\|X_{i}\right\|^{2}\|\widehat{\beta}-\beta\|^{2} \end{aligned} \]

结合（7.21）和（7.22），我们发现

\[ \begin{aligned} \left\|\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\left(\widehat{e}_{i}^{2}-e_{i}^{2}\right)\right\| & \leq 2\left(\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{3}\left|e_{i}\right|\right)\|\widehat{\beta}-\beta\|+\left(\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{4}\right)\|\widehat{\beta}-\beta\|^{2} \\ &=o_{p}(1) . \end{aligned} \]

表达式为 \(o_{p}(1)\) 因为 \(\|\widehat{\beta}-\beta\| \underset{p}{\longrightarrow} 0\) 和括号中的两个平均值都是假设 \(7.2\) 下具有有限期望的随机变量的平均值（因此是 \(O_{p}(1)\) ）。事实上，根据霍尔德不等式 (B.31)

\[ \mathbb{E}\left[\|X\|^{3}|e|\right] \leq\left(\mathbb{E}\left[\left(\|X\|^{3}\right)^{4 / 3}\right]\right)^{3 / 4}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 4}=\left(\mathbb{E}\|X\|^{4}\right)^{3 / 4}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 4}<\infty . \]

我们已经根据需要建立了(7.20)。定理 7.6 根据假设 7.2，如 \(n \rightarrow \infty, \widehat{\Omega} \underset{p}{\longrightarrow} \Omega\) 和 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)

有关此结果的替代证明，请参阅第 7.20 节。

7.8 协方差矩阵表示法总结

我们引入的符号可能有些令人困惑，因此将其写在一个地方会很有帮助。

\(\widehat{\beta}\) 的精确方差（在线性回归模型的假设下）和 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近方差（在线性投影模型的更一般假设下）为

\[ \begin{aligned} &\boldsymbol{V}_{\widehat{\beta}}=\operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{D} \boldsymbol{X}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \\ &\boldsymbol{V}_{\beta}=\operatorname{avar}[\sqrt{n}(\widehat{\beta}-\beta)]=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1} \end{aligned} \]

这两个协方差矩阵的 HC0 估计量是

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 0} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{e}_{i}^{2}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \\ \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0} &=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\Omega} \widehat{\boldsymbol{Q}}_{X X}^{-1} \end{aligned} \]

并满足简单关系\(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC}}\)。

类似地，在同方差假设下，精确方差和渐近方差简化为

\[ \begin{aligned} \boldsymbol{V}_{\widehat{\beta}}^{0} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \sigma^{2} \\ \boldsymbol{V}_{\beta}^{0} &=\boldsymbol{Q}_{X X}^{-1} \sigma^{2} . \end{aligned} \]

他们的标准估计量是

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} s^{2} \\ \widehat{\boldsymbol{V}}_{\beta}^{0} &=\widehat{\boldsymbol{Q}}_{X X}^{-1} s^{2} \end{aligned} \]

这也满足关系 \(\widehat{\boldsymbol{V}}_{\beta}^{0}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0}\)。

在构建检验统计量和标准误差时，精确的公式和估计量非常有用。然而，出于理论目的，渐近公式（方差及其估计）更有用，因为随着样本大小的不同，这些公式保留了非生成限制。这就是为什么两组符号都很有用。

7.9 替代协方差矩阵估计器*

在 \(7.7\) 节中，我们引入了 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}\) 作为 \(\boldsymbol{V}_{\beta} \cdot \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}\) 的估计器，\(\boldsymbol{V}_{\beta} \cdot \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}\) 是第 4.14 节中 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 0}\) 的缩放版本，其中我们还介绍了替代的 HC1、HC2 和 HC3 异方差鲁棒协方差矩阵估计器。我们现在讨论这些估计量的一致性属性。

为此，我们介绍他们的缩放版本，例如\(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 1}, \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 2}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 2}\) 和 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 3}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 3}\)。这些是渐近协方差矩阵 \(\boldsymbol{V}_{\beta}\) 的（替代）估计器。首先，考虑 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}\)。请注意，\(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC1}}=\frac{n}{n-k} \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0}\) 其中 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC}}\) 在 (7.19) 中定义，并且与定理 7.6 中的 \(\boldsymbol{V}_{\beta}\) 一致。如果 \(k\) 固定为 \(n \rightarrow \infty\)，则 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 1}, \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 2}=n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 2}\) 因而

\[ \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}=(1+o(1)) \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 0} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta} . \]

因此 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 1}\) 与 \(\boldsymbol{V}_{\beta}\) 是一致的。

替代估计量 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 2}\) 和 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 3}\) 采用 (7.19) 的形式，但将 \(\widehat{\Omega}\) 替换为

\[ \widetilde{\Omega}=\frac{1}{n} \sum_{i=1}^{n}\left(1-h_{i i}\right)^{-2} X_{i} X_{i}^{\prime} \widehat{e}_{i}^{2} \]

和

\[ \bar{\Omega}=\frac{1}{n} \sum_{i=1}^{n}\left(1-h_{i i}\right)^{-1} X_{i} X_{i}^{\prime} \hat{e}_{i}^{2}, \]

分别。为了证明这些估计量对于给定 \(\widehat{\Omega} \underset{p}{\vec{a}} \Omega\) 的 \(\boldsymbol{V}_{\beta}\) 也是一致的，只需证明 \(\widetilde{\Omega}-\widehat{\Omega}\) 和 \(\bar{\Omega}-\widehat{\Omega}\) 之间的差异在概率上收敛到零，就像 \(n \rightarrow \infty\) 一样。

诀窍在于杠杆值渐近可以忽略不计：

\[ h_{n}^{*}=\max _{1 \leq i \leq n} h_{i i}=o_{p}(1) . \]

（参见第 7.21 节中的定理 \(7.17\)。）然后使用三角不等式 (B.16)

\[ \begin{aligned} \|\bar{\Omega}-\widehat{\Omega}\| & \leq \frac{1}{n} \sum_{i=1}^{n}\left\|X_{i} X_{i}^{\prime}\right\| \widehat{e}_{i}^{2}\left|\left(1-h_{i i}\right)^{-1}-1\right| \\ & \leq\left(\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2} \widehat{e}_{i}^{2}\right)\left|\left(1-h_{n}^{*}\right)^{-1}-1\right| . \end{aligned} \]

括号中的和可以通过与定理 7.6 的证明中相同的论证在假设 \(7.2\) 下显示为 \(O_{p}(1)\)。（事实上，可以证明它在概率上收敛于 \(\mathbb{E}\left[\|X\|^{2} e^{2}\right]\)。）绝对值项的绝对值是 \(o_{p}(1)\)（7.24）。因此，乘积是 \(o_{p}(1)\)，这意味着 \(\bar{\Omega}=\widehat{\Omega}+o_{p}(1) \underset{p}{\longrightarrow}\)。

相似地，

\[ \begin{aligned} \|\widetilde{\Omega}-\widehat{\Omega}\| & \leq \frac{1}{n} \sum_{i=1}^{n}\left\|X_{i} X_{i}^{\prime}\right\| \widehat{e}_{i}^{2}\left|\left(1-h_{i i}\right)^{-2}-1\right| \\ & \leq\left(\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2} \widehat{e}_{i}^{2}\right)\left|\left(1-h_{n}^{*}\right)^{-2}-1\right| \\ &=o_{p}(1) . \end{aligned} \]

定理 7.7 在假设 7.2 下，作为 \(n \rightarrow \infty, \widetilde{\Omega} \underset{p}{\longrightarrow} \Omega, \bar{\Omega} \underset{p}{\longrightarrow} \Omega, \widehat{V}_{\beta}^{\mathrm{HC1}} \underset{p}{\longrightarrow}\)、\(\boldsymbol{V}_{\beta}, \widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 2} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\) 和 \(\widehat{\boldsymbol{V}}_{\beta}^{\mathrm{HC} 3} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)

定理 \(7.7\) 表明替代协方差矩阵估计量对于渐近协方差矩阵也是一致的。

为了简化符号，在本章的其余部分，我们将使用符号 \(\widehat{\boldsymbol{V}}_{\beta}\) 和 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}\) 来指代任何异方差一致的协方差矩阵估计量 \(\mathrm{HC}\)、\(\mathrm{HC} 1\)、HC2 和 \(\mathrm{HC3}\)，如下所示它们都具有相同的渐近极限。

7.10 参数功能

在大多数严肃的应用中，研究人员实际上对系数向量 \(\beta=\left(\beta_{1}, \ldots, \beta_{k}\right)\) 的特定变换感兴趣。例如，研究人员可能对单个系数 \(\beta_{j}\) 或比率 \(\beta_{j} / \beta_{l}\) 感兴趣。更一般地，兴趣可能集中在诸如消费者剩余之类的数量上，这可能是系数的复杂函数。在任何这些情况下，我们都可以将感兴趣的参数 \(\theta\) 写为系数的函数，例如\(\theta=r(\beta)\) 对于某些函数 \(r: \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\)。 \(\theta\) 的估计是

\[ \widehat{\theta}=r(\widehat{\beta}) . \]

通过连续映射定理（定理 6.6）和事实 \(\widehat{\beta} \underset{p}{\longrightarrow} \beta\)，我们可以推断，如果函数 \(r(\cdot)\) 是连续的，则 \(\widehat{\theta}\) 对于 \(\theta\) 是一致的。

定理 7.8 在假设 7.1 下，如果 \(r(\beta)\) 在 \(\beta\) 的真值处连续，则 \(n \rightarrow \infty, \widehat{\theta} \underset{p}{\longrightarrow} \theta\)

此外，如果变换足够平滑，通过 Delta 方法（定理 6.8）我们可以证明 \(\widehat{\theta}\) 是渐近正态的。

假设 7.3 \(r(\beta): \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\) 在 \(\beta\) 的真实值处连续可微，并且 \(\boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)^{\prime}\) 的秩为 \(q\)。

定理7.9参数函数的渐近分布在假设 \(7.2\) 和 7.3 下，作为 \(n \rightarrow \infty\)，

\[ \sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\theta}\right) \]

其中 \(\boldsymbol{V}_{\theta}=\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\).

在许多情况下，函数 \(r(\beta)\) 是线性的：

\[ r(\beta)=\boldsymbol{R}^{\prime} \beta \]

对于某些 \(k \times q\) 矩阵 \(\boldsymbol{R}\)。特别是如果 \(\boldsymbol{R}\) 是“选择器矩阵”

\[ \boldsymbol{R}=\left(\begin{array}{l} \boldsymbol{I} \\ 0 \end{array}\right) \]

然后我们可以对 \(\beta=\left(\beta_{1}^{\prime}, \beta_{2}^{\prime}\right)^{\prime}\) 进行分区，以便 \(\boldsymbol{R}^{\prime} \beta=\beta_{1}\) 。然后

\[ \boldsymbol{V}_{\boldsymbol{\theta}}=\left(\begin{array}{ll} \boldsymbol{I} & 0 \end{array}\right) \boldsymbol{V}_{\beta}\left(\begin{array}{l} \boldsymbol{I} \\ 0 \end{array}\right)=\boldsymbol{V}_{11}, \]

(7.14) 中给出的 \(V_{11}\) 的左上角子矩阵。在这种情况下（7.25）指出

\[ \sqrt{n}\left(\widehat{\beta}_{1}-\beta_{1}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{11}\right) . \]

也就是说，\(\widehat{\beta}\) 的子集近似正态，其方差由 \(V\) 的一致子分量给出。

为了说明非线性变换的情况，以 \(\theta=\beta_{j} / \beta_{l}\) 与 \(j \neq l\) 为例。然后

\[ \boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)=\left(\begin{array}{c} \frac{\partial}{\partial \beta_{1}}\left(\beta_{j} / \beta_{l}\right) \\ \vdots \\ \frac{\partial}{\partial \beta_{j}}\left(\beta_{j} / \beta_{l}\right) \\ \vdots \\ \frac{\partial}{\partial \beta_{\ell}}\left(\beta_{j} / \beta_{l}\right) \\ \vdots \\ \frac{\partial}{\partial \beta_{k}}\left(\beta_{j} / \beta_{l}\right) \end{array}\right)=\left(\begin{array}{c} 0 \\ \vdots \\ 1 / \beta_{l} \\ \vdots \\ -\beta_{j} / \beta_{l}^{2} \\ \vdots \\ 0 \end{array}\right) \]

所以

\[ \boldsymbol{V}_{\theta}=\boldsymbol{V}_{j j} / \beta_{l}^{2}+\boldsymbol{V}_{l l} \beta_{j}^{2} / \beta_{l}^{4}-2 \boldsymbol{V}_{j l} \beta_{j} / \beta_{l}^{3} \]

其中 \(\boldsymbol{V}_{a b}\) 表示 \(\boldsymbol{V}_{\beta}\) 的 \(a b^{t h}\) 元素。

为了进行推理，我们需要渐近协方差矩阵 \(\boldsymbol{V}_{\theta}=\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\) 的估计器。为此，通常使用插件估算器

\[ \widehat{\boldsymbol{R}}=\frac{\partial}{\partial \beta} r(\widehat{\beta})^{\prime} . \]

(7.27) 中的导数可以通过分析或数值计算。通过分析，我们的意思是计算导数的公式并用点估计代替未知数。例如，如果 \(\theta=\) \(\beta_{j} / \beta_{l}\) 则 \(\frac{\partial}{\partial \beta} r(\beta)\) 为 (7.26)。然而，在某些情况下，函数 \(r(\beta)\) 可能极其复杂，解析导数的公式可能不容易获得。在这种情况下，数值微分可能更可取。令 \(\delta_{l}=(0 \cdots 1 \cdots 0)^{\prime}\) 为单位向量，\(l^{\text {th }}\) 处带有“1”。数值导数 \(\widehat{\boldsymbol{R}}\) 的 \(j l^{t h}\) 元素是

对于一些小的\(\epsilon\)。

\[ \widehat{\boldsymbol{R}}_{j l}=\frac{r_{j}\left(\widehat{\beta}+\delta_{l} \epsilon\right)-r_{j}(\widehat{\beta})}{\epsilon} \]

\(\boldsymbol{V}_{\theta}\) 的估计量是

\[ \widehat{\boldsymbol{V}}_{\theta}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}} \text {. } \]

或者，可以使用同方差协方差矩阵估计器来生成 \(\theta\) 的同方差协方差矩阵估计器。

\[ \widehat{\boldsymbol{V}}_{\theta}^{0}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta}^{0} \widehat{\boldsymbol{R}}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \widehat{\boldsymbol{R}} s^{2} . \]

给定 (7.27)、(7.28) 和 (7.29)，使用矩阵运算很容易计算。

由于 \(\widehat{\boldsymbol{V}}_{\theta}\) 的主要理由是渐近近似 (7.25)，因此 \(\widehat{\boldsymbol{V}}_{\theta}\) 通常称为渐近协方差矩阵估计器。

在定理 \(7.9\) 的条件下，估计器 \(\widehat{\boldsymbol{V}}_{\theta}\) 对于 \(\boldsymbol{V}_{\theta}\) 是一致的，因为 \(\widehat{\boldsymbol{V}}_{\beta} \vec{p}_{\boldsymbol{V}}\) 由定理 \(7.6\) 得出，并且

\[ \widehat{\boldsymbol{R}}=\frac{\partial}{\partial \beta} r(\widehat{\beta})^{\prime} \underset{p}{\Rightarrow} \frac{\partial}{\partial \beta} r(\beta)^{\prime}=\boldsymbol{R} \]

因为 \(\widehat{\beta} \underset{p}{\longrightarrow} \beta\) 和函数 \(\frac{\partial}{\partial \beta} r(\beta)^{\prime}\) 在 \(\beta\) 中是连续的。定理 7.10 在假设 \(7.2\) 和 7.3 下，如 \(n \rightarrow \infty, \widehat{\boldsymbol{V}}_{\theta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\theta}\)

定理 7.10 表明 \(\widehat{\boldsymbol{V}}_{\theta}\) 与 \(\boldsymbol{V}_{\theta}\) 一致，因此可用于渐近推理。实际中我们可以设置

\[ \widehat{\boldsymbol{V}}_{\widehat{\theta}}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}} \widehat{\boldsymbol{R}}=n^{-1} \widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}} \]

作为 \(\widehat{\theta}\) 方差的估计量。

7.11 渐近标准误差

如第 4.15 节所述，标准误差是估计量分布的标准差的估计量。因此，如果 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}\) 是 \(\widehat{\beta}\) 协方差矩阵的估计量，则标准误差就是该矩阵对角线元素的平方根。这些形式采用

\[ s\left(\widehat{\beta}_{j}\right)=\sqrt{\widehat{\boldsymbol{V}}_{\widehat{\beta}_{j}}}=\sqrt{\left[\widehat{\boldsymbol{V}}_{\widehat{\beta}}\right]_{j j}} . \]

\(\hat{\theta}\) 的标准误差的构造方式类似。假设 \(\theta=h(\beta)\) 是实值，那么 \(\widehat{\theta}\) 的标准误差是 \((7.30)\) 的平方根

\[ s(\widehat{\theta})=\sqrt{\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}} \widehat{\boldsymbol{R}}}=\sqrt{n^{-1} \widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}}} \]

当论证基于渐近理论时，我们将 \(s\left(\widehat{\beta}_{j}\right)\) 或 \(s(\widehat{\theta})\) 称为 \(\widehat{\beta}_{j}\) 或 \(\widehat{\theta}\) 的渐近标准误差。报告结果时，最好报告每个报告估计值的标准误差，其中包括参数估计值的函数和转换。这有助于作品的用户（包括您自己）评估估计精度。

我们使用对数工资回归来说明

\[ \log (\text { wage })=\beta_{1} \text { education }+\beta_{2} \text { experience }+\beta_{3} \text { experience }^{2} / 100+\beta_{4}+e . \]

考虑以下三个感兴趣的参数。

教育回报率：

\[ \theta_{1}=100 \beta_{1} \]

（\(\log (\) 工资的条件期望的偏导数的 100 倍）关于教育。）

拥有 10 年经验的个人的经验回报百分比：

\[ \theta_{2}=100 \beta_{2}+20 \beta_{3} \]

（对数工资相对于经验的条件期望的偏导数的 100 倍，在经验 \(=10\) 处评估。） 3. 使预期对数工资最大化的经验水平：

\[ \theta_{3}=-50 \beta_{2} / \beta_{3} \]

（log(wage) 的条件期望对经验的偏导数等于 0 时的经验水平。）

这三个参数的 \(4 \times 1\) 向量 \(\boldsymbol{R}\) 为

\[ \boldsymbol{R}=\left(\begin{array}{c} 100 \\ 0 \\ 0 \\ 0 \end{array}\right), \quad\left(\begin{array}{c} 0 \\ 100 \\ 20 \\ 0 \end{array}\right), \quad\left(\begin{array}{c} 0 \\ -50 / \beta_{3} \\ 50 \beta_{2} / \beta_{3}^{2} \\ 0 \end{array}\right), \]

分别。

我们使用已婚黑人女性（所有经验水平）的子样本，其中有 982 个观察值。点估计值和标准误是

标准误差是 HC2 协方差矩阵估计的平方根

\[ \overline{\boldsymbol{V}}_{\widehat{\beta}}=\left(\begin{array}{cccc} 0.632 & 0.131 & -0.143 & -11.1 \\ 0.131 & 0.390 & -0.731 & -6.25 \\ -0.143 & -0.731 & 1.48 & 9.43 \\ -11.1 & -6.25 & 9.43 & 246 \end{array}\right) \times 10^{-4} . \]

我们计算出

\[ \begin{aligned} & \widehat{\theta}_{1}=100 \widehat{\beta}_{1}=100 \times 0.118=11.8 \\ & s\left(\widehat{\theta}_{1}\right)=\sqrt{100^{2} \times 0.632 \times 10^{-4}}=0.8 \\ & \widehat{\theta}_{2}=100 \widehat{\beta}_{2}+20 \widehat{\beta}_{3}=100 \times 0.016-20 \times 0.022=1.16 \\ & s\left(\widehat{\theta}_{2}\right)=\sqrt{\left(\begin{array}{ll}100 & 20\end{array}\right)\left(\begin{array}{cc}0.390 & -0.731 \\-0.731 & 1.48\end{array}\right)\left(\begin{array}{c}100 \\20\end{array}\right) \times 10^{-4}}=0.55 \\ & \widehat{\theta}_{3}=-50 \widehat{\beta}_{2} / \widehat{\beta}_{3}=50 \times 0.016 / 0.022=35.2 \end{aligned} \]

计算显示，教育回报百分比的估计值为每年 \(12 %\)，标准误差为 0.8。拥有 10 年经验的人员的经验回报百分比估计为每年 \(1.2 %\)，标准误差为 \(0.6\)。使预期对数工资最大化的经验水平的估计为 35 年，标准误差为 7 。

在 Stata 中，可以在估计后使用 nlcom 命令来执行相同的计算。为了说明这一点，在估计 (7.31) 后，使用下面给出的命令。在每种情况下，Stata 都会报告系数估计值、渐近标准误差和 \(95 %\) 置信区间。

Stata命令\ nlcom 100_b[教育]\ nlcom 100_b[经验]+20_b[exp2]\ nlcom -50_b[经验\(] / 0_{-} \mathrm{b}[\exp 2]\)

7.12 t统计量

令 \(\theta=r(\beta): \mathbb{R}^{k} \rightarrow \mathbb{R}\) 为感兴趣的参数，\(\widehat{\theta}\) 为估计器，\(s(\widehat{\theta})\) 为渐近标准误差。考虑统计数据

\[ T(\theta)=\frac{\widehat{\theta}-\theta}{s(\widehat{\theta})} . \]

不同的作者将 (7.33) 称为 t 统计量、t 比值、z 统计量或学生化统计量，有时使用不同的标签来区分有限样本和渐近推理。由于统计数据本身始终为 (7.33)，因此我们不会进行这种区分，而只是将 \(T(\theta)\) 称为 t 统计量或 t 比率。我们也经常抑制参数依赖性，将其写为 \(T\)。 t 统计量是估计量、其标准误差和参数的函数。

通过定理 \(7.9\) 和 \(7.10, \sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{\theta}\right)\) 和 \(\widehat{V}_{\theta} \underset{p}{\longrightarrow} V_{\theta}\)。因此

\[ \begin{aligned} T(\theta) &=\frac{\widehat{\theta}-\theta}{s(\widehat{\theta})} \\ &=\frac{\sqrt{n}(\widehat{\theta}-\theta)}{\sqrt{\widehat{V}_{\theta}}} \\ & \rightarrow \frac{\mathrm{N}\left(0, V_{\theta}\right)}{\sqrt{V_{\theta}}} \\ &=Z \sim \mathrm{N}(0,1) . \end{aligned} \]

最后一个等式是正规变量的仿射函数是正规的性质（定理5.2）。

该计算需要\(V_{\theta}>0\)，否则连续映射定理无法使用。实际上，这是一个无害的要求，因为它仅排除退化抽样分布。正式地，我们添加以下假设。

假设 7.4 \(V_{\theta}=R^{\prime} V_{\beta} R>0\)。

假设 \(7.4\) 表明 \(\boldsymbol{V}_{\theta}\) 是正定的。由于 \(\boldsymbol{R}\) 在假设 \(7.3\) 下是满秩的，因此充分条件是 \(\boldsymbol{V}_{\beta}>0\)。由于 \(\boldsymbol{Q}_{X X}>0\) 的充分条件是 \(\Omega>0\)。因此假设 \(7.4\) 可以用假设 \(\Omega>0\) 代替。假设 \(7.4\) 较弱，所以这就是我们使用的。

因此 t 比率 \(T(\theta)\) 的渐近分布是标准正态分布。由于这个分布不依赖于参数，我们说 \(T(\theta)\) 是渐近关键的。在有限样本中，\(T(\theta)\) 不一定是关键的，但该属性意味着对未知数的依赖随着 \(n\) 的增加而减少。考虑绝对 t 比率 \(|T(\theta)|\) 的分布也很有用。由于\(T(\theta) \underset{d}{\longrightarrow} Z\)，连续映射定理产生\(|T(\theta)| \underset{d}{\longrightarrow}|Z|\)。令 \(\Phi(u)=\mathbb{P}[Z \leq u]\) 表示标准正态分布函数，我们计算出 \(|Z|\) 的分布为

\[ \begin{aligned} \mathbb{P}[|Z| \leq u] &=\mathbb{P}[-u \leq Z \leq u] \\ &=\mathbb{P}[Z \leq u]-\mathbb{P}[Z<-u] \\ &=\Phi(u)-\Phi(-u) \\ &=2 \Phi(u)-1 . \end{aligned} \]

定理 7.11 在假设 7.2、7.3 和 7.4 下，\(T(\theta) \underset{d}{\longrightarrow} Z \sim \mathrm{N}(0,1)\) 和 \(|T(\theta)| \underset{d}{\longrightarrow}|Z|\)

定理 \(7.11\) 的渐近正态性用于证明置信区间和参数检验的合理性。

7.13 置信区间

估计器 \(\hat{\theta}\) 是 \(\theta\) 的点估计器，这意味着 \(\widehat{\theta}\) 是 \(\mathbb{R}^{q}\) 中的单个值。更广泛的概念是集合估计器 \(\widehat{C}\)，它是 \(\mathbb{R}^{q}\) 中值的集合。当参数 \(\theta\) 为实值时，通常会关注 \(\widehat{C}=[\widehat{L}, \widehat{U}]\) 形式的集合，它被称为 \(\theta\) 的区间估计器。

区间估计器 \(\widehat{C}\) 是数据的函数，因此是随机的。区间 \(\widehat{C}=[\widehat{L}, \widehat{U}]\) 的覆盖概率为 \(\mathbb{P}[\theta \in \widehat{C}]\)。随机性来自 \(\widehat{C}\)，因为参数 \(\theta\) 被视为固定。在 \(5.10\) 节中，我们介绍了使用 t 统计量的有限样本分布的正态回归模型的置信区间。当我们处于正态回归模型之外时，我们不能依赖精确的正态分布理论，而是使用渐近近似。一个好处是我们可以为感兴趣的一般参数 \(\theta\) 构建置信区间，而不仅仅是回归系数。

当目标是将覆盖概率设置为等于预先指定的目标（例如 \(90 %\) 或 \(95 %\)）时，区间估计器 \(\widehat{C}\) 称为置信区间。如果 \(\inf _{\theta} \mathbb{P}_{\theta}[\theta \in \widehat{C}]=1-\alpha\)，则 \(\widehat{C}\) 称为 \(1-\alpha\) 置信区间。

当 \(\widehat{\theta}\) 渐近正态且标准误差 \(s(\widehat{\theta})\) 时，\(\theta\) 的常规置信区间采用以下形式

\[ \widehat{C}=[\widehat{\theta}-c \times s(\widehat{\theta}), \quad \widehat{\theta}+c \times s(\widehat{\theta})] \]

其中 \(c\) 等于 \(|Z|\) 分布的 \(1-\alpha\) 分位数。使用 (7.34)，我们计算出 \(c\) 相当于标准正态分布的 \(1-\alpha / 2\) 分位数。因此，\(c\) 解决了

\[ 2 \Phi(c)-1=1-\alpha . \]

例如，这可以通过 MATLAB 中的norminv \((1-\alpha / 2)\) 来计算。置信区间 (7.35) 关于点估计器 \(\widehat{\theta}\) 对称，其长度与标准误差 \(s(\widehat{\theta})\) 成正比。

等价地，(7.35) 是 \(\theta\) 的参数值集合，使得 t 统计量 \(T(\theta)\) 小于 \(c\)（绝对值），即

\[ \widehat{C}=\{\theta:|T(\theta)| \leq c\}=\left\{\theta:-c \leq \frac{\widehat{\theta}-\theta}{s(\widehat{\theta})} \leq c\right\} . \]

该置信区间的覆盖概率为

\[ \mathbb{P}[\theta \in \widehat{C}]=\mathbb{P}[|T(\theta)| \leq c] \rightarrow \mathbb{P}[|Z| \leq c]=1-\alpha \]

其中极限取为 \(n \rightarrow \infty\)，并且成立，因为根据定理 \(7.11\)，\(T(\theta)\) 渐近于 \(|Z|\)。我们将该极限称为渐近覆盖概率，并将 \(\widehat{C}\) 称为 \(\theta\) 的渐近 \(1-\alpha %\) 置信区间。由于 t 比是渐近关键的，渐近覆盖概率与参数 \(\theta\) 无关。

将正态回归模型的置信区间 (7.35) 与 (5.8) 进行对比很有用。它们相似但也有差异。正态回归区间 (5.8) 仅适用于回归系数 \(\beta\)，不适用于系数的函数 \(\theta\)。正态区间 (5.8) 也可以使用同方差标准误差构建，而 (7.35) 可以使用异方差稳健标准误差构建。此外，（5.8）中的常数\(c\)是使用学生\(t\)分布计算的，而（7.35）中的\(c\)是使用正态分布计算的。在实践中，学生 \(t\) 与正常值之间的差异通常很小（因为在典型的经济应用中样本量很大）。然而，由于学生 \(t\) 值较大，因此会导致置信区间稍大，这是合理的。（一个实用的经验法则是，如果样本量足够小以至于会产生差异，那么（5.8）和（7.35）都不应该被信任。）尽管存在这些差异，间隔的重合意味着对回归系数的推断通常是至少在大样本中，对于使用精确的正态采样假设或渐近大样本近似具有鲁棒性。

Stata 默认报告每个系数的 \(95 %\) 置信区间，其中临界值 \(c\) 使用 \(t_{n-k}\) 分布计算。对于所有标准误差方法都这样做，即使它仅对于同方差标准误差且在正态性下是精确的。

置信区间的标准覆盖概率为 \(95 %\)，导致选择 \(c=1.96\) 作为 (7.35) 中的常数。将 \(1.96\) 四舍五入到 2 ，我们获得应用计量经济学实践中最常用的置信区间

\[ \widehat{C}=[\widehat{\theta}-2 s(\widehat{\theta}), \quad \widehat{\theta}+2 s(\widehat{\theta})] . \]

这是一个有用的经验法则。这个渐近 \(95 %\) 置信区间 \(\widehat{C}\) 计算起来很简单，可以根据系数估计和标准误差表粗略计算出来。（从技术上讲，由于 \(2.0\) 替换了 \(1.96\)，因此它是一个渐近 \(95.4 %\) 区间，但这种区别过于精确。）

定理 7.12 在假设 7.2、7.3 和 7.4 下，\(\widehat{C}\) 在 (7.35) 中用 \(c=\Phi^{-1}(1-\alpha / 2), \mathbb{P}[\theta \in \widehat{C}] \rightarrow 1-\alpha\) 定义。对于 \(c=1.96, \mathbb{P}[\theta \in \widehat{C}] \rightarrow 0.95\)。

置信区间是评估估计不确定性的简单而有效的工具。在阅读一组经验结果时，请查看估计系数估计值和标准误差。对于感兴趣的参数，计算置信区间 \(\widehat{C}\) 并考虑建议值的分布的含义。如果置信区间中的值范围太宽而无法了解 \(\theta\)，则不要仅根据点估计就得出有关 \(\theta\) 的结论。

为了便于说明，请考虑 \(7.11\) 节中基于已婚黑人女性的对数工资回归的三个示例。

教育回报率。 95% 渐近置信区间为 \(11.8 \pm 1.96 \times 0.8=[10.2\), 13.3]。这是相当紧的。

拥有 10 年经验的个人的经验回报百分比（每年）。 \(90 %\) 渐近置信区间是 \(1.1 \pm 1.645 \times 0.4=[0.5,1.8]\)。该区间是正值但很宽。这表明经验的回归是积极的，但幅度不确定。最大化预期对数工资的经验水平。 \(80 %\) 渐近置信区间是 \(35 \pm 1.28 \times 7=[26,44]\)。这是相当不精确的，表明有关该参数的估计信息并不丰富。

7.14 回归区间

在线性回归模型中，给定 \(X=x\) 时 \(Y\) 的条件期望为

\[ m(x)=\mathbb{E}[Y \mid X=x]=x^{\prime} \beta . \]

在某些情况下，我们希望在特定点 \(x\) 处估计 \(m(x)\)。请注意，这是 \(\beta\) 的线性函数。让\(r(\beta)=x^{\prime} \beta\)和\(\theta=r(\beta)\)我们看到\(\hat{m}(x)=\widehat{\theta}=x^{\prime} \widehat{\beta}\)和\(\boldsymbol{R}=x\)所以\(s(\widehat{\theta})=\sqrt{x^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}} x}\)。因此 \(m(x)\) 的渐近 \(95 %\) 置信区间为

\[ \left[x^{\prime} \widehat{\beta} \pm 1.96 \sqrt{x^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}} x}\right] . \]

有趣的是，如果将其视为 \(x\) 的函数，则置信区间的宽度取决于 \(x\)。

为了说明这一点，我们回到第 3.7 节的对数工资回归（3.12）。估计的回归方程为

\[ \widehat{\log (\text { wage })}=x^{\prime} \widehat{\beta}=0.155 x+0.698 \]

其中 \(x=e d u c a t i o n\). (4.43) 的协方差矩阵估计为

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}=\left(\begin{array}{cc} 0.001 & -0.015 \\ -0.015 & 0.243 \end{array}\right) . \]

因此，回归的 \(95 %\) 置信区间为

\[ 0.155 x+0.698 \pm 1.96 \sqrt{0.001 x^{2}-0.030 x+0.243} . \]

估计的回归和 95% 区间如图 7.4(a) 所示。请注意，置信带呈双曲线形状。这意味着对于教育的大值和小值，回归线的估计不太精确。

当回归包含非线性项时，估计回归线和置信区间图特别有用。为了说明这一点，考虑对数工资回归（7.31），其中包括经验及其平方和协方差矩阵估计（7.32）。我们感兴趣的是绘制回归估计和回归区间作为经验的函数。由于回归还包括教育程度，为了在简单的图表中绘制估计值，我们将教育程度固定为特定值。我们选择教育=12。这仅影响估计回归的水平，因为教育在没有交互的情况下进入。明确评价点

\[ z(x)=\left(\begin{array}{c} 12 \\ x \\ x^{2} / 100 \\ 1 \end{array}\right) \]

其中 \(x=\) 经验。

教育工资

经验工资

图 7.4：回归区间

作为 \(x=\) 经验函数的教育 \(=12\) 的 \(95 %\) 回归区间为

\[ \begin{aligned} & 0.118 \times 12+0.016 x-0.022 x^{2} / 100+0.947 \\ & \pm 1.96 \sqrt{z(x)^{\prime}\left(\begin{array}{cccc}0.632 & 0.131 & -0.143 & -11.1 \\0.131 & 0.390 & -0.731 & -6.25 \\-0.143 & -0.731 & 1.48 & 9.43 \\-11.1 & -6.25 & 9.43 & 246\end{array}\right) z(x) \times 10^{-4}} \\ & =0.016 x-.00022 x^{2}+2.36 \\ & \pm 0.0196 \sqrt{70.608-9.356 x+0.54428 x^{2}-0.01462 x^{3}+0.000148 x^{4}} \text {. } \end{aligned} \]

估计的回归和 95% 区间如图 7.4(b) 所示。对于小经验值和大经验值，回归区间大大加宽，表明经验对该人群平均工资的影响存在相当大的不确定性。由于非线性规范，置信带的形状比图 7.4(a) 中的更复杂。

7.15 预测间隔

假设我们给定了样本外某个个体的回归向量 \(X_{n+1}\) 值，并且我们想要预测（猜测）该个体的 \(Y_{n+1}\)。这相当于给定 \(X_{n+1}=x\) 来预测 \(Y_{n+1}\)，它通常是 \(x\) 的函数。合理的预测规则是条件期望 \(m(x)\)，因为它是均方最小化预测。点预测是估计的条件期望 \(\widehat{m}(x)=x^{\prime} \widehat{\beta}\)。我们还希望对预测的不确定性进行衡量。

预测误差为 \(\widehat{e}_{n+1}=Y_{n+1}-\widehat{m}(x)=e_{n+1}-x^{\prime}(\widehat{\beta}-\beta)\)。由于样本外误差 \(e_{n+1}\) 独立于样本内估计器 \(\widehat{\beta}\)，因此具有条件方差

\[ \begin{aligned} \mathbb{E}\left[\widehat{e}_{n+1}^{2} \mid X_{n+1}=x\right] &=\mathbb{E}\left[e_{n+1}^{2}-2 x^{\prime}(\widehat{\beta}-\beta) e_{n+1}+x^{\prime}(\widehat{\beta}-\beta)(\widehat{\beta}-\beta)^{\prime} x \mid X_{n+1}=x\right] \\ &=\mathbb{E}\left[e_{n+1}^{2} \mid X_{n+1}=x\right]+x^{\prime} \mathbb{E}\left[(\widehat{\beta}-\beta)(\widehat{\beta}-\beta)^{\prime}\right] x \\ &=\sigma^{2}(x)+x^{\prime} \boldsymbol{V}_{\widehat{\beta}} x . \end{aligned} \]

在同方差下，\(\mathbb{E}\left[e_{n+1}^{2} \mid X_{n+1}\right]=\sigma^{2}\)。在本例中，(7.36) 的简单估计量为 \(\widehat{\sigma}^{2}+x^{\prime} \boldsymbol{V}_{\widehat{\beta}} x\)，因此预测的标准误差为 \(\widehat{s}(x)=\sqrt{\widehat{\sigma}^{2}+x^{\prime} \boldsymbol{V}_{\widehat{\beta}} x}\)。请注意，这与条件期望的标准误差不同。

\(Y_{n+1}\) 的传统 95% 预测区间使用正态近似并且等于 \(\left[x^{\prime} \widehat{\beta} \pm 2 \widehat{s}(x)\right]\)。然而，很难完全证明这一选择的合理性。如果我们有一个比率的正态近似值，那就是正确的

\[ \frac{e_{n+1}-x^{\prime}(\widehat{\beta}-\beta)}{\widehat{s}(x)} . \]

困难在于方程误差 \(e_{n+1}\) 通常是非正态的，并且渐近理论不能应用于单个观测。唯一的特殊例外是 \(e_{n+1}\) 具有精确分布 \(\mathrm{N}\left(0, \sigma^{2}\right)\) 的情况，这通常是无效的。

准确的预测区间将使用给定 \(X_{n+1}=x\) 的 \(e_{n+1}\) 的条件分布，这更难以估计。由于这一困难，许多应用预测者使用简单的近似区间 \(\left[x^{\prime} \widehat{\beta} \pm 2 \widehat{s}(x)\right]\)，尽管缺乏令人信服的理由。

7.16 瓦尔德统计

令 \(\theta=r(\beta): \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\) 为任何感兴趣的参数向量，\(\widehat{\theta}\) 为其估计器，\(\widehat{\boldsymbol{V}}_{\widehat{\theta}}\) 为协方差矩阵估计器。考虑二次形式

\[ W(\theta)=(\widehat{\theta}-\theta)^{\prime} \widehat{\mathbf{V}}_{\widehat{\theta}}^{-1}(\widehat{\theta}-\theta)=n(\widehat{\theta}-\theta)^{\prime} \widehat{\boldsymbol{V}}_{\theta}^{-1}(\widehat{\theta}-\theta) . \]

其中 \(\widehat{\boldsymbol{V}}_{\theta}=n \widehat{\boldsymbol{V}}_{\widehat{\theta}}\).当 \(q=1\) 时，\(W(\theta)=T(\theta)^{2}\) 是 t 比的平方。 \(q>1, W(\theta)\) 通常被称为 Wald 统计量，由 Wald (1943) 提出。我们对其样本分布感兴趣。

给定定理 \(7.9\) 和定理 7.10，\(W(\theta)\) 的渐近分布很容易导出。他们表明 \(\sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} Z \sim \mathrm{N}\left(0, \boldsymbol{V}_{\theta}\right)\) 和 \(\widehat{\boldsymbol{V}}_{\theta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\theta}\)。它遵循

\[ W(\theta)=\sqrt{n}(\widehat{\theta}-\theta)^{\prime} \widehat{\boldsymbol{V}}_{\theta}^{-1} \sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} Z^{\prime} \boldsymbol{V}_{\theta}^{-1} Z \]

正态随机向量 \(Z\) 中的二次方程。如定理 \(5.3 .5\) 所示，该二次形式的分布为 \(\chi_{q}^{2}\)，一个具有 \(q\) 自由度的卡方随机变量。

定理 7.13 在假设 7.2、\(7.3\) 和 7.4 下，作为 \(n \rightarrow \infty, W(\theta) \underset{d}{\longrightarrow} \chi_{q}^{2}\)。

定理 \(7.13\) 用于证明多元置信区域和多元假设检验。

7.17 同方差 Wald 统计量

在条件同方差假设 \(\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}\) 下，我们可以使用 (7.29) 中定义的同方差协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\theta}^{0}\) 构建 Wald 统计量。这产生同方差 Wald 统计量

\[ W^{0}(\theta)=(\widehat{\theta}-\theta)^{\prime}\left(\widehat{\boldsymbol{V}}_{\widehat{\theta}}^{0}\right)^{-1}(\widehat{\theta}-\theta)=n(\widehat{\theta}-\theta)^{\prime}\left(\widehat{\boldsymbol{V}}_{\theta}^{0}\right)^{-1}(\widehat{\theta}-\theta) . \]

在条件同方差的假设下，它具有与 \(W(\theta)\) 相同的渐近分布

定理 7.14 在假设 7.2、7.3 和 \(\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}>0\) 下，作为 \(n \rightarrow \infty\)、\(W^{0}(\theta) \underset{d}{\longrightarrow} \chi_{q}^{2}\)

7.18 置信区域

置信区域 \(\widehat{C}\) 是 \(q>1\) 时 \(\theta \in \mathbb{R}^{q}\) 的集合估计器。置信区域 \(\widehat{C}\) 是 \(\mathbb{R}^{q}\) 中的一组，旨在以预先选择的概率 \(1-\alpha\) 覆盖真实参数值。因此，理想的置信区域具有覆盖概率 \(\mathbb{P}[\theta \in \widehat{C}]=1-\alpha\)。在实践中，通常不可能构建具有精确覆盖范围的区域，但我们可以计算其渐近覆盖范围。

当参数估计器满足定理 \(7.13\) 的条件时，置信区域的一个不错选择是椭圆

\[ \widehat{C}=\left\{\theta: W(\theta) \leq c_{1-\alpha}\right\} \]

其中 \(c_{1-\alpha}\) 是 \(\chi_{q}^{2}\) 分布的 \(1-\alpha\) 分位数。（因此 \(F_{q}\left(c_{1-\alpha}\right)=1-\alpha\)。）它可以通过例如 MATLAB 中的 chi2inv \((1-\alpha, q)\) 来计算。

定理 \(7.13\) 意味着

\[ \mathbb{P}[\theta \in \widehat{C}] \rightarrow \mathbb{P}\left[\chi_{q}^{2} \leq c_{1-\alpha}\right]=1-\alpha \]

这表明 \(\widehat{C}\) 具有渐近覆盖 \(1-\alpha\)。

为了说明置信区域的构造，请考虑以下的估计回归 (7.31)

假设两个感兴趣的参数是教育回报百分比 \(\theta_{1}=100 \beta_{1}\) 和拥有 10 年经验的个人的经验回报百分比 \(\theta_{2}=100 \beta_{2}+20 \beta_{3}\)。这两个参数是回归参数与点估计的线性变换

\[ \widehat{\theta}=\left(\begin{array}{cccc} 100 & 0 & 0 & 0 \\ 0 & 100 & 20 & 0 \end{array}\right) \widehat{\beta}=\left(\begin{array}{c} 11.8 \\ 1.2 \end{array}\right), \]

并得到协方差矩阵估计

\[ \widehat{\boldsymbol{V}}_{\widehat{\theta}}=\left(\begin{array}{cccc} 0 & 100 & 0 & 0 \\ 0 & 0 & 100 & 20 \end{array}\right) \widehat{\boldsymbol{V}}_{\widehat{\beta}}\left(\begin{array}{cc} 0 & 0 \\ 100 & 0 \\ 0 & 100 \\ 0 & 20 \end{array}\right)=\left(\begin{array}{cc} 0.632 & 0.103 \\ 0.103 & 0.157 \end{array}\right) \]

与逆

\[ \widehat{\boldsymbol{V}}_{\widehat{\theta}}^{-1}=\left(\begin{array}{cc} 1.77 & -1.16 \\ -1.16 & 7.13 \end{array}\right) . \]

因此 Wald 统计量为

\[ \begin{aligned} W(\theta) &=(\widehat{\theta}-\theta)^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\theta}}^{-1}(\widehat{\theta}-\theta) \\ &=\left(\begin{array}{c} 11.8-\theta_{1} \\ 1.2-\theta_{2} \end{array}\right)^{\prime}\left(\begin{array}{cc} 1.77 & -1.16 \\ -1.16 & 7.13 \end{array}\right)\left(\begin{array}{c} 11.8-\theta_{1} \\ 1.2-\theta_{2} \end{array}\right) \\ &=1.77\left(11.8-\theta_{1}\right)^{2}-2.32\left(11.8-\theta_{1}\right)\left(1.2-\theta_{2}\right)+7.13\left(1.2-\theta_{2}\right)^{2} . \end{aligned} \]

\(\chi_{2}^{2}\) 分布的 \(90 %\) 分位数是 \(4.605\)（我们使用 \(\chi_{2}^{2}\) 分布，因为 \(\theta\) 的维度是 2），因此两个参数的渐近 \(90 %\) 置信区域是椭圆 \(W(\theta)=\) \(4.605\) 如图 7.5 所示。由于两个系数估计值的估计相关性不大（大约 \(0.3\) ），因此该区域是适度的椭圆形。

图 7.5：回归经验和回归教育的置信区域

7.19 埃奇沃斯扩张*

定理 \(7.11\) 表明 t 比 \(T(\theta)\) 是渐近正态的。实际上，这意味着我们使用正态分布来近似 \(T\) 的有限样本分布。这个近似值有多好？通过埃奇沃斯展开可以深入了解正态近似的准确性，埃奇沃斯展开是 \(T\) 分布的高阶近似。以下结果是经济学家概率与统计定理 \(9.11\) 的应用。

定理 7.15 在假设 7.2、7.3 下，\(\Omega>0, \mathbb{E}\|e\|^{16}<\infty, \mathbb{E}\|X\|^{16}<\)、\(\infty, g(\beta)\) 在 \(\beta\) 和 \(\mathbb{E}\left[\exp \left(t\left(\|e\|^{4}+\|X\|^{4}\right)\right)\right] \leq B<1\) 的邻域内有五个连续导数，如 \(n \rightarrow \infty\)

\[ \mathbb{P}[T(\theta) \leq x]=\Phi(x)+n^{-1 / 2} p_{1}(x) \phi(x)+n^{-1} p_{2}(x) \phi(x)+o\left(n^{-1}\right) \]

在 \(x\) 中一致，其中 \(p_{1}(x)\) 是 2 阶偶多项式，\(p_{2}(x)\) 是 5 次奇多项式，其系数取决于 \(e\) 和 \(X\) 的矩，最高可达 \(16 .\) 阶

定理 \(7.15\) 表明 t 比的有限样本分布可以通过三项之和近似为 \(o\left(n^{-1}\right)\)，第一项是标准正态分布，第二项是 \(O\left(n^{-1 / 2}\right)\) 调整，第三项是\(O\left(n^{-1}\right)\) 调整。

考虑单边置信区间 \(\widehat{C}=\left[\widehat{\theta}-z_{1-\alpha} s(\widehat{\theta}), \infty\right)\)，其中 \(z_{1-\alpha}\) 是 \(Z \sim \mathrm{N}(0,1)\) 的 \(1-\alpha^{t h}\) 分位数，即 \(\Phi\left(z_{1-\alpha}\right)-1-\alpha\)。然后

\[ \begin{aligned} \mathbb{P}[\theta \in \widehat{C}] &=\mathbb{P}\left[T(\theta) \leq z_{1-\alpha}\right] \\ &=\Phi\left(z_{1-\alpha}\right)+n^{-1 / 2} p_{1}\left(z_{1-\alpha}\right) \phi\left(z_{1-\alpha}\right)+O\left(n^{-1}\right) \\ &=1-\alpha+O\left(n^{-1 / 2}\right) . \end{aligned} \]

这意味着实际覆盖范围在所需 \(1-\alpha\) 水平的 \(O\left(n^{-1 / 2}\right)\) 范围内。

现在考虑一个两侧区间 \(\widehat{C}=\left[\widehat{\theta}-z_{1-\alpha / 2} s(\widehat{\theta}), \widehat{\theta}+z_{1-\alpha / 2} s(\widehat{\theta})\right]\)。它有覆盖范围

\[ \begin{aligned} \mathbb{P}[\theta \in \widehat{C}] &=\mathbb{P}\left[|T(\theta)| \leq z_{1-\alpha / 2}\right] \\ &=2 \Phi\left(z_{1-\alpha / 2}\right)-1+n^{-1} 2 p_{2}\left(z_{1-\alpha / 2}\right) \phi\left(z_{1-\alpha / 2}\right)+o\left(n^{-1}\right) \\ &=1-\alpha+O\left(n^{-1}\right) . \end{aligned} \]

这意味着实际覆盖范围在所需 \(1-\alpha\) 水平的 \(O\left(n^{-1}\right)\) 范围内。精度优于单边区间，因为埃奇沃斯展开中的 \(O\left(n^{-1 / 2}\right)\) 项在分布的两个尾部具有抵消效应。

7.20 一致残差*

将残差 \(\widehat{e}_{i}\) 视为未知误差 \(e_{i}\) 的估计量似乎很自然。它们一致吗？在本节中，我们得出收敛结果。

我们可以将残差写为

\[ \widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}=e_{i}-X_{i}^{\prime}(\widehat{\beta}-\beta) . \]

由于 \(\widehat{\beta}-\beta \underset{p}{\longrightarrow} 0\) ，如果 \(n\) 很大，那么猜测 \(\widehat{e}_{i}\) 将接近 \(e_{i}\) 似乎是合理的。

我们可以使用 Schwarz 不等式 (B.12) 限制 (7.39) 中的差异来找到

\[ \left|\widehat{e}_{i}-e_{i}\right|=\left|X_{i}^{\prime}(\widehat{\beta}-\beta)\right| \leq\left\|X_{i}\right\|\|\widehat{\beta}-\beta\| . \]

为了限制 (7.40)，我们可以使用定理 7.3 中的 \(\|\widehat{\beta}-\beta\|=O_{p}\left(n^{-1 / 2}\right)\)。我们还需要绑定随机变量 \(\left\|X_{i}\right\|\)。如果回归量有界，即 \(\left\|X_{i}\right\| \leq B<\infty\)，则 \(\left|\widehat{e}_{i}-e_{i}\right| \leq B\|\widehat{\beta}-\beta\|=O_{p}\left(n^{-1 / 2}\right)\)。但是，如果回归量没有有限支持，那么我们必须更加小心。

关键是定理 \(6.15\)，它表明 \(\mathbb{E}\|X\|^{r}<\infty\) 在 \(i\) 中一致地暗示 \(X_{i}=o_{p}\left(n^{1 / r}\right)\)，或者

\[ n^{-1 / r} \max _{1 \leq i \leq n}\left\|X_{i}\right\| \underset{p}{\longrightarrow} 0 . \]

应用于 (7.40) 我们得到

\[ \max _{1 \leq i \leq n}\left|\widehat{e}_{i}-e_{i}\right| \leq \max _{1 \leq i \leq n}\left\|X_{i}\right\|\|\widehat{\beta}-\beta\|=o_{p}\left(n^{-1 / 2+1 / r}\right) . \]

我们已经展示了以下内容。

定理7.16 假设\(7.2\)和\(\mathbb{E}\|X\|^{r}<\infty\)，则

\[ \max _{1 \leq i \leq n}\left|\widehat{e}_{i}-e_{i}\right|=o_{p}\left(n^{-1 / 2+1 / r}\right) . \]

(7.41) 中的收敛速度取决于 \(r\)。假设 \(7.2\) 需要 \(r \geq 4\)，因此收敛速度至少为 \(o_{p}\left(n^{-1 / 4}\right)\)。随着 \(r\) 的增加，速率也会提高。

我们在 \(7.7\) 节中提到，有多种方法可以证明协方差矩阵估计器 \(\widehat{\Omega}\) 的一致性。现在我们证明定理 \(7.16\) 提供了一种简单的方法来建立 (7.23) 以及定理 7.6。让 \(q_{n}=\max _{1 \leq i \leq n}\left|\widehat{e}_{i}-e_{i}\right|=o_{p}\left(n^{-1 / 4}\right)\).由于 \(\widehat{e}_{i}^{2}-e_{i}^{2}=2 e_{i}\left(\widehat{e}_{i}-e_{i}\right)+\left(\widehat{e}_{i}-e_{i}\right)^{2}\)，那么

\[ \begin{aligned} \left\|\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\left(\widehat{e}_{i}^{2}-e_{i}^{2}\right)\right\| & \leq \frac{1}{n} \sum_{i=1}^{n}\left\|X_{i} X_{i}^{\prime}\right\|\left|\widehat{e}_{i}^{2}-e_{i}^{2}\right| \\ & \leq \frac{2}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2}\left|e _ { i } \left\|\widehat{e}_{i}-e_{i}\left|+\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2}\right| \widehat{e}_{i}-\left.e_{i}\right|^{2}\right.\right.\\ & \leq \frac{2}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2}\left|e_{i}\right| q_{n}+\frac{1}{n} \sum_{i=1}^{n}\left\|X_{i}\right\|^{2} q_{n}^{2} \\ & \leq o_{p}\left(n^{-1 / 4}\right) . \end{aligned} \]

7.21 渐近杠杆*

回想一下 (3.40) \(h_{i i}=X_{i}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i}\) 中杠杆的定义。这些是投影矩阵 \(\boldsymbol{P}\) 的对角元素，出现在留一预测误差公式以及 \(\mathrm{HC} 2\) 和 HC3 协方差矩阵估计器中。我们可以在独立同分布下证明这一点抽样杠杆值一致渐近小。

令 \(\lambda_{\min }(\boldsymbol{A})\) 和 \(\lambda_{\max }(\boldsymbol{A})\) 表示对称方阵 \(\boldsymbol{A}\) 的最小和最大特征值，并注意 \(\lambda_{\max }\left(\boldsymbol{A}^{-1}\right)=\left(\lambda_{\min }(\boldsymbol{A})\right)^{-1}\)。自 \(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X} \underset{p}{\rightarrow} \boldsymbol{Q}_{X X}>0\) 起，由 CMT \(\lambda_{\min }\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X}\right) \underset{p}{\rightarrow} \lambda_{\min }\left(\boldsymbol{Q}_{X X}\right)>0\) 执行。（后者是正的，因为 \(\boldsymbol{Q}_{X X}\) 是正定的，因此它的所有特征值都是正的。）然后由二次不等式 (B.18)

\[ \begin{aligned} h_{i i} &=X_{i}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} X_{i} \\ & \leq \lambda_{\max }\left(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right)\left(X_{i}^{\prime} X_{i}\right) \\ &=\left(\lambda_{\min }\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{X}\right)\right)^{-1} \frac{1}{n}\left\|X_{i}\right\|^{2} \\ & \leq\left(\lambda_{\min }\left(\boldsymbol{Q}_{X X}\right)+o_{p}(1)\right)^{-1} \frac{1}{n} \max _{1 \leq i \leq n}\left\|X_{i}\right\|^{2} . \end{aligned} \]

定理 \(6.15\) 表明 \(\mathbb{E}\|X\|^{r}<\infty\) 蕴含 \(\max _{1 \leq i \leq n}\left\|X_{i}\right\|^{2}=\left(\max _{1 \leq i \leq n}\left\|X_{i}\right\|\right)^{2}=o_{p}\left(n^{2 / r}\right)\)，因此 (7.42) 是 \(o_{p}\left(n^{2 / r-1}\right)\)

定理 7.17 如果对于某些 \(r \geq 2\)，\(X_{i}\) 是 i.i.d.、\(\boldsymbol{Q}_{X X}>0\) 和 \(\mathbb{E}\|X\|^{r}<\infty\)，则 \(\max _{1 \leq i \leq n} h_{i i}=o_{p}\left(n^{2 / r-1}\right)\)。

对于任何 \(r \geq 2\) 则 \(h_{i i}=o_{p}\) (1) （在 \(i \leq n\) 中一致）。 \(r\) 越大意味着收敛速度越快。例如 \(r=4\) 意味着 \(h_{i i}=o_{p}\left(n^{-1 / 2}\right)\)。

定理（7.17）意味着在具有有限方差和大样本的随机抽样下，任何个体观测值都不应该具有大的杠杆值。因此，除非违反这些条件之一，否则个人观察不应产生影响。

7.22 练习

练习 7.1 采用模型 \(Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e\) 和 \(\mathbb{E}[X e]=0\)。假设 \(\beta_{1}\) 是通过仅在 \(X_{1}\) 上回归 \(Y\) 来估计的。求该估计量的概率极限。一般来说， \(\beta_{1}\) 是否一致？如果不是，在什么条件下这个估计量对于 \(\beta_{1}\) 是一致的？

练习 7.2 采用模型 \(Y=X^{\prime} \beta+e\) 和 \(\mathbb{E}[X e]=0\)。定义岭回归估计器

\[ \widehat{\beta}=\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime}+\lambda \boldsymbol{I}_{k}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} Y_{i}\right) \]

这里 \(\lambda>0\) 是一个固定常数。求 \(\widehat{\beta}\) 的概率极限为 \(n \rightarrow \infty\)。 \(\widehat{\beta}\) 与 \(\beta\) 一致吗？

练习 7.3 对于岭回归估计器 (7.43)，设置 \(\lambda=c n\)，其中 \(c>0\) 固定为 \(n \rightarrow \infty\)。求 \(\widehat{\beta}\) 的概率极限为 \(n \rightarrow \infty\)。练习 7.4 验证第 7.4 节中报告的一些计算。具体来说，假设 \(X_{1}\) 和 \(X_{2}\) 只对称地取值 \(\{-1,+1\}\)，其中

\[ \begin{aligned} \mathbb{P}\left[X_{1}=X_{2}=1\right] &=\mathbb{P}\left[X_{1}=X_{2}=-1\right]=3 / 8 \\ \mathbb{P}\left[X_{1}=1, X_{2}=-1\right] &=\mathbb{P}\left[X_{1}=-1, X_{2 i}=1\right]=1 / 8 \\ \mathbb{E}\left[e_{i}^{2} \mid X_{1}=X_{2}\right] &=\frac{5}{4} \\ \mathbb{E}\left[e_{i}^{2} \mid X_{1} \neq X_{2}\right] &=\frac{1}{4} . \end{aligned} \]

验证以下内容：\ (a) \(\mathbb{E}\left[X_{1}\right]=0\)\ (b) \(\mathbb{E}\left[X_{1}^{2}\right]=1\)\ (c) \(\mathbb{E}\left[X_{1} X_{2}\right]=\frac{1}{2}\)\ (d) \(\mathbb{E}\left[e^{2}\right]=1\)\ (e) \(\mathbb{E}\left[X_{1}^{2} e^{2}\right]=1\)\ (f) \(\mathbb{E}\left[X_{1} X_{2} e^{2}\right]=\frac{7}{8}\)。

练习 7.5 显示 (7.13)-(7.16)。

练习 \(7.6\) 模型是

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \\ \Omega &=\mathbb{E}\left[X X^{\prime} e^{2}\right] . \end{aligned} \]

求 \((\beta, \Omega)\) 的矩估计器 \((\widehat{\beta}, \widehat{\Omega})\) 的方法。

练习 7.7 在变量 \(\left(Y^{*}, Y, X\right)\) 中，仅观察到 \((Y, X)\) 对。在这种情况下，我们说 \(Y^{*}\) 是一个潜在变量。认为

\[ \begin{aligned} Y^{*} &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \\ Y &=Y^{*}+u \end{aligned} \]

其中 \(u\) 是满足以下条件的测量误差

\[ \begin{aligned} \mathbb{E}[X u] &=0 \\ \mathbb{E}\left[Y^{*} u\right] &=0 . \end{aligned} \]

让 \(\widehat{\beta}\) 表示 \(Y\) 对 \(X\) 回归的 OLS 系数。

\(\beta\) 是 \(Y\) 在 \(X\) 上的线性投影的系数吗？ (b) \(\widehat{\beta}\) 对于 \(\beta\) 与 \(n \rightarrow \infty\) 一致吗？
求 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近分布为 \(n \rightarrow \infty\)。

练习 7.8 求 \(\sqrt{n}\left(\widehat{\sigma}^{2}-\sigma^{2}\right)\) 的渐近分布为 \(n \rightarrow \infty\)。

练习 7.9 模型是 \(Y=X \beta+e\)、\(\mathbb{E}[e \mid X]=0\) 和 \(X \in \mathbb{R}\)。考虑两个估计量

\[ \begin{aligned} &\widehat{\beta}=\frac{\sum_{i=1}^{n} X_{i} Y_{i}}{\sum_{i=1}^{n} X_{i}^{2}} \\ &\widetilde{\beta}=\frac{1}{n} \sum_{i=1}^{n} \frac{Y_{i}}{X_{i}} . \end{aligned} \]

在上述假设下，\(\beta\) 的两个估计量是否一致？
是否存在使任一估计器有效的条件？

练习 7.10 在带有 \(\mathbb{E}[e \mid x]=0\) 和 \(\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}\) 的同方差回归模型 \(Y=X^{\prime} \beta+e\) 中，假设 \(\widehat{\beta}\) 是 \(\beta\) 的 OLS 估计器，其中协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}\) 基于大小为 \(n\) 的样本。令 \(\widehat{\sigma}^{2}\) 为 \(\sigma^{2}\) 的估计器。您希望根据 \(Y=X^{\prime} \beta+e\) 预测样本外值 \(Y=X^{\prime} \beta+e\)。因此，可用信息是样本、估计值 \(Y=X^{\prime} \beta+e\)、残差 \(Y=X^{\prime} \beta+e\) 以及回归量 \(Y=X^{\prime} \beta+e\) 的样本外值。

找到 \(Y_{n+1}\) 的点预测。
找到该预测方差的估计量。

练习 7.11 采用独立同分布的回归模型观察 \(\left(Y_{i}, X_{i}\right)\) 和 \(X \in \mathbb{R}\)

\[ \begin{aligned} Y &=X \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ \Omega &=\mathbb{E}\left[X^{2} e^{2}\right] . \end{aligned} \]

令 \(\widehat{\beta}\) 为 \(\beta\) 的 OLS 估计量，其残差为 \(\widehat{e}_{i}=Y_{i}-X_{i} \widehat{\beta}\)。考虑 \(\Omega\) 的估计量

\[ \begin{aligned} &\widetilde{\Omega}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2} e_{i}^{2} \\ &\widehat{\Omega}=\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2} \widehat{e}_{i}^{2} . \end{aligned} \]

求 \(\sqrt{n}(\widetilde{\Omega}-\Omega)\) 的渐近分布为 \(n \rightarrow \infty\)。
求 \(\sqrt{n}(\widehat{\Omega}-\Omega)\) 的渐近分布为 \(n \rightarrow \infty\)。
在对 (b) 的回答中如何使用回归假设 \(\mathbb{E}\left[e_{i} \mid X_{i}\right]=0\)？

练习7.12 考虑模型

\[ \begin{aligned} Y &=\alpha+\beta X+e \\ \mathbb{E}[e] &=0 \\ \mathbb{E}[X e] &=0 \end{aligned} \]

具有 \(Y\) 和 \(X\) 标量。假设 \(\alpha>0\) 和 \(\beta<0\) 假设感兴趣的参数是回归曲线下的面积（例如消费者剩余），即 \(A=-\alpha^{2} / 2 \beta\)。

令 \(\widehat{\theta}=(\widehat{\alpha}, \widehat{\beta})^{\prime}\) 为 \(\theta=(\alpha, \beta)^{\prime}\) 的最小二乘估计量，以便 \(\sqrt{n}(\widehat{\theta}-\theta) \rightarrow{ }_{d} N\left(0, \boldsymbol{V}_{\theta}\right)\) 并让 \(\widehat{\boldsymbol{V}}_{\theta}\) 为 \(\boldsymbol{V}_{\theta}\) 的标准估计量。

鉴于上述情况，描述 \(A\) 的估计器。
为 \(A\) 构建渐近 \(1-\eta\) 置信区间。

练习 7.13 考虑一个独立同分布示例 \(\left\{Y_{i}, X_{i}\right\} i=1, \ldots, n\)，其中 \(Y\) 和 \(X\) 是标量。考虑反向投影模型 \(X=Y \gamma+u\) 和 \(\mathbb{E}[Y u]=0\) 并将感兴趣的参数定义为 \(\theta=1 / \gamma\)。

提出 \(\gamma\) 的估计器 \(\widehat{\gamma}\)。
提出 \(\theta\) 的估计器 \(\widehat{\theta}\)。
求 \(\widehat{\theta}\) 的渐近分布。
求 \(\widehat{\theta}\) 的渐近标准误差。

练习7.14 建立模型

\[ \begin{aligned} Y &=X_{1} \beta_{1}+X_{2} \beta_{2}+e \\ \mathbb{E}[X e] &=0 \end{aligned} \]

与 \(\beta_{1} \in \mathbb{R}\) 和 \(\beta_{2} \in \mathbb{R}\) 一起使用，并定义参数 \(\theta=\beta_{1} \beta_{2}\)。

\(\theta\) 的适当估计器 \(\widehat{\theta}\) 是什么？
求标准正则条件下 \(\widehat{\theta}\) 的渐近分布。
展示如何计算 \(\theta\) 的渐近 \(95 %\) 置信区间。

练习 7.15 使用 \(\mathbb{E}[e \mid X]=0\) 和 \(X \in \mathbb{R}\) 建立线性模型 \(Y=X \beta+e\)。考虑估计器

\[ \widehat{\beta}=\frac{\sum_{i=1}^{n} X_{i}^{3} Y_{i}}{\sum_{i=1}^{n} X_{i}^{4}} \]

求 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近分布为 \(n \rightarrow \infty\)。

练习 7.16 从独立同分布样本 \(\left(Y_{i}, X_{i}\right)\) 的大小为 \(n\)，您随机取一半的观察值。您仅使用此子样本来估计 \(Y\) 在 \(X\) 上的最小二乘回归。估计的斜率系数 \(\widehat{\beta}\) 与人口预测系数一致吗？解释你的推理。

练习 7.17 一位经济学家报告了一组参数估计值，包括系数估计值 \(\widehat{\beta}_{1}=1.0, \widehat{\beta}_{2}=0.8\) 以及标准误差 \(s\left(\widehat{\beta}_{1}\right)=0.07\) 和 \(s\left(\widehat{\beta}_{2}\right)=0.07\)。作者写道“估计表明 \(\beta_{1}\) 大于 \(\beta_{2} . "\)

写出 \(\theta=\beta_{1}-\beta_{2}\) 渐近 95% 置信区间的公式，表示为 \(\widehat{\beta}_{1}, \widehat{\beta}_{2}, s\left(\widehat{\beta}_{1}\right), s\left(\widehat{\beta}_{2}\right)\) 和 \(\widehat{\rho}\) 的函数，其中 \(\widehat{\rho}\) 是 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 之间的估计相关性。
\(\widehat{\rho}\) 可以根据报告的信息计算出来吗？ (c) 作者的说法正确吗？报道的信息是否支持作者的主张？

练习 7.18 假设一个经济模型表明

\[ m(x)=\mathbb{E}[Y \mid X=x]=\beta_{0}+\beta_{1} x+\beta_{2} x^{2} \]

其中 \(X \in \mathbb{R}\).您有一个随机样本 \(\left(Y_{i}, X_{i}\right), i=1, \ldots, n\)。

描述如何在给定值 \(x\) 下估计 \(m(x)\)。
描述（具体）\(m(x)\) 的适当置信区间。

练习 7.19 采用模型 \(Y=X^{\prime} \beta+e\) 和 \(\mathbb{E}[X e]=0\) 并假设您有观测值 \(i=1, \ldots, 2 n\)。（观测值的数量为 \(2 n\)。）您将样本随机分成两半（每个都有 \(n\) 观测值），通过第一个样本的最小二乘法计算 \(\widehat{\beta}_{1}\)，通过第二个样本的最小二乘法计算 \(\widehat{\beta}_{2}\)样本。 \(\sqrt{n}\left(\widehat{\beta}_{1}-\widehat{\beta}_{2}\right)\) 的渐近分布是什么？

练习 7.20 变量 \(\left\{Y_{i}, X_{i}, W_{i}\right\}\) 是随机样本。参数 \(\beta\) 通过最小化准则函数来估计

\[ S(\beta)=\sum_{i=1}^{n} W_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)^{2} \]

那是\(\widehat{\beta}=\operatorname{argmin}_{\beta} S(\beta)\)。

找到 \(\widehat{\beta}\) 的显式表达式。
\(\widehat{\beta}\) 估计什么总体参数 \(\beta\)？明确您需要强加的任何假设。不要做出不必要的假设。
求 \(\widehat{\beta}\) 的概率极限为 \(n \rightarrow \infty\)。
求 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近分布为 \(n \rightarrow \infty\)。

练习7.21 建立模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ \mathbb{E}\left[e^{2} \mid X\right] &=Z^{\prime} \gamma \end{aligned} \]

其中 \(Z\) 是 \(X\) 的（向量）函数。样本是带有 i.i.d 的 \(i=1, \ldots, n\)。观察。假设 \(Z^{\prime} \gamma>0\) 代表所有 \(Z\)。假设您想要在给定 \(X_{n+1}=x\) 和 \(Z_{n+1}=z\) 的情况下预测样本外观测值 \(n+1\) 的 \(Y_{n+1}\)。描述如何为 \(Z\) 构建点预测和预测区间。

练习7.22 建立模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ Z &=X^{\prime} \beta \gamma+u \\ \mathbb{E}[u \mid X] &=0 \end{aligned} \]

其中 \(X\) 是 \(k\) 向量，\(Z\) 是标量。您的目标是估计标量参数 \(\gamma\)。您使用两步估计器： - 通过 \(X\) 上的 \(Y\) 的最小二乘法估计 \(\widehat{\beta}\)。

通过 \(Z\) 在 \(X^{\prime} \widehat{\beta}\) 上的最小二乘法估计 \(\widehat{\gamma}\)。

表明 \(\widehat{\gamma}\) 与 \(\gamma\) 一致。
求 \(\widehat{\gamma}\) 当 \(\gamma=0\) 时的渐近分布

练习 7.23 模型是 \(Y=X+e\)、\(\mathbb{E}[e \mid X]=0\) 和 \(X \in \mathbb{R}\)。考虑估计器

\[ \widetilde{\beta}=\frac{1}{n} \sum_{i=1}^{n} \frac{Y_{i}}{X_{i}} . \]

找出 \(\widetilde{\beta}\) 对于 \(\beta\) 与 \(n \rightarrow \infty\) 一致的条件。

练习7.24 参数\(\beta\)在模型\(Y=X^{*} \beta+e\)中定义，其中\(e\)独立于\(X^{*} \geq 0\)、\(\mathbb{E}[e]=0, \mathbb{E}\left[e^{2}\right]=\sigma^{2}\)。可观测值是 \((Y, X)\)，其中 \(X=X^{*} v\) 和 \(v>0\) 是随机尺度测量误差，与 \(X^{*}\) 和 \(\beta\) 无关。考虑 \(\beta\) 的最小二乘估计器 \(\beta\)。

求以 \(\beta\) 和 \((X, v, e)\) 矩表示的 \(\widehat{\beta}\) 的 plim。
你能找到一个非平凡的条件，在该条件下 \(\widehat{\beta}\) 与 \(\beta\) 一致吗？（我们所说的“非平凡”是指 \(v=1\) 以外的东西。）

练习 7.25 使用 \(\mathbb{E}[X e]=0\) 建立投影模型 \(Y=X^{\prime} \beta+e\)。对于正函数 \(w(x)\)，设 \(W_{i}=w\left(X_{i}\right)\)。考虑估计器

\[ \widetilde{\beta}=\left(\sum_{i=1}^{n} W_{i} X_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} W_{i} X_{i} Y_{i}\right) . \]

求 \(\widetilde{\beta}\) 的概率极限（如 \(n \rightarrow \infty\) ）。需要添加假设吗？ \(\widetilde{\beta}\) 与 \(\widetilde{\beta}\) 一致吗？如果不是，在什么假设下 \(\widetilde{\beta}\) 与 \(\beta\) 一致？

练习7.26 建立回归模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ \mathbb{E}\left[e^{2} \mid X=x\right] &=\sigma^{2}(x) \end{aligned} \]

与 \(X \in \mathbb{R}^{k}\)。假设\(\mathbb{P}[e=0]=0\)。考虑不可行的估计量

\[ \widetilde{\beta}=\left(\sum_{i=1}^{n} e_{i}^{-2} X_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} e_{i}^{-2} X_{i} Y_{i}\right) . \]

这是使用权重 \(e_{i}^{-2}\) 的 WLS 估计器。

求 \(\widetilde{\beta}\) 的渐近分布。
将您的结果与不可行 GLS 的渐近分布进行对比。练习7.27 模型是\(Y=X^{\prime} \beta+e\) 和\(\mathbb{E}[e \mid X]=0\)。一位计量经济学家担心一些异常大的回归变量值的影响。因此，该模型是在子样本上估计的，其中 \(\left|X_{i}\right| \leq c\) 为某些固定的 \(c\)。让 \(\widetilde{\beta}\) 表示该子样本的 OLS 估计器。它等于

\[ \widetilde{\beta}=\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime} \mathbb{1}\left\{\left|X_{i}\right| \leq c\right\}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} Y_{i} \mathbb{1}\left\{\left|X_{i}\right| \leq c\right\}\right) . \]

显示\(\widetilde{\beta} \underset{p}{\longrightarrow} \beta\)。
求 \(\sqrt{n}(\widetilde{\beta}-\beta)\) 的渐近分布。

练习 7.28 与练习 3.26 一样，使用 cps09mar 数据集和西班牙裔白人男性的子样本。估计回归

\[ \widehat{\log (\text { wage })}=\beta_{1} \text { education }+\beta_{2} \text { experience }+\beta_{3} \text { experience }^{2} / 100+\beta_{4} . \]

报告系数估计值和稳健标准误差。
令 \(\theta\) 为经验 \(=10\) 一年教育回报与一年经验回报的比率。将 \(\theta\) 写为回归系数和变量的函数。根据估计模型计算 \(\widehat{\theta}\)。
写出 \(\hat{\theta}\) 的渐近标准误差公式，作为 \(\widehat{\beta}\) 协方差矩阵的函数。根据估计模型计算 \(s(\widehat{\theta})\)。
根据估计模型为 \(\theta\) 构建 \(90 %\) 渐近置信区间。
计算教育 \(=12\) 和经验 \(=20\) 的回归函数。此时计算回归函数的 95% 置信区间。
考虑一个受过 16 年教育和 5 年经验的样本外个体。为他们的对数工资和工资构建 \(80 %\) 预测区间。 [要获得工资的预测区间，请将指数函数应用于两个端点。]