第8章: 受限估计

8 受限估计

8.1 介绍

在线性投影模型中

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \end{aligned} \]

一个常见的任务是对系数向量 $\beta$ 施加约束。例如，分区 $X^{\prime}=$、$\left(X_{1}^{\prime}, X_{2}^{\prime}\right)$ 和 $\beta^{\prime}=\left(\beta_{1}^{\prime}, \beta_{2}^{\prime}\right)$ 的典型约束是 $\beta_{2}=0$ 形式的排除限制。在这种情况下，约束模型是

\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+e \\ \mathbb{E}[X e] &=0 . \end{aligned} \]

乍一看，这与线性投影模型相同，但有一个重要的区别：误差 $e$ 与整个回归向量 $X^{\prime}=\left(X_{1}^{\prime}, X_{2}^{\prime}\right)$ 不相关，而不仅仅是包含的回归向量 $X_{1}$。

一般来说，$\beta$ 上的一组 $q$ 线性约束采用以下形式

\[ \boldsymbol{R}^{\prime} \beta=\boldsymbol{c} \]

其中 $\boldsymbol{R}$ 是 $k \times q, \operatorname{rank}(\boldsymbol{R})=q<k$，$\boldsymbol{c}$ 是 $q \times 1$。 $\boldsymbol{R}$ 满秩的假设意味着约束是线性独立的（不存在冗余或矛盾的约束）。我们将受限参数空间 $B$ 定义为满足 (8.1) 的 $\beta$ 值的集合，即

\[ B=\left\{\beta: \boldsymbol{R}^{\prime} \beta=\boldsymbol{c}\right\} . \]

有时我们将（8.1）称为约束，有时称为限制。他们是一样的东西。类似地，有时我们会调用满足（8.1）约束估计器的估计器，有时称为受限估计器。他们的意思是一样的。

上面讨论的约束 $\beta_{2}=0$ 是约束 (8.1) 的一个特例

\[ \boldsymbol{R}=\left(\begin{array}{c} 0 \\ \boldsymbol{I}_{k_{2}} \end{array}\right) \]

选择器矩阵和 $\boldsymbol{c}=0 .$ 另一个常见的限制是一组系数之和为已知常数，即 $\beta_{1}+\beta_{2}=1$。例如，这种约束出现在规模收益不变的生产函数中。其他常见限制包括系数 $\beta_{1}=\beta_{2}$ 相等，以及相等和抵消系数 $\beta_{1}=-\beta_{2}$。

施加约束的一个典型原因是我们相信（或有信息）该约束是正确的。通过施加约束，我们希望提高估计效率。目标是获得一致的估计，并相对于无约束估计量减少方差。

接下来的问题是：我们应该如何估计施加线性限制（8.1）的系数向量$\beta$？如果我们施加这样的约束，所得估计量的抽样分布是什么？我们应该如何计算标准误差？这些是本章探讨的问题。

8.2 约束最小二乘法

估计约束线性投影的直观有吸引力的方法是在约束 $\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}$ 的情况下最小化最小二乘准则。

约束最小二乘估计量为

\[ \widetilde{\beta}_{\mathrm{cls}}=\underset{\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}}{\operatorname{argmin}} \operatorname{SSE}(\beta) \]

在哪里

\[ \operatorname{SSE}(\beta)=\sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \beta\right)^{2}=\boldsymbol{Y}^{\prime} \boldsymbol{Y}-2 \boldsymbol{Y}^{\prime} \boldsymbol{X} \beta+\beta^{\prime} \boldsymbol{X}^{\prime} \boldsymbol{X} \beta \]

估计器 $\widetilde{\beta}_{\text {cls }}$ 最小化所有 $\beta \in B$ 上的误差平方和，或者等价地使得限制 (8.1) 成立。我们将 $\widetilde{\beta}_{\text {cls }}$ 称为约束最小二乘 (CLS) 估计器。我们使用波浪号“ $\sim$ ”而不是帽子“ $\wedge$ ”的约定来表明 $\widetilde{\beta}_{\text {cls }}$ 是一个受限制的估计器，与无限制的最小二乘估计器 $\widehat{\beta}$ 不同，并将其写为 $\widetilde{\beta}_{\text {cls }}$需要说明的是，估计方法是CLS。

求解 (8.3) 的一种方法是拉格朗日乘子技术。问题（8.3）相当于寻找拉格朗日方程的临界点

\[ \mathscr{L}(\beta, \lambda)=\frac{1}{2} \operatorname{SSE}(\beta)+\lambda^{\prime}\left(\boldsymbol{R}^{\prime} \beta-\boldsymbol{c}\right) \]

$(\beta, \lambda)$ 上，其中 $\lambda$ 是拉格朗日乘子的 $s \times 1$ 向量。解决方案是鞍点。拉格朗日在 $\beta$ 上最小化，在 $\lambda$ 上最大化。 (8.5) 解的一阶条件是

\[ \frac{\partial}{\partial \beta} \mathscr{L}\left(\widetilde{\beta}_{\mathrm{cls}}, \widetilde{\lambda}_{\mathrm{cls}}\right)=-\boldsymbol{X}^{\prime} \boldsymbol{Y}+\boldsymbol{X}^{\prime} \boldsymbol{X} \widetilde{\beta}_{\mathrm{cls}}+\boldsymbol{R} \widetilde{\lambda}_{\mathrm{cls}}=0 \]

和

\[ \frac{\partial}{\partial \lambda} \mathscr{L}\left(\widetilde{\beta}_{\mathrm{cls}}, \widetilde{\lambda}_{\mathrm{cls}}\right)=\boldsymbol{R}^{\prime} \widetilde{\beta}-\boldsymbol{c}=0 \]

将 (8.6) 预乘以 $\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}$ 我们得到

\[ -\boldsymbol{R}^{\prime} \widehat{\beta}+\boldsymbol{R}^{\prime} \widetilde{\beta}_{\mathrm{cls}}+\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R} \tilde{\lambda}_{\text {cls }}=0 \]

其中 $\widehat{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}$ 是无限制最小二乘估计量。从 (8.7) 中引入 $\boldsymbol{R}^{\prime} \widetilde{\beta}_{\text {cls }}-\boldsymbol{c}=0$ 并求解 $\widetilde{\lambda}_{\text {cls we find }}$

\[ \tilde{\lambda}_{\text {cls }}=\left[\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right]^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}\right) . \]

请注意，$\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}>0$ 和 $\boldsymbol{R}$ 满秩意味着 $\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}>0$ 是可逆的。（参见 A.10 节。）将此表达式代入 (8.6) 并求解 $\widetilde{\beta}_{\text {cls }}$，我们找到约束最小化问题 (8.3) 的解

\[ \widetilde{\beta}_{\text {cls }}=\widehat{\beta}_{\text {ols }}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left[\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right]^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\text {ols }}-\boldsymbol{c}\right) . \]

（参见练习 $8.5$ 来验证 (8.8) 满足 (8.1)。）

这是 CLS 估计器的通用公式。也可以写成

\[ \widetilde{\beta}_{\mathrm{cls}}=\widehat{\beta}_{\mathrm{ols}}-\widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right) . \]

CLS 残差为 $\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}_{\text {cls }}$，并以向量表示法写为 $\widetilde{\boldsymbol{e}}$。

为了说明这一点，我们为变量 $\left(Y, X_{1}, X_{2}\right)$ 生成了 100 个观测值的随机样本，并计算了 $Y$ 对 $X_{1}$ 和 $X_{2}$ 回归的误差平方和函数。图 $8.1$ 显示误差平方和函数的等值线图。等值线图的中心是最小二乘极小值 $\widehat{\beta}_{\text {ols }}=(0.33,0.26)^{\prime}$。假设需要估计受约束 $\beta_{1}+\beta_{2}=1$ 约束的系数。该约束在图中通过直线显示。约束最小二乘估计量是这条直线上产生最小误差平方和的点。这是与最低等高线图相交的点。解是等高线图与约束线相切的点，并标记为 $\widetilde{\beta}_{\mathrm{cls}}=(0.52,0.48)^{\prime}$。

图 8.1：约束最小二乘准则

在 Stata 中，约束最小二乘法是使用 cnsreg 命令实现的。

8.3 排除限制

虽然 (8.8) 是 CLS 的通用公式，但在大多数情况下，可以通过将最小二乘法应用于重新参数化方程来找到估计量。为了说明这一点，让我们回到本章开头提出的第一个例子——一个简单的排除限制。回想一下，无约束模型是

\[ Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e \]

排除限制为 $\beta_{2}=0$，约束方程为

\[ Y=X_{1}^{\prime} \beta_{1}+e . \]

在此设置中，CLS 估计器是 $Y$ 对 $X_{1}$ 的 OLS。（参见练习 8.1。）我们可以将其写为

\[ \widetilde{\beta}_{1}=\left(\sum_{i=1}^{n} X_{1 i} X_{1 i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{1 i} Y_{i}\right) . \]

整个向量 $\beta^{\prime}=\left(\beta_{1}^{\prime}, \beta_{2}^{\prime}\right)$ 的 CLS 估计量为

\[ \widetilde{\beta}=\left(\begin{array}{c} \widetilde{\beta}_{1} \\ 0 \end{array}\right) . \]

虽然不是很明显，但 (8.8) 和 (8.13) 在代数上是相同的。为了看到这一点，（8.8）和（8.2）的第一个组成部分是

\[ \widetilde{\beta}_{1}=\left(\begin{array}{ll} \boldsymbol{I}_{k_{2}} & 0 \end{array}\right)\left[\widehat{\beta}-\widehat{\boldsymbol{Q}}_{X X}^{-1}\left(\begin{array}{c} 0 \\ \boldsymbol{I}_{k_{2}} \end{array}\right)\left[\left(\begin{array}{ll} 0 & \boldsymbol{I}_{k_{2}} \end{array}\right) \widehat{\boldsymbol{Q}}_{X X}^{-1}\left(\begin{array}{c} 0 \\ \boldsymbol{I}_{k_{2}} \end{array}\right)\right]^{-1}\left(\begin{array}{cc} 0 & \boldsymbol{I}_{k_{2}} \end{array}\right) \widehat{\beta}\right] . \]

使用 (3.39) 这等于

\[ \begin{aligned} & \widetilde{\beta}_{1}=\widehat{\beta}_{1}-\widehat{\boldsymbol{Q}}^{12}\left(\widehat{\boldsymbol{Q}}^{22}\right)^{-1} \widehat{\beta}_{2} \\ & =\widehat{\beta}_{1}+\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1} \widehat{\boldsymbol{Q}}_{12} \widehat{\boldsymbol{Q}}_{22}^{-1} \widehat{\boldsymbol{Q}}_{22 \cdot 1} \widehat{\beta}_{2} \\ & =\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1}\left(\widehat{\boldsymbol{Q}}_{1 Y}-\widehat{\boldsymbol{Q}}_{12} \widehat{\boldsymbol{Q}}_{22}^{-1} \widehat{\boldsymbol{Q}}_{2 Y}\right) \\ & +\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1} \widehat{\boldsymbol{Q}}_{12} \widehat{\boldsymbol{Q}}_{22}^{-1} \widehat{\boldsymbol{Q}}_{22 \cdot 1} \widehat{\boldsymbol{Q}}_{22 \cdot 1}^{-1}\left(\widehat{\boldsymbol{Q}}_{2 y}-\widehat{\boldsymbol{Q}}_{21} \widehat{\boldsymbol{Q}}_{11}^{-1} \widehat{\boldsymbol{Q}}_{1 Y}\right) \\ & =\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1}\left(\widehat{\boldsymbol{Q}}_{1 Y}-\widehat{\boldsymbol{Q}}_{12} \widehat{\boldsymbol{Q}}_{22}^{-1} \widehat{\mathbf{Q}}_{21} \widehat{\boldsymbol{Q}}_{11}^{-1} \widehat{\boldsymbol{Q}}_{1 Y}\right) \\ & =\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1}\left(\widehat{\boldsymbol{Q}}_{11}-\widehat{\boldsymbol{Q}}_{12} \widehat{\boldsymbol{Q}}_{22}^{-1} \widehat{\boldsymbol{Q}}_{21}\right) \widehat{\boldsymbol{Q}}_{11}^{-1} \widehat{\boldsymbol{Q}}_{1 Y} \\ & =\widehat{\boldsymbol{Q}}_{11}^{-1} \widehat{\boldsymbol{Q}}_{1 Y} \end{aligned} \]

正如最初所声称的那样，它是（8.13）。

8.4 有限样本属性

在本节中，我们探讨线性回归模型中 CLS 估计器的一些属性

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[e \mid X] &=0 . \end{aligned} \]

首先，将估计器和残差编写为误差向量的线性函数是有用的。这些是代数关系，不依赖于线性回归假设。定理 8.1 CLS 估计器满足

1.$\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}=\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{e}$

2.$\widetilde{\beta}_{\mathrm{cls}}-\beta=\left(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime}-\boldsymbol{A} \boldsymbol{X}^{\prime}\right) \boldsymbol{e}$

3.$\widetilde{\boldsymbol{e}}=\left(\boldsymbol{I}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right) \boldsymbol{e}$

$\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}$ 是对称且幂等的

5.$\operatorname{tr}\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right)=n-k+q$

其中 $\boldsymbol{P}=\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime}$ 和 $\boldsymbol{A}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}$

证明参见练习 8.6。

考虑到定理 8.1.2 的线性，不难证明 CLS 估计器对于 $\beta$ 是无偏的。

定理8.2 在(8.1)下的线性回归模型(8.14)-(8.15)中，$\mathbb{E}\left[\widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right]=\beta$

证明参见练习 8.7。

我们还可以计算 $\widetilde{\beta}_{\text {cls }}$ 的协方差矩阵。首先，为简单起见，以条件同方差为例。

定理 8.3 在 $\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}$ 的同方差线性回归模型 (8.14)-(8.15) 中，在 (8.1) 下，

\[ \begin{aligned} \boldsymbol{V}_{\widetilde{\beta}}^{0} &=\operatorname{var}\left[\widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right] \\ &=\left(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) \sigma^{2} \end{aligned} \]

证明参见练习 8.8。

我们使用 $\boldsymbol{V}_{\tilde{\beta}}^{0}$ 符号来强调这是条件同方差假设下的协方差矩阵。

为了进行推理，我们需要估计 $\boldsymbol{V}_{\widetilde{\beta}}^{0}$。自然估计量是

\[ \widehat{\boldsymbol{V}}_{\widetilde{\beta}}^{0}=\left(\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) s_{\mathrm{cls}}^{2} \]

在哪里

\[ s_{\mathrm{cls}}^{2}=\frac{1}{n-k+q} \sum_{i=1}^{n} \widetilde{e}_{i}^{2} \]

是 $\sigma^{2}$ 的有偏校正估计量。例如，然后通过取 $\widehat{\boldsymbol{V}}_{\widetilde{\beta}}$ 对角线元素的平方根来找到 $\beta$ 分量的标准误差

\[ s\left(\widehat{\beta}_{j}\right)=\sqrt{\left[\widehat{\boldsymbol{V}}_{\widetilde{\beta}}^{0}\right]_{j j}} . \]

估计量 (8.16) 具有在条件同方差下对于 $\sigma^{2}$ 无偏的性质。为了看到这一点，使用定理 8.1 的属性，

\[ \begin{aligned} (n-k+q) s_{\mathrm{cls}}^{2} &=\widetilde{\boldsymbol{e}}^{\prime} \widetilde{\boldsymbol{e}} \\ &=\boldsymbol{e}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right)\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right) \boldsymbol{e} \\ &=\boldsymbol{e}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right) \boldsymbol{e} . \end{aligned} \]

我们将剩下的证明推迟到练习 8.9。

定理 8.4 在 $\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}$ 的同方差线性回归模型 (8.14)-(8.15) 中，在 (8.1)、$\mathbb{E}\left[s_{\text {cls }}^{2} \mid \boldsymbol{X}\right]=\sigma^{2}$ 和 $\mathbb{E}\left[\widehat{\boldsymbol{V}}_{\widetilde{\beta}}^{0} \mid \boldsymbol{X}\right]=\boldsymbol{V}_{\widetilde{\beta}}^{0} .$ 下

现在考虑正态回归模型 $Y=X^{\prime} \beta+e$ 和 $e \sim$ $\mathrm{N}\left(0, \sigma^{2}\right)$ 中的分布属性。根据定理 8.1.2 的线性，$\boldsymbol{X}, \widetilde{\beta}_{\text {cls }}-\beta$ 的条件是正规的。给定定理 $8.2$ 和 $8.3$，我们推导出 $\widetilde{\beta}_{\mathrm{cls}} \sim \mathrm{N}\left(\beta, \boldsymbol{V}_{\widetilde{\beta}}^{0}\right)$。

类似地，从 Exericise $8.1$ 我们知道 $\widetilde{\boldsymbol{e}}=\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right) \boldsymbol{e}$ 在 $\boldsymbol{e}$ 中是线性的，因此也是有条件正态的。此外，由于 $\left(\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}\right)\left(\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\boldsymbol{X} \boldsymbol{A}\right)=0, \widetilde{\boldsymbol{e}}$ 和 $\widetilde{\beta}_{\text {cls }}$ 不相关，因此是独立的。因此 $s_{\text {cls }}^{2}$ 和 $\widetilde{\beta}_{\text {cls }}$ 是独立的。

根据 (8.17) 以及 $\boldsymbol{I}_{n}-\boldsymbol{P}+\boldsymbol{X} \boldsymbol{A} \boldsymbol{X}^{\prime}$ 与阶 $n-k+q$ 幂等的事实，可以得出以下结论

\[ s_{\text {cls }}^{2} \sim \sigma^{2} \chi_{n-k+q}^{2} /(n-k+q) . \]

由此可见 $\mathrm{t}$-统计量具有精确的分布

\[ T=\frac{\widehat{\beta}_{j}-\beta_{j}}{s\left(\widehat{\beta}_{j}\right)} \sim \frac{\mathrm{N}(0,1)}{\sqrt{\chi_{n-k+q}^{2} /(n-k+q)}} \sim t_{n-k+q} \]

具有 $n-k+q$ 自由度的学生 $t$ 分布。

此计算的相关性在于，CLS 回归的“自由度”等于 $n-k+q$，而不是 OLS 中的 $n-k$。本质上，该模型具有 $k-q$ 自由参数，而不是 $k$。另一种思考方式是，使用 $k$ 系数和 $q$ 限制来估计模型相当于使用 $k-q$ 系数进行估计。

我们总结了正态回归模型的属性。定理8.5 在具有约束(8.1)的正态线性回归模型(8.14)-(8.15)中，

\[ \begin{aligned} \widetilde{\beta}_{\mathrm{cls}} \sim \mathrm{N}\left(\beta, \boldsymbol{V}_{\widetilde{\beta}}^{0}\right) \\ \frac{(n-k+q) s_{\mathrm{cls}}^{2}}{\sigma^{2}} \sim \chi_{n-k+q}^{2} \\ T & \sim t_{n-k+q} . \end{aligned} \]

一个有趣的关系是在同方差回归模型中

\[ \begin{aligned} \operatorname{cov}\left(\widehat{\beta}_{\mathrm{ols}}-\widetilde{\beta}_{\mathrm{cls}}, \widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right) &=\mathbb{E}\left[\left(\widehat{\beta}_{\mathrm{ols}}-\widetilde{\beta}_{\mathrm{cls}}\right)\left(\widetilde{\beta}_{\mathrm{cls}}-\beta\right)^{\prime} \mid \boldsymbol{X}\right] \\ &=\mathbb{E}\left[\boldsymbol{A} \boldsymbol{X}^{\prime} \boldsymbol{e} \boldsymbol{e}^{\prime}\left(\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\boldsymbol{X} \boldsymbol{A}\right) \mid \boldsymbol{X}\right] \\ &=\boldsymbol{A} \boldsymbol{X}^{\prime}\left(\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}-\boldsymbol{X} \boldsymbol{A}\right) \sigma^{2}=0 . \end{aligned} \]

这意味着 $\widehat{\beta}_{\text {ols }}-\widetilde{\beta}_{\text {cls }}$ 和 $\widetilde{\beta}_{\text {cls }}$ 有条件地不相关，因此是独立的。一个推论是

\[ \operatorname{cov}\left(\widehat{\beta}_{\text {ols }}, \widetilde{\beta}_{\text {cls }} \mid \boldsymbol{X}\right)=\operatorname{var}\left[\widetilde{\beta}_{\text {cls }} \mid \boldsymbol{X}\right] . \]

第二个推论是

\[ \begin{aligned} \operatorname{var}\left[\widehat{\beta}_{\mathrm{ols}}-\widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right] &=\operatorname{var}\left[\widehat{\beta}_{\mathrm{ols}} \mid \boldsymbol{X}\right]-\operatorname{var}\left[\widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right] \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \sigma^{2} \end{aligned} \]

这也表明 CLS 和 OLS 方差矩阵之间的差异等于

\[ \operatorname{var}\left[\widehat{\beta}_{\text {ols }} \mid \boldsymbol{X}\right]-\operatorname{var}\left[\widetilde{\beta}_{\mathrm{cls}} \mid \boldsymbol{X}\right]=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \sigma^{2} \geq 0 \]

最终的等式意味着半正定。由此可见 $\operatorname{var}\left[\widehat{\beta}_{\text {ols }} \mid \boldsymbol{X}\right] \geq \operatorname{var}\left[\widetilde{\beta}_{\text {cls }} \mid \boldsymbol{X}\right]$ 是正定意义上的，因此 CLS 比 OLS 更有效。两个估计量都是无偏的（在线性回归模型中），并且 CLS 具有较低的协方差矩阵（在线性同方差回归模型中）。

关系（8.18）相当有趣，将会再次出现。该表达式表示估计量之间的差异的方差等于方差之间的差异。这是比较特别的。当我们比较有效估计器和低效估计器时，通常会发生这种情况。我们将（8.18）称为豪斯曼等式，因为它是豪斯曼（1978）在计量经济学中首次指出的。

8.5 最短距离

上一节探讨了线性回归模型、同方差回归模型和正态回归模型假设下的有限样本分布理论。现在我们回到一般投影模型，其中我们不施加线性、同方差或正态性。我们感兴趣的问题是：在这种情况下我们能比 CLS 做得更好吗？

最小距离估计器试图找到满足约束的参数值，该值尽可能接近无约束估计器。令 $\widehat{\beta}$ 为无约束最小二乘估计器，对于某些 $k \times k$ 正定权重矩阵 $\widehat{W}$ 定义二次准则函数

\[ J(\beta)=n(\widehat{\beta}-\beta)^{\prime} \widehat{\boldsymbol{W}}(\widehat{\beta}-\beta) . \]

如果 $\beta$ 接近 $\widehat{\beta}$，则 $\widehat{\beta}$ 和 $\beta . J(\beta)$ 之间的（平方）加权欧几里得距离很小，并且仅当 $\beta=\widehat{\beta}$ 时才最小化为零。 $\beta$ 的最小距离估计器 $\widetilde{\beta}_{\mathrm{md}}$ 在约束 (8.1) 的约束下最小化 $J(\beta)$，即

\[ \widetilde{\beta}_{\mathrm{md}}=\underset{\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}}{\operatorname{argmin}} J(\beta) . \]

CLS 估计器是 $\widehat{\boldsymbol{W}}=\widehat{\boldsymbol{Q}}_{X X}$ 时的特殊情况，我们将此标准函数写为

\[ J^{0}(\beta)=n(\widehat{\beta}-\beta)^{\prime} \widehat{\boldsymbol{Q}}_{X X}(\widehat{\beta}-\beta) . \]

要查看 CLS 和最小距离的相等性，请重写最小二乘准则，如下所示。将无约束最小二乘拟合方程$Y_{i}=X_{i}^{\prime} \widehat{\beta}+\widehat{e}_{i}$代入$\operatorname{SSE}(\beta)$，得到

\[ \begin{aligned} \operatorname{SSE}(\beta) &=\sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \beta\right)^{2} \\ &=\sum_{i=1}^{n}\left(X_{i}^{\prime} \widehat{\beta}+\widehat{e}_{i}-X_{i}^{\prime} \beta\right)^{2} \\ &=\sum_{i=1}^{n} \widehat{e}_{i}^{2}+(\widehat{\beta}-\beta)^{\prime}\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)(\widehat{\beta}-\beta) \\ &=n \widehat{\sigma}^{2}+J^{0}(\beta) \end{aligned} \]

其中第三个等式使用 $\sum_{i=1}^{n} X_{i} \widehat{e}_{i}=0$，最后一行使用 $\sum_{i=1}^{n} X_{i} X_{i}^{\prime}=n \widehat{\mathbf{Q}}_{X X}$。表达式 (8.21) 仅取决于 $\beta$ 到 $J^{0}(\beta)$。因此，$\operatorname{SSE}(\beta)$ 和 $J^{0}(\beta)$ 的最小化是等价的，因此当 $\widehat{\boldsymbol{W}}=\widehat{\boldsymbol{Q}}_{X X}$ 时，$\widetilde{\beta}_{\mathrm{md}}=\widetilde{\widetilde{\beta}}_{\text {cls }}$ 是等价的。

我们可以通过拉格朗日乘子的方法显式求解 $\widetilde{\beta}_{\mathrm{md}}$。拉格朗日量是

\[ \mathscr{L}(\beta, \lambda)=\frac{1}{2} J(\beta, \widehat{\boldsymbol{W}})+\lambda^{\prime}\left(\boldsymbol{R}^{\prime} \beta-\boldsymbol{c}\right) . \]

这对一阶条件的解为

\[ \begin{aligned} &\widetilde{\lambda}_{\mathrm{md}}=n\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{\beta}}-\boldsymbol{c}\right) \\ &\widetilde{\beta}_{\mathrm{md}}=\widehat{\boldsymbol{\beta}}-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}\right) . \end{aligned} \]

（参见练习8.10。）比较（8.23）和（8.9），我们可以看到，当我们设置$\widehat{\boldsymbol{W}}=\widehat{\boldsymbol{Q}}_{X X}$时，$\widetilde{\beta}_{\mathrm{md}}$专门化为$\widetilde{\beta}_{\text {cls }}$

一个明显的问题是哪个权重矩阵 $\widehat{\boldsymbol{W}}$ 最好。在推导出一般权重矩阵的渐近分布后，我们将解决这个问题。

8.6 渐近分布

我们首先证明，当约束有效时，最小距离估计器的类别对于总体参数是一致的。

假设 8.1 $\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}$ 其中 $\boldsymbol{R}$ 是 $k \times q$ 和 $\operatorname{rank}(\boldsymbol{R})=q$。假设 8.2 $\widehat{W} \underset{p}{\longrightarrow} W>0$。

定理8.6一致性根据假设 7.1、8.1 和 8.2，$\widetilde{\beta}_{\mathrm{md}} \underset{p}{\longrightarrow} \beta$ 为 $n \rightarrow \infty$。

证明参见练习 8.11。

定理 $8.6$ 表明一致性对于任何具有正定极限的权重矩阵都成立，因此包括 CLS 估计器。

类似地，约束估计量呈渐近正态分布。

定理8.7渐近正态性根据假设 7.2、8.1 和 8.2，

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{md}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}(\boldsymbol{W})\right) \]

作为 $n \rightarrow \infty$，其中

\[ \begin{gathered} \boldsymbol{V}_{\beta}(\boldsymbol{W})=\boldsymbol{V}_{\beta}-\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \\ -\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \\ +\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \end{gathered} \]

和$\boldsymbol{V}_{\beta}=\boldsymbol{Q}_{X X}^{-1} \Omega \boldsymbol{Q}_{X X}^{-1}$

证明参见练习 8.12。

定理 $8.7$ 表明最小距离估计对于所有正定权重矩阵都是渐近正态的。渐近方差取决于 $\boldsymbol{W}$。该定理通过设置 $\boldsymbol{W}=\boldsymbol{Q}_{X X}$ 将 CLS 估计器包含为特例。

定理8.8 CLS估计量的渐近分布在假设 $7.2$ 和 8.1 下，作为 $n \rightarrow \infty$

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{cls}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\mathrm{cls}}\right) \]

在哪里

\[ \begin{aligned} \boldsymbol{V}_{\mathrm{cls}} &=\boldsymbol{V}_{\beta}-\boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \\ &-\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \\ &+\boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{Q}_{X X}^{-1} \end{aligned} \]

证明参见练习 8.13。

8.7 方差估计和标准误差

前面我们在条件同方差的假设下介绍了协方差矩阵估计器。我们现在引入一个不强加同方差的估计器。

渐近协方差矩阵 $\boldsymbol{V}_{\text {cls }}$ 可以通过用一致的估计器（例如 $\widehat{\boldsymbol{V}}_{\beta}$）替换 $\boldsymbol{V}_{\beta}$ 来估计。通过使用我们现在展示的受限系数估计器可以获得更有效的估计器。给定约束最小二乘平方残差 $\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}_{\text {cls }}$，我们可以通过以下方式估计矩阵 $\Omega=\mathbb{E}\left[X X^{\prime} e^{2}\right]$

\[ \widetilde{\Omega}=\frac{1}{n-k+q} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widetilde{e}_{i}^{2} . \]

请注意，我们使用了调整后的自由度。这是一个 $a d$ 临时调整，旨在模仿用于估计误差方差 $\sigma^{2}$ 的调整。 $\boldsymbol{V}_{\beta}$ 的矩估计量为

\[ \widetilde{\boldsymbol{V}}_{\beta}=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widetilde{\Omega} \widehat{\boldsymbol{Q}}_{X X}^{-1} \]

对于 $\boldsymbol{V}_{\mathrm{cls}}$ 来说是

\[ \begin{aligned} \widetilde{\boldsymbol{V}}_{\mathrm{cls}} &=\widetilde{\boldsymbol{V}}_{\beta}-\widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} \\ &-\widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{\boldsymbol{x x}}^{-1} \\ &+\widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{Q}}_{X X}^{-1} \end{aligned} \]

我们可以计算任何线性组合 $h^{\prime} \widetilde{\beta}_{\text {cls }}$ 的标准误差，使得 $h$ 不在 $\boldsymbol{R}$ 的范围空间内。 $h^{\prime} \widetilde{\beta}$ 的标准错误是

\[ s\left(h^{\prime} \widetilde{\boldsymbol{\beta}}_{\mathrm{cls}}\right)=\left(n^{-1} h^{\prime} \tilde{\boldsymbol{V}}_{\mathrm{cls}} h\right)^{1 / 2} . \]

8.8 高效的最小距离估计器

定理 $8.7$ 表明最小距离估计量（包括 CLS 作为特例）对于渐近协方差矩阵是渐近正态的，该矩阵取决于权重矩阵 $\boldsymbol{W}$。渐近最优权重矩阵是最小化渐近方差 $\boldsymbol{V}_{\beta}(\boldsymbol{W})$ 的矩阵。结果是 $\boldsymbol{W}=\boldsymbol{V}_{\beta}^{-1}$，如下面定理 $8.9$ 所示。由于 $\boldsymbol{V}_{\beta}^{-1}$ 未知，因此该权重矩阵不能用于可行的估计器，但我们可以用一致的估计器 $\widehat{\boldsymbol{V}}_{\beta}^{-1}$ 替换 $\boldsymbol{V}_{\beta}^{-1}$，并且渐近分布（和效率）保持不变。我们将 $\widehat{\boldsymbol{W}}=\widehat{\boldsymbol{V}}_{\beta}^{-1}$ 的最小距离估计器称为高效最小距离估计器，并采用以下形式

\[ \widetilde{\beta}_{\text {emd }}=\widehat{\beta}-\widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}\right) . \]

(8.25) 的渐近分布可由定理 8.7 推导出来。（参见练习 $8.14$ 和 8.15，以及第 8.16 节中的证明。）

定理8.9高效的最小距离估计器在假设 $7.2$ 和 8.1 下，

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{emd}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta, \mathrm{emd}}\right) \]

作为 $n \rightarrow \infty$，其中

\[ \boldsymbol{V}_{\beta, \mathrm{emd}}=\boldsymbol{V}_{\beta}-\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \]

自从

\[ \boldsymbol{V}_{\beta, \mathrm{emd}} \leq \boldsymbol{V}_{\beta} \]

估计量 (8.25) 的渐近方差低于无限制估计量。此外，对于任何 $\boldsymbol{W}$，

\[ \boldsymbol{V}_{\beta, \mathrm{emd}} \leq \boldsymbol{V}_{\beta}(\boldsymbol{W}) \]

所以 (8.25) 在最小距离估计类中是渐近有效的。

定理 $8.9$ 表明渐近方差最小的最小距离估计量为 (8.25)。暗示之一是约束最小二乘估计器通常效率较低。有趣的例外是条件同方差的情况，在这种情况下，最佳权重矩阵是 $\boldsymbol{W}=\left(\boldsymbol{V}_{\beta}^{0}\right)^{-1}$，因此在这种情况下，CLS 是一种有效的最小距离估计器。否则，当误差是条件异方差时，通过使用最小距离而不是最小二乘可以获得渐近效率增益。

CLS 普遍效率低下这一事实是违反直觉的，需要进行一些反思。标准直觉建议对无约束和约束模型应用相同的估计方法（最小二乘），这是常见的经验做法。但定理 $8.9$ 表明这是低效的。为什么？原因是最小二乘估计器没有使用回归器 $X_{2}$。它忽略信息 $\mathbb{E}\left[X_{2} e\right]=0$。当误差是异方差且排除的回归量与包含的回归量相关时，此信息是相关的。

不等式 (8.27) 表明，有效最小距离估计器 $\widetilde{\beta}_{\text {emd }}$ 的渐近方差比无限制最小二乘估计器 $\widehat{\beta}$ 更小。这意味着当我们使用最小距离方法时，可以通过施加正确的限制来实现有效的估计。

8.9 重新审视排除限制

我们回到带有简单排除限制的估计示例。模型是

\[ Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e \]

具有排除限制 $\beta_{2}=0$。我们引入了 $\beta_{1}$ 的三个估计器。第一个是应用于 (8.10) 的无约束最小二乘法，可以写为 $\widehat{\beta}_{1}=\widehat{\boldsymbol{Q}}_{11 \cdot 2}^{-1} \widehat{\boldsymbol{Q}}_{1 Y \cdot 2}$。根据定理 $7.25$ 和方程 (7.14)，其渐近方差为

\[ \operatorname{avar}\left[\widehat{\beta}_{1}\right]=\boldsymbol{Q}_{11 \cdot 2}^{-1}\left(\Omega_{11}-\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \Omega_{21}-\Omega_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}+\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \Omega_{22} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}\right) \boldsymbol{Q}_{11 \cdot 2}^{-1} \]

$\beta_{1}$ 的第二个估计器是 CLS，可以写为 $\widetilde{\beta}_{1}=\widehat{\boldsymbol{Q}}_{11}^{-1} \widehat{\boldsymbol{Q}}_{1 Y}$。它的渐近方差可以从定理8.8推导出来，但直接应用CLT来证明更简单

\[ \operatorname{avar}\left[\widetilde{\beta}_{1}\right]=\boldsymbol{Q}_{11}^{-1} \Omega_{11} \boldsymbol{Q}_{11}^{-1} . \]

$\beta_{1}$ 的第三个估计量是有效最小距离。应用(8.25)，它等于

\[ \bar{\beta}_{1}=\widehat{\beta}_{1}-\widehat{\boldsymbol{V}}_{12} \widehat{\boldsymbol{V}}_{22}^{-1} \widehat{\beta}_{2} \]

我们已经分区的地方

\[ \widehat{\boldsymbol{V}}_{\beta}=\left[\begin{array}{ll} \widehat{\boldsymbol{V}}_{11} & \widehat{\boldsymbol{V}}_{12} \\ \widehat{\boldsymbol{V}}_{21} & \widehat{\boldsymbol{V}}_{22} \end{array}\right] \]

根据定理 $8.9$，其渐近方差为

\[ \operatorname{avar}\left[\bar{\beta}_{1}\right]=\boldsymbol{V}_{11}-\boldsymbol{V}_{12} \boldsymbol{V}_{22}^{-1} \boldsymbol{V}_{21} \]

请参阅练习 $8.16$ 来验证方程 (8.29)、(8.30) 和 (8.31)。

一般来说，这三个估计量是不同的，并且它们具有不同的渐近方差。比较方差以评估约束估计器是否比无约束估计器更有效是有启发性的。

首先，假设条件同方差。在这种情况下，两个协方差矩阵简化为 $\operatorname{avar}\left[\widehat{\beta}_{1}\right]=\sigma^{2} \boldsymbol{Q}_{11 \cdot 2}^{-1}$ 和 $\operatorname{avar}\left[\widetilde{\beta}_{1}\right]=\sigma^{2} \boldsymbol{Q}_{11}^{-1}$。如果 $\boldsymbol{Q}_{12}=0$ （因此 $X_{1}$ 和 $X_{2}$ 不相关），则这两个方差矩阵相等，并且两个估计量具有相等的渐近效率。否则，从 $\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21} \geq 0$ 开始，然后是 $\boldsymbol{Q}_{11} \geq \boldsymbol{Q}_{11}-\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}$ ，因此

\[ \boldsymbol{Q}_{11}^{-1} \sigma^{2} \leq\left(\boldsymbol{Q}_{11}-\boldsymbol{Q}_{12} \boldsymbol{Q}_{22}^{-1} \boldsymbol{Q}_{21}\right)^{-1} \sigma^{2} . \]

这意味着在条件同方差下，$\widetilde{\beta}_{1}$ 的渐近协方差矩阵比 $\widehat{\beta}_{1}$ 低。因此，在这种情况下，受约束的最小二乘法比无约束的最小二乘法更有效。这与我们的直觉一致，即施加正确的限制（排除不相关的回归量）可以提高估计效率。

然而，在条件异方差的一般情况下，无法保证该排名。事实上，真正令人惊奇的是方差排名是可以颠倒的。 CLS 估计器可以具有比无约束最小二乘估计器更大的渐近方差。

为了了解这一点，让我们使用第 7.4 节中的简单异方差示例。在该示例中，$Q_{11}=$、$Q_{22}=1, Q_{12}=\frac{1}{2}, \Omega_{11}=\Omega_{22}=1$ 和 $\Omega_{12}=\frac{7}{8}$。我们可以计算（参见练习 8.17）$Q_{11 \cdot 2}=\frac{3}{4}$ 和

\[ \begin{aligned} \operatorname{avar}\left[\widehat{\beta}_{1}\right] &=\frac{2}{3} \\ \operatorname{avar}\left[\widetilde{\beta}_{1}\right] &=1 \\ \operatorname{avar}\left[\bar{\beta}_{1}\right] &=\frac{5}{8} . \end{aligned} \]

因此，CLS 估计器 $\widetilde{\beta}_{1}$ 比无限制最小二乘估计器 $\widehat{\beta}_{1}$ 具有更大的方差！正如预期的那样，最小距离估计器具有三者中最小的方差。

我们发现，当估计方法是最小二乘时，删除不相关变量$X_{2}$实际上可以增加估计方差，或者等效地，添加不相关变量可以减少估计方差。为了重复这个意外的发现，我们已经证明，应用于短回归（8.11）的最小二乘估计 $\beta_{1}$ 的效率可能低于应用于长回归（8.10）的最小二乘，即使约束 $ matheq3$ 有效！这个结果是强烈违反直觉的。这似乎与我们追求约束估计的最初动机——提高估计效率相矛盾。

事实证明，更精确的答案是合适的。约束估计是可取的，但不一定是 CLS。虽然最小二乘对于无约束投影模型的估计是渐近有效的，但它不是受约束投影模型的有效估计器。

8.10 方差和标准误差估计

我们已经讨论了 CLS 的协方差矩阵估计，但尚未讨论 EMD 估计器。

渐近协方差矩阵 (8.26) 可以通过用一致估计器替换 $\boldsymbol{V}_{\beta}$ 来估计。最好使用 $\widetilde{\beta}_{\text {emd. }}$ 构建方差估计。 EMD 残差为 $\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}_{\text {emd }}$。使用这些我们可以估计矩阵 $\Omega=\mathbb{E}\left[X X^{\prime} e^{2}\right]$

\[ \widetilde{\Omega}=\frac{1}{n-k+q} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widetilde{e}_{i}^{2} \text {. } \]

根据 CLS 公式，我们建议调整自由度。给定 $\widetilde{\Omega}$，$\boldsymbol{V}_{\beta}$ 的矩估计器是 $\widetilde{\boldsymbol{V}}_{\beta}=\widehat{\boldsymbol{Q}}_{X X}^{-1} \widetilde{\Omega} \widehat{\boldsymbol{Q}}_{X X}^{-1}$。鉴于此，我们构造方差估计器

\[ \widetilde{\boldsymbol{V}}_{\beta, \mathrm{emd}}=\widetilde{\boldsymbol{V}}_{\beta}-\widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} . \]

$h^{\prime} \widetilde{\beta}$ 的标准错误是

\[ s\left(h^{\prime} \widetilde{\beta}\right)=\left(n^{-1} h^{\prime} \widetilde{\boldsymbol{V}}_{\beta, \text { emd }} h\right)^{1 / 2} . \]

8.11 豪斯曼平等

表格（8.25）我们有

\[ \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{\mathrm{ols}}-\widetilde{\beta}_{\mathrm{emd}}\right) &=\widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\right)^{-1} \sqrt{n}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right) \\ & \underset{d}{\mathrm{~N}}\left(0, \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta}\right) \end{aligned} \]

由此可见，估计量的渐近方差满足以下关系

\[ \operatorname{avar}\left[\widehat{\beta}_{\mathrm{ols}}-\widetilde{\beta}_{\mathrm{emd}}\right]=\operatorname{avar}\left[\widehat{\beta}_{\mathrm{ols}}\right]-\operatorname{avar}\left[\widetilde{\beta}_{\mathrm{emd}}\right] . \]

我们将（8.37）称为豪斯曼方程：有效估计量与另一个估计量之间的差异的渐近方差是渐近方差的差异。

8.12 示例：曼昆、罗默和韦尔 (1992)

我们通过重复 Mankiw、Romer 和 Weil (1992) 的一篇著名论文中报告的一些估计来说明这些方法。本文利用跨国回归研究了索洛增长模型的影响。他们论文中的一个关键方程将 1960 年至 1985 年间人均 GDP $\log$ 的变化回归为 (1) 1960 年 $\log$ GDP，(2) 总投资比率对表 8.1：索低增长的估计模型

	$\widehat{\beta}_{\text {ols }}$	$\widehat{\beta}_{\text {cls }}$	$\widehat{\beta}_{\mathrm{emd}}$
$\log G D P_{1960}$	$-0.29$	$-0.30$	$-0.30$
	$(0.05)$	$(0.05)$	$(0.05)$
$\log \frac{I}{\text { GDP }}$	$0.52$	$0.50$	$0.46$
	$(0.11)$	$(0.09)$	$(0.08)$
$\log (n+g+\delta)$	$-0.51$	$-0.74$	$-0.71$
	$(0.24)$	$(0.08)$	$(0.07)$
$\log ($ School $)$	$0.23$	$0.24$	$0.25$
	$(0.07)$	$(0.07)$	$(0.06)$
Intercept	$3.02$	$2.46$	$2.48$
	$(0.74)$	$(0.44)$	$(0.44)$

标准误是异方差一致的

GDP，(3) 人口增长率 $n$、技术增长率 $g$ 和折旧率 $\delta$ 之和的对数，以及 (4) 劳动年龄百分比的对数中学（学校）人口，后者代表人力资本积累。

该数据可在教科书网页上的文件 MRW1992 中找到。

样本为 98 个非石油生产国，数据已在已发表的论文中报告。由于 $g$ 和 $\delta$ 未知，作者设置了 $g+\delta=0.05$。我们在表 8.1 的第一列中报告了最小二乘估计。由于投资和人力资本的系数为正，人口增长的系数为负，该估计与索洛理论一致。由于初始 GDP 的系数为负，这些估计值也与收敛假设（随着时间的推移，收入水平趋向于共同平均值）一致。

作者表明，在索洛模型中，$2^{n d}, 3^{r d}$ 和 $4^{t h}$ 系数之和为零。他们重新估计了施加此约束的方程。我们在表 $8.1$ 的第二列中提供约束最小二乘估计，并在第三列中提供有效的最小距离估计。通过施加约束，大多数系数和标准误差仅表现出很小的变化。一个例外是人口增长对数系数，其幅度增加，而其标准误差大幅下降。 CLS 和 EMD 估计之间的差异不大。

我们现在提供实现这些估计的 Stata、R 和 MATLAB 代码。

您可能会注意到 Stata 代码有一个部分使用 Mata 矩阵编程语言。使用这个是因为Stata没有实现高效的最小距离估计器，所以需要单独编程。如此处所示，Mata 语言允许 Stata 用户使用与 MATLAB 非常相似的命令来实现方法。

8.13 规格错误

如果约束 (8.1) 不正确，约束估计器 $\widetilde{\beta}$ 会产生什么后果？具体来说，假设事实是

\[ \boldsymbol{R}^{\prime} \beta=\boldsymbol{c}^{*} \]

其中 $\boldsymbol{c}^{*}$ 不一定等于 $\boldsymbol{c}$。

这种情况是对 $2.24$ 节中“省略变量偏差”分析的概括，我们发现短回归（例如（8.12））估计的投影系数与长回归（例如（8.10））不同。

一个答案是应用公式（8.23）发现

\[ \widetilde{\beta}_{\mathrm{md}} \underset{p}{\rightarrow} \beta_{\mathrm{md}}^{*}=\beta-\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{c}^{*}-\boldsymbol{c}\right) . \]

第二项 $\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{c}^{*}-\boldsymbol{c}\right)$ 表明施加不正确的约束会导致不一致 - 渐近偏差。我们可以将限制值 $\beta_{\mathrm{md}}^{*}$ 称为最小距离投影系数或限制所隐含的伪真值。

然而，我们还可以说更多。

例如，我们可以描述近似投影的一些特征。 CLS 估计器投影系数具有表示形式

\[ \beta_{\mathrm{cls}}^{*}=\underset{\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}}{\operatorname{argmin}} \mathbb{E}\left[\left(Y-X^{\prime} \beta\right)^{2}\right], \]

受约束（8.1）的最佳线性预测器。最小距离估计器的概率收敛为

\[ \beta_{\mathrm{md}}^{*}=\underset{\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}}{\operatorname{argmin}}\left(\beta-\beta_{0}\right)^{\prime} \boldsymbol{W}\left(\beta-\beta_{0}\right) \]

其中 $\beta_{0}$ 是真实系数。也就是说，$\beta_{\mathrm{md}}^{*}$是满足(8.1)的系数向量，最接近加权欧几里德范数中的真实值。这些计算表明，约束估计量在满足约束条件的条件下能够产生对真实系数的良好近似，从这个意义上说，它们仍然是合理的。

我们还可以证明 $\widetilde{\beta}_{\mathrm{md}}$ 具有渐近正态分布。诀窍是定义伪真值

\[ \beta_{n}^{*}=\beta-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{c}^{*}-\boldsymbol{c}\right) . \]

（注意（8.38）和（8.39）是不同的！）然后

\[ \begin{aligned} \sqrt{n}\left(\widetilde{\beta}_{\mathrm{md}}-\beta_{n}^{*}\right)=& \sqrt{n}(\widehat{\beta}-\beta)-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \sqrt{n}\left(\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}^{*}\right) \\ &=\left(\boldsymbol{I}_{k}-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \sqrt{n}(\widehat{\beta}-\beta) \\ & \underset{d}{\longrightarrow}\left(\boldsymbol{I}_{k}-\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \\ &=\mathrm{N}\left(0, \boldsymbol{V}_{\beta}(\boldsymbol{W})\right) \end{aligned} \]

尤其

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{emd}}-\beta_{n}^{*}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}^{*}\right) . \]

这意味着，即使错误指定约束 (8.1)，传统协方差矩阵估计量 (8.35) 和标准误差 (8.36) 也是采样方差的适当度量，尽管分布以伪真值（投影）$\beta_{n}^{*}$ 为中心而不是 $\beta$。估计量存在偏差这一事实是错误指定不可避免的结果。

错误指定下渐近分布理论的另一种方法使用局部替代的概念。这是一种技术设备，可能看起来有点人为，但它是一种在各种情况下导出有用的分布近似值的强大方法。这个想法是通过以下关系将真实系数 $\beta_{n}$ 索引为 $n$

\[ \boldsymbol{R}^{\prime} \beta_{n}=\boldsymbol{c}+\delta n^{-1 / 2} . \]

对于一些 $\delta \in \mathbb{R}^{q}$。方程 (8.41) 指定 $\beta_{n}$ 违反 (8.1)，因此约束被错误指定。然而，该约束“接近”纠正，因为差异 $\boldsymbol{R}^{\prime} \beta_{n}-\boldsymbol{c}=\delta n^{-1 / 2}$ 是“小”，因为它随着样本大小 $n$ 而减小。我们称（8.41）局部错误指定。

渐近理论在系数为 $\beta_{n}$ 的概率分布序列下导出为 $n \rightarrow \infty$。思考这个问题的方法是，参数的真实值是 $\beta_{n}$ 并且它“接近”满足（8.1）。偏差与 $n^{-1 / 2}$ 成正比的原因是，这是局部参数 $\delta$ 出现在渐近分布中但不占主导地位的唯一选择。看到这一点的最好方法是通过渐近逼近。

由于 $\beta_{n}$ 是真实系数值，因此 $Y=X^{\prime} \beta_{n}+e$ 和我们有无约束估计量的标准表示，即

\[ \sqrt{n}\left(\widehat{\beta}-\beta_{n}\right)=\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^{n} X_{i} e_{i}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) . \]

在固定（经典）或局部渐近下没有差异，因为右侧与系数 $\beta_{n}$ 无关。

约束估计量会出现差异。使用 (8.41)，$\boldsymbol{c}=\boldsymbol{R}^{\prime} \beta_{n}-\delta n^{-1 / 2}$ 所以

\[ \boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}=\boldsymbol{R}^{\prime}\left(\widehat{\beta}-\beta_{n}\right)+\delta n^{-1 / 2} \]

和

\[ \begin{aligned} \widetilde{\beta}_{\mathrm{md}} &=\widehat{\beta}-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}-\boldsymbol{c}\right) \\ &=\widehat{\beta}-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\widehat{\beta}-\beta_{n}\right)+\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \delta n^{-1 / 2} . \end{aligned} \]

它遵循

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{md}}-\beta_{n}\right)=\left(\boldsymbol{I}_{k}-\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \sqrt{n}\left(\widehat{\beta}-\beta_{n}\right)+\widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{W}}^{-1} \boldsymbol{R}\right)^{-1} \delta . \]

第一项是渐近正态的（来自 8.42））。第二项概率收敛到一个常数。这是因为 (8.41) 中的 $n^{-1 / 2}$ 局部缩放与估计器的 $\sqrt{n}$ 缩放完全平衡。没有其他利率会产生这样的结果。

因此我们发现渐近分布等于

\[ \sqrt{n}\left(\widetilde{\beta}_{\mathrm{md}}-\beta_{n}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)+\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \delta=\mathrm{N}\left(\delta^{*}, \boldsymbol{V}_{\beta}(\boldsymbol{W})\right) \]

其中 $\delta^{*}=\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \delta$

渐近分布 (8.43) 是错误指定下受限估计量的采样分布的近似值。分布 (8.43) 包含渐近偏差分量 $\delta^{*}$。该近似值与 (8.40) 并没有本质上的不同 - 它们都具有相同的渐近方差，并且都反映了由于错误指定而导致的偏差。不同之处在于，(8.40) 将偏差放在收敛箭头的左侧，而 (8.43) 将偏差放在右侧。两者没有本质区别。然而，（8.43）对于某些目的来说更方便，例如我们将在下一章中探讨的测试功效分析。

8.14 非线性约束

在某些情况下，需要对参数向量 $\beta$ 施加非线性约束。它们可以写成

\[ r(\beta)=0 \]

其中 $r: \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}$.这包括作为特殊情况的线性约束（8.1）。 (8.44) 不能写成 (8.1) 的一个例子是 $\beta_{1} \beta_{2}=1$，它是 (8.44) 和 $r(\beta)=\beta_{1} \beta_{2}-1$。

$\beta$ 的约束最小二乘法和最小距离估计器（8.44）解决了最小化问题

\[ \begin{gathered} \widetilde{\beta}_{\mathrm{cls}}=\underset{r(\beta)=0}{\operatorname{argmin} \operatorname{SSE}(\beta)} \\ \widetilde{\beta}_{\mathrm{md}}=\underset{r(\beta)=0}{\operatorname{argmin}} J(\beta) \end{gathered} \]

其中 $\operatorname{SSE}(\beta)$ 和 $J(\beta)$ 分别在 (8.4) 和 (8.19) 中定义。该解决方案解决了拉格朗日量

\[ \mathscr{L}(\beta, \lambda)=\frac{1}{2} \operatorname{SSE}(\beta)+\lambda^{\prime} r(\beta) \]

或者

\[ \mathscr{L}(\beta, \lambda)=\frac{1}{2} J(\beta)+\lambda^{\prime} r(\beta) \]

$\operatorname{over}(\beta, \lambda)$

在计算上没有通用的封闭式解，因此必须通过数值方式找到它们。数值求解 (8.45) 和 (8.46) 的算法称为约束优化方法，可用于包括 MATLAB 和 R 在内的编程语言。请参阅《经济学家的概率与统计》第 12 章。

假设8.3

1.$r(\beta)=0$。

$r(\beta)$ 在真实的 $\beta$ 处连续可微。
$\operatorname{rank}(\boldsymbol{R})=q$，其中$\boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)^{\prime}$。

渐近分布是线性约束情况的简单推广，但证明更为微妙。定理 8.10 在假设 7.2、8.2 和 8.3 下，对于 (8.45) 和 (8.46) 中定义的 $\widetilde{\beta}=\widetilde{\beta}_{\mathrm{md}}$ 和 $\widetilde{\beta}=\widetilde{\beta}_{\text {cls }}$，

\[ \sqrt{n}(\widetilde{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}(\boldsymbol{W})\right) \]

为 $n \rightarrow \infty$，其中 $\boldsymbol{V}_{\beta}(\boldsymbol{W})$ 在 (8.24) 中定义。对于定理 8.8 中定义的 $\widetilde{\beta}_{\text {cls }}, \boldsymbol{W}=\boldsymbol{Q}_{X X}$ 和 $\boldsymbol{V}_{\beta}(\boldsymbol{W})=$ $\boldsymbol{V}_{\text {cls }}$。 $\boldsymbol{V}_{\beta}(\boldsymbol{W})$ 通过 $\boldsymbol{W}=\boldsymbol{V}_{\beta}^{-1}$ 最小化，在这种情况下，渐近方差为

\[ \boldsymbol{V}_{\beta}^{*}=\boldsymbol{V}_{\beta}-\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} . \]

有效最小距离估计器的渐近协方差矩阵可以通过以下方式估计

\[ \widehat{\boldsymbol{V}}_{\beta}^{*}=\widehat{\boldsymbol{V}}_{\beta}-\widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}}\left(\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}}^{-1} \widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta}\right. \]

在哪里

\[ \widehat{\boldsymbol{R}}=\frac{\partial}{\partial \beta} r\left(\widetilde{\beta}_{\mathrm{md}}\right)^{\prime} . \]

$\widetilde{\beta}_{\mathrm{md}}$ 元素的标准误差是 $\widehat{\boldsymbol{V}}_{\widetilde{\beta}}^{*}=n^{-1} \widehat{\boldsymbol{V}}_{\beta}^{*}$ 对角线元素的平方根。

8.15 不平等限制

参数向量 $\beta$ 的不等式约束采用以下形式

\[ r(\beta) \geq 0 \]

对于某些函数 $r: \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}$。最常见的示例是非负约束 $\beta_{1} \geq 0$。

约束最小二乘和最小距离估计量可以写为

\[ \widetilde{\beta}_{\mathrm{cls}}=\underset{r(\beta) \geq 0}{\operatorname{argmin}} \operatorname{SSE}(\beta) \]

和

\[ \widetilde{\beta}_{\mathrm{md}}=\underset{r(\beta) \geq 0}{\operatorname{argmin}} J(\beta) . \]

除特殊情况外，约束估计器没有简单的代数解。一个重要的例外是当存在单个非负约束时，例如$\beta_{1} \geq 0$ 和 $q=1$。在这种情况下，可以通过以下方法找到约束估计量。计算无约束估计量 $\widehat{\beta}$。如果 $\widehat{\beta}_{1} \geq 0$ 则 $\widetilde{\beta}=\widehat{\beta}$。否则，如果 $\widehat{\beta}_{1}<0$ 则施加 $\beta_{1}=0$ （消除回归量 $X_{1}$ ）并重新估计。该方法产生约束最小二乘估计量。虽然此方法在存在单个非负约束时有效，但它不会立即推广到其他上下文。

计算问题 (8.50) 和 (8.51) 是二次规划的示例。快速计算机算法可用于编程语言，包括 MATLAB 和 R。

不幸的是，对不平等约束估计量的推断非常具有挑战性。传统的渐近理论产生了以下二分法。如果真实参数满足严格不等式 $r(\beta)>0$，则估计量渐近地不受约束，并且不等式约束估计量具有等于无约束情况的渐近分布。然而，如果真实参数位于边界上，例如 $r(\beta)=0$，则估计器具有截断的结构。这在一维情况下最容易看到。如果我们有一个满足 $\sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\rightarrow} Z=$、$\mathrm{N}\left(0, V_{\beta}\right)$ 和 $\beta=0$ 的估计量 $\widehat{\beta}$，则约束估计量 $\widetilde{\beta}=\max [\widehat{\beta}, 0]$ 将具有渐近分布 $\sqrt{n} \widetilde{\beta} \underset{d}{\longrightarrow} \max [Z, 0]$，即“半正态”分布。

8.16 技术证明*

定理 8.9 的证明，方程 (8.28) 令 $\boldsymbol{R}_{\perp}$ 为满足 $\boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}=0$ 的满秩 $k \times(k-q)$ 矩阵，然后设置满秩且可逆的 $\boldsymbol{C}=\left[\boldsymbol{R}, \boldsymbol{R}_{\perp}\right]$。那么我们可以计算出

\[ \boldsymbol{C}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{C}=\left[\begin{array}{cc} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{R} & \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{R}_{\perp} \\ \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{R} & \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{R}_{\perp} \end{array}\right]=\left[\begin{array}{cc} 0 & 0 \\ 0 & \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}_{\perp} \end{array}\right] \]

和

\[ \begin{aligned} &\boldsymbol{C}^{\prime} \boldsymbol{V}_{\beta}(\boldsymbol{W}) \boldsymbol{C} \\ &=\left[\begin{array}{cc} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta}^{*}(\boldsymbol{W}) \boldsymbol{R} & \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta}^{*}(\boldsymbol{W}) \boldsymbol{R}_{\perp} \\ \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta}^{*}(\boldsymbol{W}) \boldsymbol{R} & \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta}^{*}(\boldsymbol{W}) \boldsymbol{R}_{\perp} \end{array}\right] \\ &=\left[\begin{array}{cc} 0 & 0 \\ 0 & \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}_{\perp}+\boldsymbol{R}_{\perp}^{\prime} \boldsymbol{W} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}_{\perp} \end{array}\right] . \end{aligned} \]

因此

\[ \begin{aligned} &\boldsymbol{C}^{\prime}\left(\boldsymbol{V}_{\beta}(\boldsymbol{W})-\boldsymbol{V}_{\beta}^{*}\right) \boldsymbol{C} \\ &=\boldsymbol{C}^{\prime} \boldsymbol{V}_{\beta}(\boldsymbol{W}) \boldsymbol{C}-\boldsymbol{C}^{\prime} \boldsymbol{V}_{\beta}^{*} \boldsymbol{C} \\ &=\left[\begin{array}{cc} 0 & 0 \\ 0 & \boldsymbol{R}_{\perp}^{\prime} \boldsymbol{W} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}\right)^{-\mathbf{1}} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}\right)^{-\mathbf{1}} \boldsymbol{R}^{\prime} \boldsymbol{W} \boldsymbol{R}_{\perp} \end{array}\right] \\ &\geq 0 \end{aligned} \]

由于 $\boldsymbol{C}$ 是可逆的，因此 $\boldsymbol{V}_{\beta}(\boldsymbol{W})-\boldsymbol{V}_{\beta}^{*} \geq 0$ 是 (8.28)。

定理 8.10 的证明我们展示了最小距离估计器 $\widetilde{\beta}=\widetilde{\beta}_{\mathrm{md}}$ 的结果，因为约束最小二乘估计器的证明是类似的。为简单起见，我们假设约束估计量与 $\widetilde{\beta} \underset{p}{\vec{p}} \beta$ 一致。这可以通过更多的努力来展示，但需要比这本教科书更深入的处理。

对于 $q$ 向量 $r(\beta)$ 的每个元素 $r_{j}(\beta)$，根据均值定理，在连接 $\widetilde{\beta}$ 和 $\beta$ 的线段上存在 $\beta_{j}^{*}$，使得

\[ r_{j}(\widetilde{\beta})=r_{j}(\beta)+\frac{\partial}{\partial \beta} r_{j}\left(\beta_{j}^{*}\right)^{\prime}(\widetilde{\beta}-\beta) . \]

令 $\boldsymbol{R}_{n}^{*}$ 为 $k \times q$ 矩阵

\[ \boldsymbol{R}^{*}=\left[\begin{array}{llll} \frac{\partial}{\partial \beta} r_{1}\left(\beta_{1}^{*}\right) & \frac{\partial}{\partial \beta} r_{2}\left(\beta_{2}^{*}\right) & \cdots & \frac{\partial}{\partial \beta} r_{q}\left(\beta_{q}^{*}\right) \end{array}\right] \]

从 $\widetilde{\beta} \underset{p}{\vec{p}} \beta$ 开始，它遵循 $\beta_{j}^{*} \vec{p} \beta$，并且根据 CMT，$\boldsymbol{R}^{*} \underset{p}{\rightarrow} \boldsymbol{R}$。将 (8.52) 叠加，我们得到

\[ r(\widetilde{\beta})=r(\beta)+\boldsymbol{R}^{* \prime}(\widetilde{\beta}-\beta) . \]

由于 $r(\widetilde{\beta})=0$ 通过构造，$r(\beta)=0$ 通过假设 $8.1$，这意味着

\[ 0=\boldsymbol{R}^{* \prime}(\widetilde{\beta}-\beta) . \]

(8.47) 的一阶条件是 $\widehat{\boldsymbol{W}}(\widehat{\beta}-\widetilde{\beta})=\widehat{\boldsymbol{R}} \widetilde{\lambda}$，其中 $\widehat{\boldsymbol{R}}$ 在 (8.48) 中定义。预乘 $\boldsymbol{R}^{* \prime} \widehat{\boldsymbol{W}}^{-1}$、反转并使用 (8.53)，我们发现

\[ \tilde{\lambda}=\left(\boldsymbol{R}^{* \prime} \widehat{\boldsymbol{W}}^{-1} \widehat{\boldsymbol{R}}\right)^{-1} \boldsymbol{R}^{* \prime}(\widehat{\beta}-\widetilde{\beta})=\left(\boldsymbol{R}^{* \prime} \widehat{\boldsymbol{W}}^{-1} \widehat{\boldsymbol{R}}\right)^{-1} \boldsymbol{R}^{* \prime}(\widehat{\beta}-\beta) . \]

因此

\[ \widetilde{\beta}-\beta=\left(\boldsymbol{I}_{k}-\widehat{\boldsymbol{W}}^{-1} \widehat{\boldsymbol{R}}\left(\boldsymbol{R}_{n}^{* \prime} \widehat{\boldsymbol{W}}^{-1} \widehat{\boldsymbol{R}}\right)^{-1} \boldsymbol{R}_{n}^{* \prime}\right)(\widehat{\beta}-\beta) . \]

从定理 $7.3$ 和定理 $7.6$ 我们发现

\[ \begin{aligned} \sqrt{n}(\widetilde{\beta}-\beta) &=\left(\boldsymbol{I}_{k}-\widehat{\boldsymbol{W}}^{-1} \widehat{\boldsymbol{R}}\left(\boldsymbol{R}_{n}^{* \prime} \widehat{\boldsymbol{W}}^{-1} \widetilde{\boldsymbol{R}}\right)^{-1} \boldsymbol{R}_{n}^{* \prime}\right) \sqrt{n}(\widehat{\beta}-\beta) \\ & \underset{d}{\longrightarrow}\left(\boldsymbol{I}_{k}-\boldsymbol{W}^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{W}^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \\ &=\mathrm{N}\left(0, \boldsymbol{V}_{\beta}(\boldsymbol{W})\right) \end{aligned} \]

8.17 练习

练习8.1 在模型$Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e$中，直接从定义(8.3)表明$\beta=\left(\beta_{1}, \beta_{2}\right)$的CLS估计量受到$\beta_{2}=0$是$Y$在$X_{1}$上的OLS回归的约束。

练习 8.2 在模型 $Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e$ 中，直接从定义 (8.3) 证明，受约束 $\beta_{1}=\boldsymbol{c}$（其中 $\boldsymbol{c}$ 是某个给定向量）约束的 $\beta=\left(\beta_{1}, \beta_{2}\right)$ 的 CLS 估计量是 $Y-X_{1}^{\prime} \boldsymbol{c}$ 在 $X_{2}$。

练习 8.3 在模型 $Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e$ 中，$\beta_{1}$ 和 $\beta_{2}$ 各为 $k \times 1$，找到 $\beta=\left(\beta_{1}, \beta_{2}\right)$ 受 $\beta_{1}=-\beta_{2}$ 约束的 CLS 估计量。

练习8.4 在线性投影模型$Y=\alpha+X^{\prime} \beta+e$中考虑限制$\beta=0$。

在 $\beta=0$ 限制下求 $\alpha$ 的 CLS 估计量。
在 $\beta=0$ 限制下找到 $\alpha$ 的有效最小距离估计器的表达式。

练习8.5 验证(8.8)中定义的$\widetilde{\beta}_{\mathrm{cls}}$和$\boldsymbol{R}^{\prime} \widetilde{\beta}_{\mathrm{cls}}=\boldsymbol{c}$。

练习 8.6 证明定理 8.1。

练习8.7 在线性回归回归模型和(8.1)的假设下证明定理8.2，即$\mathbb{E}\left[\widetilde{\beta}_{\text {cls }} \mid \boldsymbol{X}\right]=\beta$。（提示：使用定理 8.1。）练习 8.8 证明定理 8.3。

练习 8.9 证明定理 8.4。即，在同方差回归模型和（8.1）的假设下显示$\mathbb{E}\left[s_{\mathrm{cls}}^{2} \mid \boldsymbol{X}\right]=\sigma^{2}$。

练习 8.10 验证 (8.22)、(8.23) 以及 $\widetilde{\beta}_{\mathrm{md}}$ 和 $\widehat{\boldsymbol{W}}=\widehat{\boldsymbol{Q}}_{X X}$ 的最小距离估计量等于 CLS 估计量。

练习 8.11 证明定理 8.6。

练习 8.12 证明定理 8.7。

练习 8.13 证明定理 8.8。（提示：使用 CLS 是定理 8.7 的特例。）

练习8.14 验证(8.26) 是$\boldsymbol{V}_{\beta}(\boldsymbol{W})$ 和$\boldsymbol{W}=\boldsymbol{V}_{\beta}^{-1}$。

练习 8.15 证明 (8.27)。提示：使用（8.26）。

练习 8.16 验证 (8.29)、(8.30) 和 (8.31)。

练习 8.17 验证 (8.32)、(8.33) 和 (8.34)。

练习8.18 假设你有两个独立样本，每个样本都有$n$观测值，满足模型$Y_{1}=X_{1}^{\prime} \beta_{1}+e_{1}$和$\mathbb{E}\left[X_{1} e_{1}\right]=0$以及$Y_{2}=X_{2}^{\prime} \beta_{2}+e_{2}$和$\mathbb{E}\left[X_{2} e_{2}\right]=0$，其中$\beta_{1}$和$\beta_{2}$都是$k \times 1$。您通过 OLS 对每个样本估计 $\beta_{1}$ 和 $n$，并使用一致的渐近协方差矩阵估计器 $n$ 和 $n$。考虑在 $n$ 限制下的有效最小距离估计。

求 $\beta=\beta_{1}=\beta_{2}$ 的估计器 $\widetilde{\beta}$。
求 $\widetilde{\beta}$ 的渐近分布。
如果样本大小不同（例如 $n_{1}$ 和 $n_{2}$），您将如何解决该问题？

练习 8.19 使用 cps09mar 数据集和西班牙裔白人男性的子样本。

估计回归

\[ \begin{aligned} & \widehat{\log (\text { wage })}=\beta_{1} \text { education }+\beta_{2} \text { experience }+\beta_{3} \text { experience }^{2} / 100+\beta_{4} \text { married }_{1} \\ & +\beta_{5} \text { married }_{2}+\beta_{6} \text { married }_{3}+\beta_{7} \text { widowed }+\beta_{8} \text { divorced }+\beta_{9} \text { separated }+\beta_{10} \end{aligned} \]

其中已婚 $_{1}$、已婚 $_{2}$ 和已婚 $_{3}$ 是第 3.22 节中列出的前三个婚姻代码。

通过 CLS 施加约束 $\beta_{4}=\beta_{7}$ 和 $\beta_{8}=\beta_{9}$ 来估计方程。报告估计值和标准误差。
使用施加相同约束的有效最小距离来估计方程。报告估计值和标准误差。
在什么系数约束下，工资方程在经验达到 50 时不会减少经验？
估计 $\beta_{4}=\beta_{7}, \beta_{8}=\beta_{9}$ 的方程以及 (d) 部分的不等式。练习8.20 建立模型

\[ \begin{aligned} Y &=m(X)+e \\ m(x) &=\beta_{0}+\beta_{1} x+\beta_{2} x^{2}+\cdots+\beta_{p} x^{p} \\ \mathbb{E}\left[X^{j} e\right] &=0, \quad j=0, \ldots, p \\ g(x) &=\frac{d}{d x} m(x) \end{aligned} \]

与 i.i.d.观察$\left(Y_{i}, X_{i}\right), i=1, \ldots, n$。多项式 $p$ 的阶数是已知的。

给定投影假设，我们应该如何解释函数 $m(x)$？我们应该如何解释 $g(x)$ ？（简要地）
描述 $g(x)$ 的估计器 $\widehat{g}(x)$。
求 $\sqrt{n}(\widehat{g}(x)-g(x))$ 的渐近分布为 $n \rightarrow \infty$。
展示如何为 $g(x)$ 构建渐近 95% 置信区间（对于单个 $x$ ）。
假设$p=2$。描述如何在 $m(x)$ 是凹的约束下估计 $g(x)$。
假设 $p=2$。描述如何在区域 $u \in\left[x_{L}, x_{U}\right]$ 上施加 $m(u)$ 增加的约束来估计 $g(x)$

练习 8.21 采用带有限制 $Y=X^{\prime} \beta+e$ 、$\mathbb{E}[X e]=0$ 和 $\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}$ 的线性模型。考虑 $\beta$ 的三个估计器：

$\widehat{\beta}$ 无约束最小二乘估计器
$\widetilde{\beta}$ 约束最小二乘估计器
$\bar{\beta}$ 约束有效最小距离估计器

对于三个估计量，定义残差 $\widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}, \widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}, \bar{e}_{i}=Y_{i}-X_{i}^{\prime} \bar{\beta}$、方差估计量 $\widehat{\sigma}^{2}=n^{-1} \sum_{i=1}^{n} \widehat{e}_{i}^{2}, \widetilde{\sigma}^{2}=n^{-1} \sum_{i=1}^{n} \widetilde{e}_{i}^{2}$ 和 $\bar{\sigma}^{2}=n^{-1} \sum_{i=1}^{n} \bar{e}_{i}^{2}$。

由于 $\bar{\beta}$ 是最有效的估计器，而 $\widehat{\beta}$ 是最有效的估计器，因此您期望在大样本中使用 $\bar{\sigma}^{2}<\widetilde{\sigma}^{2}<\widehat{\sigma}^{2}$ 吗？
考虑统计数据

\[ T_{n}=\widehat{\sigma}^{-2} \sum_{i=1}^{n}\left(\widehat{e}_{i}-\widetilde{e}_{i}\right)^{2} . \]

求当 $\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}$ 为真时 $T_{n}$ 的渐近分布。

当误差 $e_{i}$ 同方差时，上一个问题的结果是否简化？

练习 8.22 采用 $Y=X_{1} \beta_{1}+X_{2} \beta_{2}+e$ 和 $\mathbb{E}[X e]=0$ 的线性模型。考虑限制 $\frac{\beta_{1}}{\beta_{2}}=2$。

在限制条件下找到 $\beta=\left(\beta_{1}, \beta_{2}\right)$ 的 CLS 估计器 $\widetilde{\beta}=\left(\widetilde{\beta}_{1}, \widetilde{\beta}_{2}\right)$ 的显式表达式。您的答案应该针对该限制。它不应该是抽象一般限制的通用公式。
在限制成立的假设下推导 $\widetilde{\beta}_{1}$ 的渐近分布。

	\(\widehat{\beta}_{\text {ols }}\)	\(\widehat{\beta}_{\text {cls }}\)	\(\widehat{\beta}_{\mathrm{emd}}\)
\(\log G D P_{1960}\)	\(-0.29\)	\(-0.30\)	\(-0.30\)
	\((0.05)\)	\((0.05)\)	\((0.05)\)
\(\log \frac{I}{\text { GDP }}\)	\(0.52\)	\(0.50\)	\(0.46\)
	\((0.11)\)	\((0.09)\)	\((0.08)\)
\(\log (n+g+\delta)\)	\(-0.51\)	\(-0.74\)	\(-0.71\)
	\((0.24)\)	\((0.08)\)	\((0.07)\)
\(\log (\) School \()\)	\(0.23\)	\(0.24\)	\(0.25\)
	\((0.07)\)	\((0.07)\)	\((0.06)\)
Intercept	\(3.02\)	\(2.46\)	\(2.48\)
	\((0.74)\)	\((0.44)\)	\((0.44)\)