第11章: 多元回归

11 多元回归

11.1 介绍

多元回归是一个回归方程组。多元回归用作工具变量估计（第 12 章）、向量自回归（第 15 章）、需求系统（多种商品的需求）和其他背景的简化形式模型。

多元回归也称为回归方程系统。密切相关的是第 11.7 节中介绍的看似无关回归 (SUR) 方法。

大多数单方程回归工具都可以推广到多元回归。主要区别是处理矩阵估计器的一组新符号。

11.2 回归系统

单变量线性回归方程等于 \(Y=X^{\prime} \beta+e\)，其中 \(Y\) 是标量，\(X\) 是向量。多元回归是一个 \(m\) 线性回归系统，并且等于

\[ Y_{j}=X_{j}^{\prime} \beta_{j}+e_{j} \]

为 \(j=1, \ldots, m\)。这里我们使用下标 \(j\) 来表示 \(j^{t h}\) 因变量，而不是 \(i^{t h}\) 个体。例如，\(Y_{j}\) 可以是家庭在良好类别 \(j\) 上的支出（例如食物、住房、交通、衣服、娱乐）。回归向量 \(X_{j}\) 是 \(k_{j} \times 1\)，\(e_{j}\) 是一个错误。系数向量 \(j=1, \ldots, m\) 是 \(j=1, \ldots, m\)。系数总数为 \(j=1, \ldots, m\)。回归量可以在 \(j=1, \ldots, m\) 中通用，也可以在 \(j=1, \ldots, m\) 中有所不同。在家庭支出示例中，回归变量 \(j=1, \ldots, m\) 通常在 \(j=1, \ldots, m\) 中很常见，并且包括家庭收入、家庭成员的数量和年龄以及人口特征等变量。当 \(j=1, \ldots, m\) 时，回归系统专门用于单变量回归。

定义 \(m \times 1\) 误差向量 \(e=\left(e_{1}, \ldots, e_{m}\right)^{\prime}\) 及其 \(m \times m\) 协方差矩阵 \(\Sigma=\mathbb{E}\left[e e^{\prime}\right]\)。对角线元素是误差 \(e_{j}\) 的方差，非对角线是变量之间的协方差。

我们可以将 \(m\) 方程 (11.1) 分组为一个方程，如下所示。令 \(Y=\left(Y_{1}, \ldots, Y_{m}\right)^{\prime}\) 为因变量的 \(m \times 1\) 向量。定义回归量的 \(m \times \bar{k}\) 矩阵

\[ \bar{X}=\left(\begin{array}{cccc} X_{1}^{\prime} & 0 & \cdots & 0 \\ \vdots & X_{2}^{\prime} & & \vdots \\ 0 & 0 & \cdots & X_{m}^{\prime} \end{array}\right) \]

和 \(\bar{k} \times 1\) 堆叠系数向量

\[ \beta=\left(\begin{array}{c} \beta_{1} \\ \vdots \\ \beta_{m} \end{array}\right) \]

\(m\) 回归方程可以联合写为

\[ Y=\bar{X} \beta+e . \]

这是一个 \(m\) 方程组。

对于 \(n\) 观测值，联合系统可以通过堆叠以矩阵表示法编写。定义

\[ \boldsymbol{Y}=\left(\begin{array}{c} Y_{1} \\ \vdots \\ Y_{n} \end{array}\right), \quad \boldsymbol{e}=\left(\begin{array}{c} e_{1} \\ \vdots \\ e_{n} \end{array}\right), \quad \overline{\boldsymbol{X}}=\left(\begin{array}{c} \bar{X}_{1} \\ \vdots \\ \bar{X}_{n} \end{array}\right) \]

分别是 \(m n \times 1, m n \times 1\) 和 \(m n \times \bar{k}\)。该系统可以写成\(\boldsymbol{Y}=\overline{\boldsymbol{X}} \beta+\boldsymbol{e}\)。

在许多应用中，回归向量 \(X_{j}\) 在变量 \(j\) 中是通用的，因此 \(X_{j}=X\) 和 \(k_{j}=k\)。我们的意思是相同的变量进入每个方程，没有排除限制。在这种情况下出现了一些重要的简化。一是我们可以使用符号来写（11.2）

\[ Y=\boldsymbol{B}^{\prime} X+e \]

其中 \(\boldsymbol{B}=\left(\beta_{1}, \beta_{2}, \cdots, \beta_{m}\right)\) 是 \(k \times m\)。另一个是我们可以用 \(n \times m\) 矩阵符号 \(\boldsymbol{Y}=\boldsymbol{X} \boldsymbol{B}+\boldsymbol{E}\) 编写联合观测系统，其中

\[ \boldsymbol{Y}=\left(\begin{array}{c} Y_{1}^{\prime} \\ \vdots \\ Y_{n}^{\prime} \end{array}\right), \quad \boldsymbol{E}=\left(\begin{array}{c} e_{1}^{\prime} \\ \vdots \\ e_{n}^{\prime} \end{array}\right), \quad \boldsymbol{X}=\left(\begin{array}{c} X_{1}^{\prime} \\ \vdots \\ X_{n}^{\prime} \end{array}\right) \]

常见回归量的另一个方便的含义是我们可以简化

\[ \bar{X}=\left(\begin{array}{cccc} X^{\prime} & 0 & \cdots & 0 \\ 0 & X^{\prime} & & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & X^{\prime} \end{array}\right)=\boldsymbol{I}_{m} \otimes X^{\prime} \]

其中 \(\otimes\) 是克罗内克积（参见附录 A.21）。

11.3 最小二乘估计器

方程(11.1)可以通过最小二乘法来估计。这采用以下形式

\[ \widehat{\beta}_{j}=\left(\sum_{i=1}^{n} X_{j i} X_{j i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{j i} Y_{j i}\right) . \]

\(\beta\) 的估计量是堆叠向量

\[ \widehat{\beta}=\left(\begin{array}{c} \widehat{\beta}_{1} \\ \vdots \\ \widehat{\beta}_{m} \end{array}\right) . \]

我们也可以使用系统符号来编写这个估计器

\[ \widehat{\beta}=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime} \boldsymbol{Y}\right)=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} Y_{i}\right) \]

要看到这一点，请观察

\[ \begin{aligned} \overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}} &=\left(\begin{array}{ccc} \bar{X}_{1}^{\prime} & \cdots & \bar{X}_{n}^{\prime} \end{array}\right)\left(\begin{array}{c} \bar{X}_{1} \\ \vdots \\ \bar{X}_{n} \end{array}\right) \\ &=\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i} \\ &=\sum_{i=1}^{n}\left(\begin{array}{cccc} X_{1 i} & 0 & \cdots & 0 \\ \vdots & X_{2 i} & & \vdots \\ 0 & 0 & \cdots & X_{m i} \end{array}\right)\left(\begin{array}{ccccc} X_{1 i}^{\prime} & 0 & \cdots & 0 \\ \vdots & X_{2 i}^{\prime} & & \vdots \\ 0 & 0 & \cdots & X_{m i}^{\prime} \end{array}\right) \\ &=\left(\begin{array}{cccccc} \sum_{i=1}^{n} X_{1 i} X_{1 i}^{\prime} & & 0 \\ \vdots & & \sum_{i=1}^{n} X_{2 i} X_{2 i}^{\prime} & & & \\ 0 & & 0 & \cdots & \sum_{i=1}^{n} X_{m i} X_{m i}^{\prime} \end{array}\right) \end{aligned} \]

和

\[ \begin{aligned} \overline{\boldsymbol{X}}^{\prime} \boldsymbol{Y} &=\left(\begin{array}{ccc} \bar{X}_{1}^{\prime} & \cdots & \bar{X}_{n}^{\prime} \end{array}\right)\left(\begin{array}{c} Y_{1} \\ \vdots \\ Y_{n} \end{array}\right) \\ &=\sum_{i=1}^{n} \bar{X}_{i}^{\prime} Y_{i} \\ &=\sum_{i=1}^{n}\left(\begin{array}{cccc} X_{1 i} & 0 & \cdots & 0 \\ \vdots & X_{2 i} & & \vdots \\ 0 & 0 & \cdots & X_{m i} \end{array}\right)\left(\begin{array}{c} Y_{1 i} \\ \vdots \\ Y_{m i} \end{array}\right) \\ &=\left(\begin{array}{c} \sum_{i=1}^{n} X_{1 i} Y_{1 i} \\ \vdots \\ \sum_{i=1}^{n} X_{m i} Y_{m i} \end{array}\right) . \end{aligned} \]

因此

\[ \begin{aligned} \left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime} \boldsymbol{Y}\right) &=\left(\sum_{i=1}^{n} \bar{X}_{i} \bar{X}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i} Y_{i}\right) \\ &=\left(\begin{array}{c} \left(\sum_{i=1}^{n} X_{1 i} X_{1 i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{1 i} Y_{1 i}\right) \\ \vdots \\ \left(\sum_{i=1}^{n} X_{m i} X_{m i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{m i} Y_{m i}\right) \end{array}\right) \\ &=\widehat{\beta} \end{aligned} \]

正如所声称的那样。 \(i^{t h}\) 观测值的 \(m \times 1\) 残差向量是 \(\widehat{e}_{i}=Y_{i}-\overline{\boldsymbol{X}}_{i}^{\prime} \widehat{\beta}\)。 \(m \times m\) 误差协方差矩阵的最小二乘估计量为

\[ \widehat{\Sigma}=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i} \widehat{e}_{i}^{\prime} . \]

对于常见回归量，最小二乘系数可以写为

\[ \widehat{\beta}_{j}=\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} Y_{j i}\right) \]

和

\[ \widehat{\boldsymbol{B}}=\left(\widehat{\beta}_{1}, \widehat{\beta}_{2}, \cdots, \widehat{\beta}_{m}\right)=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right) . \]

在Stata中，可以使用mvreg命令实现多元回归。

11.4 系统最小二乘法的期望和方差

我们可以在条件期望假设下计算\(\widehat{\beta}\)的有限样本期望和方差

\[ \mathbb{E}[e \mid X]=0 \]

其中 \(X\) 是回归量 \(X_{j}\) 的并集。方程（11.7）相当于\(\mathbb{E}\left\lfloor Y_{j} \mid X\right\rfloor=X_{j}^{\prime} \beta_{j}\)，这意味着回归模型被正确指定。

我们可以将估计量集中为

\[ \widehat{\beta}-\beta=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime} \boldsymbol{e}\right)=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} e_{i}\right) \]

考虑条件期望，我们发现\(\mathbb{E}[\widehat{\beta} \mid \boldsymbol{X}]=\beta\)。因此，系统最小二乘法在正确的规范下是无偏的。

要计算估计量的方差，请定义 \(i^{t h}\) 观测值 \(\mathbb{E}\left[e_{i} e_{i}^{\prime} \mid X_{i}\right]=\Sigma_{i}\) 的误差的条件协方差矩阵，它通常是 \(X_{i}\) 的函数。如果观察结果相互独立，那么

\[ \mathbb{E}\left[\boldsymbol{e} \boldsymbol{e}^{\prime} \mid \boldsymbol{X}\right]=\mathbb{E}\left[\left(\begin{array}{cccc} e_{1} e_{1}^{\prime} & e_{1} e_{2}^{\prime} & \cdots & e_{1} e_{n}^{\prime} \\ \vdots & \ddots & & \vdots \\ e_{n} e_{1}^{\prime} & e_{n} e_{2}^{\prime} & \cdots & e_{n} e_{n}^{\prime} \end{array}\right) \mid \boldsymbol{X}\right]=\left(\begin{array}{cccc} \Sigma_{1} & 0 & \cdots & 0 \\ \vdots & \ddots & & \vdots \\ 0 & 0 & \cdots & \Sigma_{n} \end{array}\right) \text {. } \]

此外，通过观察的独立性，

\[ \operatorname{var}\left[\sum_{i=1}^{n} \bar{X}_{i}^{\prime} e_{i} \mid \boldsymbol{X}\right]=\sum_{i=1}^{n} \operatorname{var}\left[\bar{X}_{i}^{\prime} e_{i} \mid X_{i}\right]=\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma_{i} \bar{X}_{i} . \]

它遵循

\[ \operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma_{i} \bar{X}_{i}\right)\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} . \]

当回归量是公共的使得 \(\bar{X}_{i}=\boldsymbol{I}_{m} \otimes X_{i}^{\prime}\) 时，协方差矩阵可以写为

\[ \operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\left(\boldsymbol{I}_{m} \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right)\left(\sum_{i=1}^{n}\left(\Sigma_{i} \otimes X_{i} X_{i}^{\prime}\right)\right)\left(\boldsymbol{I}_{m} \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) \]

如果误差是有条件同方差的

\[ \mathbb{E}\left[e e^{\prime} \mid X\right]=\Sigma \]

那么协方差矩阵简化为

\[ \operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma \bar{X}_{i}\right)\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \]

如果两种简化（常见回归量和条件同方差）都成立，那么我们就有相当大的简化

\[ \operatorname{var}[\widehat{\beta} \mid \boldsymbol{X}]=\Sigma \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} . \]

11.5 渐近分布

对于渐近分布，考虑逐个方程的投影模型就足够了，在这种情况下

\[ \mathbb{E}\left[X_{j} e_{j}\right]=0 . \]

首先，考虑一致性。由于 \(\widehat{\beta}_{j}\) 是标准最小二乘估计量，因此它们对于投影系数 \(\beta_{j}\) 是一致的。

其次，考虑渐近分布。我们的单方程理论意味着 \(\widehat{\beta}_{j}\) 是渐近正态的。但这个理论并没有提供 \(\widehat{\beta}_{j}\) 在 \(j\) 上的联合分布，我们现在推导出来。由于向量

\[ \bar{X}_{i}^{\prime} e_{i}=\left(\begin{array}{c} X_{1 i} e_{1 i} \\ \vdots \\ X_{m i} e_{m i} \end{array}\right) \]

是 i.i.d.在 \(i\) 和 (11.9) 下均值为零时，中心极限定理意味着

\[ \frac{1}{\sqrt{n}} \sum_{i=1}^{n} \bar{X}_{i}^{\prime} e_{i} \underset{d}{\longrightarrow} \mathrm{N}(0, \Omega) \]

在哪里

\[ \Omega=\mathbb{E}\left[\bar{X}_{i}^{\prime} e_{i} e_{i}^{\prime} \bar{X}_{i}\right]=\mathbb{E}\left[\bar{X}_{i}^{\prime} \Sigma_{i} \bar{X}_{i}\right] . \]

矩阵 \(\Omega\) 是方程中变量 \(X_{j i} e_{j i}\) 的协方差矩阵。在条件同方差 (11.8) 下，矩阵 \(\Omega\) 简化为

\[ \Omega=\mathbb{E}\left[\bar{X}_{i}^{\prime} \Sigma \bar{X}_{i}\right] \]

（参见练习 11.1）。当回归量很常见时，只需

\[ \Omega=\mathbb{E}\left[e e^{\prime} \otimes X X^{\prime}\right] \]

（参见练习 11.2）。在这两种条件下（同方差和常见回归量），它简化为

\[ \Omega=\Sigma \otimes \mathbb{E}\left[X X^{\prime}\right] \]

（参见练习 11.3）。

应用于中心化和标准化的估计量，我们得到渐近分布。定理 11.1 在假设 7.2 下，\(\sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中 \(\boldsymbol{V}_{\beta}=\) \(Q^{-1} \Omega Q^{-1}\) 和

\[ \boldsymbol{Q}=\mathbb{E}\left[\bar{X}^{\prime} \bar{X}\right]=\left(\begin{array}{cccc} \mathbb{E}\left[X_{1} X_{1}^{\prime}\right] & 0 & \cdots & 0 \\ \vdots & \ddots & & \vdots \\ 0 & 0 & \cdots & \mathbb{E}\left[X_{m} X_{m}^{\prime}\right] \end{array}\right) \]

证明请参见练习 11.4。

当回归量很常见时，矩阵 \(\boldsymbol{Q}\) 简化为

\[ \boldsymbol{Q}=\boldsymbol{I}_{m} \otimes \mathbb{E}\left[X X^{\prime}\right] \]

（参见练习 11.5）。

如果两个回归量都是常见的并且误差是有条件同方差的 (11.8)，那么我们可以进行简化

\[ \boldsymbol{V}_{\beta}=\Sigma \otimes\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \]

（参见练习 11.6）。

有时我们对参数 \(\theta=r\left(\beta_{1}, \ldots, \beta_{m}\right)=r(\beta)\) 感兴趣，它们是多个方程中系数的函数。在这种情况下，\(\theta\) 的最小二乘估计量是 \(\widehat{\theta}=r(\widehat{\beta})\)。 \(\widehat{\theta}\) 的渐近分布可以通过 delta 方法从定理 \(11.1\) 得到。

定理 11.2 假设 \(7.2\) 和 \(7.3, \sqrt{n}(\widehat{\theta}-\theta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\theta}\right)\) 其中 \(\boldsymbol{V}_{\theta}=\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\) 和 \(\boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)^{\prime} .\)

证明请参见练习 11.7。

定理 \(11.2\) 是多元回归与单变量回归根本不同的一个例子。只有将最小二乘视为联合估计量，我们才能获得多重方程函数的分布理论。因此，我们可以构建标准误差、置信区间和假设检验。

11.6 协方差矩阵估计

根据有限样本和渐近理论，我们可以为 \(\widehat{\beta}\) 的方差构造适当的估计量。在一般情况下我们有

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{e}_{i} \widehat{e}_{i}^{\prime} \bar{X}_{i}\right)\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} . \]

在条件同方差 (11.8) 下，适当的估计量是

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0}=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}_{i}\right)\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} . \]

当回归量很常见时，这些估计量就等于

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}=\left(\boldsymbol{I}_{m} \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right)\left(\sum_{i=1}^{n}\left(\widehat{e}_{i} \widehat{e}_{i}^{\prime} \otimes X_{i} X_{i}^{\prime}\right)\right)\left(\boldsymbol{I}_{m} \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) \]

和 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0}=\widehat{\Sigma} \otimes\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\) 分别。

\(\widehat{\theta}\) 的协方差矩阵估计量为

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\widehat{\theta}} &=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}} \widehat{\boldsymbol{R}} \\ \widehat{\boldsymbol{V}}_{\widehat{\theta}}^{0} &=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0} \widehat{\boldsymbol{R}} \\ \widehat{\boldsymbol{R}} &=\frac{\partial}{\partial \beta} r(\widehat{\beta})^{\prime} . \end{aligned} \]

定理 11.3 在假设 7.2 下，\(n \widehat{\boldsymbol{V}}_{\widehat{\beta}} \underset{p}{\rightarrow} \boldsymbol{V}_{\beta}\) 和 \(n \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{0} \vec{p}^{0} \boldsymbol{V}_{\beta}^{0}\)

证明请参见练习 11.8。

11.7 看似无关的回归

考虑条件期望和同方差假设下的系统回归模型

\[ \begin{aligned} Y &=\bar{X} \beta+e \\ \mathbb{E}[e \mid X] &=0 \\ \mathbb{E}\left[e e^{\prime} \mid X\right] &=\Sigma . \end{aligned} \]

由于误差在方程之间是相关的，我们考虑通过广义最小二乘法 (GLS) 进行估计。要导出估计量，请将 (11.15) 乘以 \(\Sigma^{-1 / 2}\)，以便变换后的误差向量为 i.i.d。协方差矩阵 \(\boldsymbol{I}_{m}\)。然后应用最小二乘法并重新排列以找到

\[ \widehat{\beta}_{\mathrm{gls}}=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma^{-1} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma^{-1} Y_{i}\right) \]

（参见练习 11.9）。另一种方法是采用向量表示

\[ \boldsymbol{Y}=\overline{\boldsymbol{X}} \beta+\boldsymbol{e} \]

并计算方程误差 \(\boldsymbol{e}\) 具有方差 \(\mathbb{E}\left[\boldsymbol{e} \boldsymbol{e}^{\prime}\right]=\boldsymbol{I}_{n} \otimes \Sigma\)。将方程预乘以 \(\boldsymbol{I}_{n} \otimes\) \(\Sigma^{-1 / 2}\)，使变换后的误差具有协方差矩阵 \(\boldsymbol{I}_{n m}\)，然后应用最小二乘法求得

\[ \widehat{\beta}_{\mathrm{gls}}=\left(\overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \Sigma^{-1}\right) \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \Sigma^{-1}\right) \boldsymbol{Y}\right) \]

（参见练习 11.10）。表达式(11.16)和(11.17)在代数上是等价的。要查看等价性，请观察

\[ \begin{aligned} \overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \Sigma^{-1}\right) \overline{\boldsymbol{X}} &=\left(\begin{array}{lll} \bar{X}_{1}^{\prime} & \cdots & \bar{X}_{n}^{\prime} \end{array}\right)\left(\begin{array}{cccc} \Sigma^{-1} & 0 & \cdots & 0 \\ \vdots & \Sigma^{-1} & & \vdots \\ 0 & 0 & \cdots & \Sigma^{-1} \end{array}\right)\left(\begin{array}{c} \bar{X}_{1} \\ \vdots \\ \bar{X}_{n} \end{array}\right) \\ &=\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma^{-1} \bar{X}_{i} \end{aligned} \]

和

\[ \begin{aligned} \overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \Sigma^{-1}\right) \boldsymbol{Y} &=\left(\begin{array}{lll} \bar{X}_{1}^{\prime} & \cdots & \bar{X}_{n}^{\prime} \end{array}\right)\left(\begin{array}{cccc} \Sigma^{-1} & 0 & \cdots & 0 \\ \vdots & \Sigma^{-1} & & \vdots \\ 0 & 0 & \cdots & 0^{-1} \end{array}\right)\left(\begin{array}{c} Y_{1} \\ \vdots \\ Y_{n} \end{array}\right) \\ &=\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \Sigma^{-1} Y_{i} . \end{aligned} \]

由于 \(\Sigma\) 未知，因此必须用估算器替换。使用 (11.5) 中的 \(\widehat{\Sigma}\)，我们获得了一个可行的 GLS 估计器。

\[ \begin{aligned} \widehat{\beta}_{\mathrm{sur}} &=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} Y_{i}\right) \\ &=\left(\overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \widehat{\Sigma}^{-1}\right) \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{I}_{n} \otimes \widehat{\Sigma}^{-1}\right) \boldsymbol{Y}\right) . \end{aligned} \]

这是 Zellner (1962) 引入的看似无关回归 (SUR) 估计器。

可以通过计算 SUR 残差 \(\widehat{e}_{i}=Y_{i}-\bar{X}_{i}^{\prime} \widehat{\beta}_{\text {sur }}\) 和协方差矩阵估计器 \(\widehat{\Sigma}=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i} \widehat{e}_{i}^{\prime}\) 来更新估计器 \(\widehat{\Sigma}\)。代入 (11.18)，我们得到迭代 SUR 估计器。这可以迭代直到收敛。

在条件同方差（11.8）下我们可以推导出它的渐近分布。

定理 11.4 假设 \(7.2\) 和 (11.8)

\[ \sqrt{n}\left(\widehat{\beta}_{\text {sur }}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{\beta}^{*}\right) \]

其中 \(\boldsymbol{V}_{\beta}^{*}=\left(\mathbb{E}\left[\bar{X}^{\prime} \Sigma^{-1} \bar{X}\right]\right)^{-1}\).

证明请参见练习 11.11。

在这些假设下，SUR 比最小二乘法更有效。

定理 11.5 假设 \(7.2\) 和 (11.8)

\[ \boldsymbol{V}_{\beta}^{*}=\left(\mathbb{E}\left[\bar{X}^{\prime} \Sigma^{-1} \bar{X}\right]\right)^{-1} \leq\left(\mathbb{E}\left[\bar{X}^{\prime} \bar{X}\right]\right)^{-1} \mathbb{E}\left[\bar{X}^{\prime} \Sigma \bar{X}\right]\left(\mathbb{E}\left[\bar{X}^{\prime} \bar{X}\right]\right)^{-1}=\boldsymbol{V}_{\beta} \]

因此 \(\widehat{\beta}_{\text {sur }}\) 渐近地比 \(\widehat{\beta}_{\text {ols. }}\) 更有效。证明请参见练习 11.12。

\(\widehat{\beta}_{\text {sur }}\) 方差的适当估计量是

\[ \widehat{\boldsymbol{V}}_{\widehat{\beta}}=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} \bar{X}_{i}\right)^{-1} \]

定理 11.6 假设 \(7.2\) 和 (11.8) \(n \widehat{\boldsymbol{V}}_{\widehat{\beta}} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)。

证明请参见练习 11.13。

在Stata中，看似无关的回归估计器是使用sureg命令实现的。

11.8 SUR 和最小二乘法的等价

当回归量在方程 \(X_{j}=X\) 中通用时，SUR 估计器会简化为最小二乘。

要看到这一点，请记住，当回归量很常见时，这意味着 \(\bar{X}=\boldsymbol{I}_{m} \otimes X^{\prime}\)。然后

\[ \begin{aligned} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} &=\left(\boldsymbol{I}_{m} \otimes X_{i}\right) \widehat{\Sigma}^{-1} \\ &=\widehat{\Sigma}^{-1} \otimes X_{i} \\ &=\left(\widehat{\Sigma}^{-1} \otimes \boldsymbol{I}_{k}\right)\left(\boldsymbol{I}_{m} \otimes X_{i}\right) \\ &=\left(\widehat{\Sigma}^{-1} \otimes \boldsymbol{I}_{k}\right) \bar{X}_{i}^{\prime} . \end{aligned} \]

因此

\[ \begin{aligned} \widehat{\beta}_{\mathrm{sur}} &=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} Y_{i}\right) \\ &=\left(\left(\widehat{\Sigma}^{-1} \otimes \boldsymbol{I}_{k}\right) \sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\left(\widehat{\Sigma}^{-1} \otimes \boldsymbol{I}_{k}\right) \sum_{i=1}^{n} \bar{X}_{i}^{\prime} Y_{i}\right) \\ &=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} Y_{i}\right)=\widehat{\beta}_{\mathrm{ols}} \end{aligned} \]

回归量在方程中不常见的模型嵌套在模型中，并且所有方程中都包含所有回归量的并集。因此，方程间回归量相同的模型是完全不受限制的模型，而方程间回归量不同的模型是受限模型。因此，上述结果表明，在没有限制的情况下，SUR 估计器可简化为最小二乘，但在其他情况下，SUR 可能与最小二乘不同。

SUR=OLS 的另一个情况是方差矩阵是对角矩阵 \(\Sigma=\operatorname{diag}\left\{\sigma_{1}^{2}, \ldots, \sigma_{m}^{2}\right\}\)。在本例中，您可以通过 \(\Sigma^{-1 / 2} \bar{X}_{i}=\bar{X}_{i} \operatorname{diag}\left\{\boldsymbol{I}_{k_{1}} \sigma_{1}^{-1 / 2}, \ldots, \boldsymbol{I}_{k_{m}} \sigma_{m}^{-1 / 2}\right\}\) 计算出 \(\widehat{\beta}_{\text {sur }}=\widehat{\beta}_{\text {ols }}\)。直觉是，当方程不相关时，系统估计没有差异，当 \(\Sigma\) 是对角线时就会出现这种情况。

11.9 最大似然估计器

假设误差独立于回归变量且呈多元正态分布，采用线性模型。因此 \(Y=\bar{X} \beta+e\) 与 \(e \sim \mathrm{N}(0, \Sigma)\)。在这种情况下，我们可以考虑系数的最大似然估计（MLE）。

根据协方差矩阵的逆 \(S=\Sigma^{-1}\) 来重新参数化协方差矩阵很方便。通过这种重新参数化，给定 \(X=x\) 的 \(Y\) 的条件密度等于

\[ f(y \mid x)=\frac{\operatorname{det}(\boldsymbol{S})^{1 / 2}}{(2 \pi)^{m / 2}} \exp \left(-\frac{1}{2}(y-x \beta)^{\prime} \boldsymbol{S}(y-x \beta)\right) . \]

样本的对数似然函数为

\[ \ell_{n}(\beta, \boldsymbol{S})=-\frac{n m}{2} \log (2 \pi)+\frac{n}{2} \log (\operatorname{det}(\boldsymbol{S}))-\frac{1}{2} \sum_{i=1}^{n}\left(Y_{i}-\bar{X}_{i} \beta\right)^{\prime} S\left(Y_{i}-\bar{X}_{i} \beta\right) . \]

最大似然估计器 \(\left(\widehat{\beta}_{\text {mle }}, \widehat{S}_{\text {mle }}\right)\) 最大化对数似然函数。一阶条件是

\[ 0=\left.\frac{\partial}{\partial \beta} \ell_{n}(\beta, \boldsymbol{S})\right|_{\beta=\widehat{\beta}, \boldsymbol{S}=\widehat{\boldsymbol{S}}}=\sum_{i=1}^{n} \bar{X}_{i} \widehat{\boldsymbol{S}}\left(Y_{i}-\bar{X}_{i} \widehat{\beta}\right) \]

和

\[ 0=\left.\frac{\partial}{\partial \boldsymbol{S}} \ell_{n}(\beta, \Sigma)\right|_{\beta=\widehat{\beta}, \boldsymbol{S}=\widehat{\boldsymbol{S}}}=\frac{n}{2} \widehat{\boldsymbol{S}}^{-1}-\frac{1}{2} \operatorname{tr}\left(\sum_{i=1}^{n}\left(Y_{i}-\bar{X}_{i} \widehat{\beta}\right)\left(Y_{i}-\bar{X}_{i} \widehat{\beta}\right)^{\prime}\right) \]

第二个方程使用附录 A.20 中的矩阵结果 \(\frac{\partial}{\partial S} \log (\operatorname{det}(\boldsymbol{S}))=\boldsymbol{S}^{-1}\) 和 \(\frac{\partial}{\partial \boldsymbol{B}} \operatorname{tr}(\boldsymbol{A B})=\boldsymbol{A}^{\prime}\)。

求解并进行替换 \(\widehat{\Sigma}=\widehat{\boldsymbol{S}}^{-1}\) 我们得到

\[ \begin{gathered} \widehat{\beta}_{\mathrm{mle}}=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{\Sigma}^{-1} Y_{i}\right) \\ \widehat{\Sigma}_{\mathrm{mle}}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\bar{X}_{i} \widehat{\beta}\right)\left(Y_{i}-\bar{X}_{i} \widehat{\beta}\right)^{\prime} . \end{gathered} \]

请注意，每个方程都引用另一个方程。因此，这些不是封闭式表达式，但可以通过迭代来解决。该解与迭代 SUR 估计器相同。因此，迭代 SUR 估计器与正态状态下的 MLE 相同。

回想一下，当回归量在方程中通用时，SUR 估计器会简化为 OLS。 MLE 也会发生同样的情况。因此，当 \(\bar{X}_{i}=\boldsymbol{I}_{m} \otimes X_{i}^{\prime}\) 时，我们发现 \(\widehat{\beta}_{\mathrm{mle}}=\widehat{\beta}_{\text {ols }}\) 和 \(\widehat{\Sigma}_{\text {mle }}=\widehat{\Sigma}_{\text {ols }}\)。

11.10 限制估计

在许多多元回归应用中，需要对系数施加限制。特别是，交叉方程限制（例如，对需求系统施加 Slutsky 对称性）可能非常重要，并且只能通过多元估计方法来施加。受到限制的估计可以通过最小距离、最大似然或广义矩法来完成。

最小距离是第 8 章方法对本章介绍的估计量的直接应用，因为此类方法适用于任何渐近正态估计量。

对最大似然施加限制也很简单。在施加限制的情况下，可能性最大化。下一节将详细探讨一个重要的示例。

受限制的多元回归矩估计的广义方法将在 13.18 节中探讨。这是估计受限多元回归模型的一种特别简单直接的方法，也是我们通常首选的方法。

11.11 降阶回归

系统估计很重要的一种情况是当需要对方程施加或测试限制时。受限系统通常通过正态性下的最大似然来估计。在本节中，我们将探讨受限多元回归的一个重要特例，即降阶回归。该模型最初由 Anderson (1951) 提出，并由 Johansen (1995) 扩展。

无限制模型是

\[ \begin{aligned} Y &=\boldsymbol{B}^{\prime} X+\boldsymbol{C}^{\prime} Z+e \\ \mathbb{E}\left[e e^{\prime} \mid X, Z\right] &=\Sigma \end{aligned} \]

其中 \(\boldsymbol{B}\) 是 \(k \times m, \boldsymbol{C}\) 是 \(\ell \times m, Y \in \mathbb{R}^{m}, X \in \mathbb{R}^{k}\)，\(Z \in \mathbb{R}^{\ell}\)。我们将回归量分为 \(X\) 和 \(Z\)，因为系数矩阵 \(\boldsymbol{B}\) 将受到限制，而 \(\boldsymbol{C}\) 将不受限制。

矩阵 \(\boldsymbol{B}\) 是满秩的，如果

\[ \operatorname{rank}(\boldsymbol{B})=\min (k, m) . \]

对于某些已知的 \(r\)，降低的等级限制是 \(\operatorname{rank}(\boldsymbol{B})=r<\min (k, m)\)。

降低的秩限制意味着我们可以将系数矩阵 \(\boldsymbol{B}\) 写成分解形式 \(\boldsymbol{B}=\boldsymbol{G} \boldsymbol{A}^{\prime}\)，其中 \(\boldsymbol{A}\) 是 \(m \times r\)，\(\boldsymbol{G}\) 是 \(k \times r\)。这种表示形式并不唯一，因为对于任何可逆的 \(\boldsymbol{B}\)，我们可以用 \(\boldsymbol{G} \boldsymbol{Q}\) 替换 \(\boldsymbol{G}\)，用 \(\boldsymbol{B}\) 替换 \(\boldsymbol{A}\)，并且相同的关系成立。因此，识别需要对系数进行归一化。对于给定的 \(\boldsymbol{B}\)，传统的归一化是 \(\boldsymbol{B}\)。

同样，可以通过要求 \(\boldsymbol{B}\) 满足某些 \(m \times(m-r)\) 系数矩阵 \(\boldsymbol{A}_{\perp}\) 的限制 \(\boldsymbol{B} \boldsymbol{A}_{\perp}=\boldsymbol{G} \boldsymbol{A}^{\prime} \boldsymbol{A}_{\perp}=0\) 来施加降低的秩限制。由于 \(\boldsymbol{G}\) 是满秩的，因此需要 \(\boldsymbol{A}^{\prime} \boldsymbol{A}_{\perp}=0\)，因此 \(\boldsymbol{A}_{\perp}\) 是 \(\boldsymbol{A}\) 的正交补集。请注意，\(\boldsymbol{A}_{\perp}\) 并不是唯一的，因为对于任何 \(\boldsymbol{B}\) 可逆的 \(\boldsymbol{B}\)，它都可以被 \(\boldsymbol{B}\) 替换。因此，如果要估计 \(\boldsymbol{B}\)，则需要标准化。

我们讨论 \(\boldsymbol{G}, \boldsymbol{A}, \Sigma, \boldsymbol{C}\) 和 \(\boldsymbol{A}_{\perp}\) 的估计方法。标准方法是假设 \(e \sim \mathrm{N}(0, \Sigma)\) 下的最大似然法。样本的对数似然函数为

\[ \begin{aligned} \ell_{n}(\boldsymbol{G}, \boldsymbol{A}, \boldsymbol{C}, \Sigma) &=-\frac{n m}{2} \log (2 \pi)-\frac{n}{2} \log (\operatorname{det}(\Sigma)) \\ &-\frac{1}{2} \sum_{i=1}^{n}\left(Y_{i}-\boldsymbol{A} \boldsymbol{G}^{\prime} X_{i}-\boldsymbol{C}^{\prime} Z_{i}\right)^{\prime} \Sigma^{-1}\left(Y_{i}-\boldsymbol{A} \boldsymbol{G}^{\prime} X_{i}-\boldsymbol{C}^{\prime} Z_{i}\right) . \end{aligned} \]

Anderson (1951) 通过拉格朗日乘子方法施加约束 \(\boldsymbol{B} \boldsymbol{A}_{\perp}=0\) 导出了 MLE。事实证明，这在代数上是很麻烦的。

Johansen (1995) 相反提出了以下简单的浓缩方法。将 \(\boldsymbol{G}\) 视为已知，最大化其他参数的对数似然。重新代入这些估计量，我们获得了关于 \(\boldsymbol{G}\) 的集中对数似然函数。可以将其最大化以找到 \(\boldsymbol{G}\) 的 MLE。然后通过替换获得其他参数估计量。我们现在详细描述这些步骤。

给定 \(\boldsymbol{G}\)，似然度是变量 \(\boldsymbol{G}^{\prime} X\) 和 \(Z\) 中的正态多元回归，因此 \(\boldsymbol{A}, \boldsymbol{C}\) 和 \(\Sigma\) 的 MLE 是最小二乘法。特别是，使用 Frisch-Waugh-Lovell 残差回归公式，我们可以将 \(\boldsymbol{A}\) 和 \(\Sigma\) 的估计量编写为

\[ \widehat{\boldsymbol{A}}(\boldsymbol{G})=\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)^{-1} \]

和

\[ \widehat{\Sigma}(\boldsymbol{G})=\frac{1}{n}\left(\widetilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}-\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)^{-1} \boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{Y}}\right) \]

其中 \(\tilde{\boldsymbol{Y}}=\boldsymbol{Y}-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\) 和 \(\widetilde{\boldsymbol{X}}=\boldsymbol{X}-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\)。

将这些估计量代入对数似然函数，我们得到集中似然函数，它只是 \(G\) 的函数。

\[ \begin{aligned} \widetilde{\ell}_{n}(\boldsymbol{G}) &=\ell_{n}(\boldsymbol{G}, \widehat{\boldsymbol{A}}(\boldsymbol{G}), \widehat{\boldsymbol{C}}(\boldsymbol{G}), \widehat{\Sigma}(\boldsymbol{G})) \\ &=\frac{m}{2}(n \log (2 \pi)-1)-\frac{n}{2} \log \left[\operatorname{det}\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}-\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)^{-1} \boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{Y}}\right)\right] \\ &=\frac{m}{2}(n \log (2 \pi)-1)-\frac{n}{2} \log \left(\operatorname{det}\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)\right)-\frac{n}{2} \log \left[\frac{\operatorname{det}\left(\boldsymbol{G}^{\prime}\left(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}-\widetilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)^{-1} \boldsymbol{Y}^{\prime} \widetilde{\boldsymbol{X}}\right) \boldsymbol{G}\right)}{\operatorname{det}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)} .\right. \end{aligned} \]

第三个等式使用定理A.1.8。 \(\boldsymbol{G}\) 的 MLE \(\widehat{\boldsymbol{G}}\) 是 \(\widetilde{\ell}_{n}(\boldsymbol{G})\) 的最大化，或者等价于

\[ \begin{aligned} \widehat{\boldsymbol{G}} &=\underset{\boldsymbol{G}}{\operatorname{argmin}} \frac{\operatorname{det}\left(\boldsymbol{G}^{\prime}\left(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}-\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{Y}}\left(\tilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)^{-1} \boldsymbol{Y}^{\prime} \tilde{\boldsymbol{X}}\right) \boldsymbol{G}\right)}{\operatorname{det}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)} \\ &=\underset{\boldsymbol{G}}{\operatorname{argmax}} \frac{\operatorname{det}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{Y}}\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)^{-1} \boldsymbol{Y}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)}{\operatorname{det}\left(\boldsymbol{G}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \boldsymbol{G}\right)} \\ &=\left\{v_{1}, \ldots, v_{r}\right\} \end{aligned} \]

它们是 \(\widetilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\left(\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\right)^{-1} \boldsymbol{Y}^{\prime} \tilde{\boldsymbol{X}}\) 相对于 \(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}\) 的广义特征向量，对应于 \(r\) 最大广义特征值。（广义特征值和特征向量在 A.14 节中讨论。）估计器满足归一化 \(\widehat{\boldsymbol{G}}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \widehat{\boldsymbol{G}}=\boldsymbol{I}_{r}\)。令 \(v_{j}^{*}\) 表示 (11.20) 的特征向量，我们也可以表示 \(\widehat{\boldsymbol{G}}=\left\{v_{m}^{*}, \ldots, v_{m-r+1}^{*}\right\}\)。

这在计算上很简单。例如，在 MATLAB 中，使用命令 eig \((\mathrm{A}, \mathrm{B})\) 可以找到矩阵 \(\boldsymbol{A}\) 相对于 \(\boldsymbol{B}\) 的广义特征值和特征向量。

给定 \(\widehat{\boldsymbol{G}}\)，MLE \(\widehat{\boldsymbol{A}}, \widehat{\boldsymbol{C}}, \widehat{\Sigma}\) 是通过 \(Y\) 在 \(\widehat{\boldsymbol{G}}^{\prime} X\) 和 \(Z\) 上的最小二乘回归找到的。特别是 \(\widehat{\boldsymbol{A}}=\widehat{\boldsymbol{G}}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\) 因为 \(\widehat{\boldsymbol{G}}^{\prime} \widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}} \widehat{\boldsymbol{G}}=\boldsymbol{I}_{r}\) 我们现在讨论 \(\boldsymbol{A}_{\perp}\) 的估计器 \(\widehat{\boldsymbol{A}}_{\perp}\)。事实证明

\[ \begin{aligned} \widehat{\boldsymbol{A}}_{\perp} &=\underset{\boldsymbol{A}}{\operatorname{argmax}} \frac{\operatorname{det}\left(\boldsymbol{A}^{\prime}\left(\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}-\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{X}}\left(\tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{X}}\right)^{-1} \widetilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\right) \boldsymbol{A}\right)}{\operatorname{det}\left(\boldsymbol{A}^{\prime} \tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}} \boldsymbol{A}\right)} \\ &=\left\{w_{1}, \ldots, w_{m-r}\right\} \end{aligned} \]

\(\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}-\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{X}}\left(\tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{X}}\right)^{-1} \tilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\) 相对于与最大 \(m-r\) 特征值相关的 \(\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\) 的特征向量。

根据对偶特征值关系（定理 A.5），方程（11.20）和（11.21）具有相同的非零特征值 \(\lambda_{j}\)，并且相关的特征向量 \(v_{j}^{*}\) 和 \(w_{j}\) 满足以下关系

\[ w_{j}=\lambda_{j}^{-1 / 2}\left(\tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\right)^{-1} \tilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}} v_{j}^{*} \]

让 \(\Lambda=\operatorname{diag}\left\{\lambda_{m}, \ldots, \lambda_{m-r+1}\right\}\) 这意味着

\[ \left\{w_{m}, \ldots, w_{m-r+1}\right\}=\left(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)^{-1} \tilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}}\left\{v_{m}^{*}, \ldots, v_{m-r+1}^{*}\right\} \Lambda=\left(\tilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\right)^{-1} \widehat{\boldsymbol{A}} \Lambda . \]

第二个等式成立，因为 \(\widehat{\boldsymbol{G}}=\left\{v_{m}^{*}, \ldots, v_{m-r+1}^{*}\right\}\) 和 \(\widehat{\boldsymbol{A}}=\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}} \widehat{\boldsymbol{G}}\)。由于特征向量 \(w_{j}\) 满足 \(j \neq \ell\) 的正交性属性 \(w_{j}^{\prime} \widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}} w_{\ell}=0\)，因此可以得出：

\[ 0=\widehat{\boldsymbol{A}}_{\perp}^{\prime} \tilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\left\{w_{m}, \ldots, w_{m-r+1}\right\}=\widehat{\boldsymbol{A}}_{\perp}^{\prime} \widehat{\boldsymbol{A}} \Lambda . \]

由于 \(\Lambda>0\) 我们得出结论 \(\widehat{A}_{\perp}^{\prime} \widehat{A}=0\) 符合预期。

(11.21) 中的解 \(\widehat{A}_{\perp}\) 可以用多种方式表示。计算方便的一种方法是观察

\[ \tilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}-\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}}\left(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}\right)^{-1} \widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{X}}=\boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}} \boldsymbol{Y}=\widetilde{\boldsymbol{E}}^{\prime} \widetilde{\boldsymbol{E}} \]

其中 \(\boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}}=\boldsymbol{I}_{n}-(\boldsymbol{X}, \boldsymbol{Z})\left((\boldsymbol{X}, \boldsymbol{Z})^{\prime}(\boldsymbol{X}, \boldsymbol{Z})\right)^{-1}(\boldsymbol{X}, \boldsymbol{Z})^{\prime}\) 和 \(\widetilde{\boldsymbol{E}}=\boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}} \boldsymbol{Y}\) 是 \(Y\) 对 \(X\) 和 \(\boldsymbol{Z}\) 进行无限制多元最小二乘回归的残差矩阵。 FrischWaugh-Lovell 定理遵循第一个等式。这表明 \(\widehat{\boldsymbol{A}}_{\perp}\) 是 \(\widetilde{\boldsymbol{E}}^{\prime} \widetilde{\boldsymbol{E}}\) 相对于 \(\widetilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\) 的广义特征向量，对应于 \(m-r\) 最大特征值。例如，在 MATLAB 中，可以使用 eig \(\boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}}=\boldsymbol{I}_{n}-(\boldsymbol{X}, \boldsymbol{Z})\left((\boldsymbol{X}, \boldsymbol{Z})^{\prime}(\boldsymbol{X}, \boldsymbol{Z})\right)^{-1}(\boldsymbol{X}, \boldsymbol{Z})^{\prime}\) 命令计算这些值。

另一种表示是写 \(\boldsymbol{M}_{Z}=\boldsymbol{I}_{n}-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}\) 以便

\[ \widehat{A}_{\perp}=\underset{A}{\operatorname{argmax}} \frac{\operatorname{det}\left(\boldsymbol{A}^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}} \boldsymbol{Y} \boldsymbol{A}\right)}{\operatorname{det}\left(\boldsymbol{A}^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{Y} \boldsymbol{A}\right)}=\underset{\boldsymbol{A}}{\operatorname{argmin}} \frac{\operatorname{det}\left(\boldsymbol{A}^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{Y} \boldsymbol{A}\right)}{\operatorname{det}\left(\boldsymbol{A}^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{X}, \boldsymbol{Z}} \boldsymbol{Y} \boldsymbol{A}\right)} . \]

我们总结了我们的发现。定理 11.7 \(e \sim \mathrm{N}(0, \Sigma)\) 下的降阶模型 (11.19) 的 MLE 给出如下。令 \(\tilde{\boldsymbol{Y}}\) 和 \(\widetilde{\boldsymbol{X}}\) 分别为 \(\boldsymbol{Y}\) 和 \(\boldsymbol{X}\) 对 \(\boldsymbol{Z}\) 进行多元回归的残差矩阵。然后\(\widehat{\boldsymbol{G}}_{\mathrm{mle}}=\left\{v_{1}, \ldots, v_{r}\right\}\)，通过最小二乘回归得到\(e \sim \mathrm{N}(0, \Sigma)\)最大特征值\(e \sim \mathrm{N}(0, \Sigma)\)和\(e \sim \mathrm{N}(0, \Sigma)\)对应的\(\widetilde{\boldsymbol{X}}^{\prime} \tilde{\boldsymbol{Y}}\left(\widetilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\right)^{-1} \boldsymbol{Y}^{\prime} \widetilde{\boldsymbol{X}}\)相对于\(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}\)的广义特征向量

\[ \begin{aligned} Y_{i} &=\widehat{\boldsymbol{A}}_{\mathrm{mle}} \widehat{\boldsymbol{G}}_{\mathrm{mle}}^{\prime} X_{i}+\widehat{\boldsymbol{C}}_{\mathrm{mle}}^{\prime} Z_{i}+\widehat{e}_{i} \\ \widehat{\Sigma}_{\mathrm{mle}} &=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i} \widehat{e}_{i}^{\prime} \end{aligned} \]

令 \(\widetilde{\boldsymbol{E}}\) 为 \(\boldsymbol{Y}\) 在 \(\boldsymbol{X}\) 和 \(\boldsymbol{Z}\) 上多元回归的残差矩阵。那么 \(\widehat{\boldsymbol{A}}_{\perp}\) 等于 \(\widetilde{\boldsymbol{E}} \widetilde{\boldsymbol{E}}^{\prime}\) 相对于 \(m-r\) 最小特征值对应的 \(\widetilde{\boldsymbol{Y}}^{\prime} \widetilde{\boldsymbol{Y}}\) 的广义特征向量。最大似然等于

\[ \ell_{n}=\frac{m}{2}(n \log (2 \pi)-1)-\frac{n}{2} \log \left(\operatorname{det}\left(\widetilde{\boldsymbol{Y}}^{\prime} \tilde{\boldsymbol{Y}}\right)\right)-\frac{n}{2} \sum_{j=1}^{r} \log \left(1-\widehat{\lambda}_{j}\right) . \]

用于降阶回归的 R 包是“RRR”。我不知道 Stata 命令。

11.12 主成分分析

在 \(4.21\) 节中，我们描述了 Duflo、Dupas 和 Kremer (2011) 数据集，它是肯尼亚一年级考试成绩的样本。按照作者的思路，我们重点关注变量总分，即每个学生的综合测试成绩。如果您检查数据文件，您会发现有关学生表现的其他信息，包括每个学生在测试的各个部分的分数，以及标签 Wordscore（单词识别）、sentscore（句子识别）、letterscore（字母识别）、spellscore（拼写）、additions_score（加法）、subtractions_score（减法）、multiplications_score（乘法）。 “总”分数是各个部分的分数之和。也许分数部分有更多信息。我们如何从数据中了解这一点？

主成分分析 (PCA) 通过按线性组合对方差的贡献对线性组合进行排序来解决此问题。定义 \(11.1\) 令 \(X\) 为 \(k \times 1\) 随机向量。

第一个主成分是 \(U_{1}=h_{1}^{\prime} X\)，其中 \(h_{1}\) 满足

\[ h_{1}=\underset{h^{\prime} h=1}{\operatorname{argmax}} \operatorname{var}\left[h^{\prime} X\right] . \]

第二个主成分是 \(U_{2}=h_{2}^{\prime} X\) 其中

\[ h_{2}=\underset{h^{\prime} h=1, h^{\prime} h_{1}=0}{\operatorname{argmax}} \operatorname{var}\left[h^{\prime} X\right] . \]

一般来说，\(j^{t h}\) 主成分是 \(U_{j}=h_{j}^{\prime} X\)，其中

\[ h_{j}=\underset{h^{\prime} h=1, h^{\prime} h_{1}=0, \ldots, h^{\prime} h_{j-1}=0}{\operatorname{argmax}} \operatorname{var}\left[h^{\prime} X\right] . \]

\(X\) 的主成分是线性组合 \(h^{\prime} X\)，按对方差的贡献排序。根据二次形式的性质（A.15 节），权重向量 \(h_{j}\) 是 \(\Sigma=\operatorname{var}[X]\) 的特征向量。

定理 11.8 \(X\) 的主成分是 \(U_{j}=h_{j}^{\prime} X\)，其中 \(h_{j}\) 是与 \(\Sigma\) 的 \(j^{\text {th }}\) 有序特征值 \(\lambda_{j}\) 关联的 \(\Sigma\) 的特征向量。

查看 PCA 构造的另一种方式如下。由于 \(\Sigma\) 是对称的，谱分解（定理 A.3）表明 \(\Sigma=\boldsymbol{H} \boldsymbol{D} \boldsymbol{H}^{\prime}\) ，其中 \(\boldsymbol{H}=\left[h_{1}, \ldots, h_{k}\right]\) 和 \(\boldsymbol{D}=\operatorname{diag}\left(d_{1}, \ldots, d_{k}\right)\) 是 \(\Sigma\) 的特征向量和特征值。由于 \(\Sigma\) 是半正定的，因此特征值是实数、非负且有序的 \(d_{1} \geq d_{2} \geq \cdots \geq d_{k}\)。令 \(U=\left(U_{1}, \ldots, U_{k}\right)\) 为 \(X\) 的主要组成部分。根据定理 11.8，\(\Sigma\)。 \(\Sigma\) 的协方差矩阵为

\[ \operatorname{var}[U]=\operatorname{var}\left[\boldsymbol{H}^{\prime} X\right]=\boldsymbol{H}^{\prime} \Sigma \boldsymbol{H}=\boldsymbol{D} \]

这是对角线。这表明 \(\operatorname{var}\left[U_{j}\right]=d_{j}\) 和主成分是相互不相关的。 \(j^{t h}\) 主成分的相对方差贡献是 \(d_{j} / \operatorname{tr}(\Sigma)\)。

主成分对 \(X\) 的缩放很敏感。因此，建议首先缩放 \(X\) 的每个元素，使其均值为零和单位方差。在这种情况下 \(\Sigma\) 是一个相关矩阵。

样本主成分是通过用样本估计量替换未知数来获得的。令 \(\widehat{\Sigma}\) 为样本协方差或相关矩阵，\(\widehat{h}_{1}, \widehat{h}_{2}, \ldots, \widehat{h}_{k}\) 为其有序特征向量。示例主成分是 \(\widehat{h}_{j}^{\prime} X_{i}\)。

为了说明这一点，我们使用 Duflo、Dupas 和 Kremer (2011) 数据集。在表 \(11.1\) 中，我们显示了上述七个测试分数的样本相关矩阵的七个特征值。七个特征值之和为 7，因为我们已将 PCA 应用于相关矩阵。第一个特征值是 \(4.0\)，这意味着第一个主成分解释了七个测试分数的方差 \(57 %\)。第二个特征值是 \(1.0\)，这意味着第二个主成分解释了方差的 \(15 %\)。前两个组成部分共同解释了七个测试分数的方差 \(72 %\)。

在表 \(11.2\) 中，我们显示前两个主成分的权重向量（特征向量）。第一个分量的权重均为正且大小相似。这意味着第一个表11.1：样本相关矩阵的特征值分解

|Eigenvalue|Proportion|

|:|———-|———-| |1| \(4.02\) | \(0.57\) | |2| \(1.04\) | \(0.15\) | |3| \(0.57\) | \(0.08\) | |4| \(0.52\) | \(0.08\) | |5| \(0.37\) | \(0.05\) | |6| \(0.29\) | \(0.04\) | |7| \(0.19\) | \(0.03\) |

表 11.2：主成分权重向量

	First	Second
words	\(0.41\)	\(-0.32\)
sentences	\(0.32\)	\(-0.49\)
letters	\(0.40\)	\(-0.13\)
spelling	\(0.43\)	\(-0.28\)
addition	\(0.38\)	\(0.41\)
subtraction	\(0.35\)	\(0.52\)
multiplication	\(0.33\)	\(0.36\)

主成分类似于七个测试分数的简单平均值。这非常令人着迷。这与我们的直觉一致，即简单的平均值（例如变量总分）捕获了七个测试分数中包含的大部分信息。第二个分量的权重具有不同的模式。四项识字成绩获得负权重，三项数学成绩获得正权重，且大小相似。这意味着第二个主成分类似于学生的数学和语言测试成绩之间的差异。总而言之，前两个主成分中的信息相当于“平均语言”和“平均数学”测试成绩。这表明，七个部分测试成绩的变化 \(57 %\) 可以用简单的平均值（例如总分）来解释，而 \(72 %\) 可以用测试的语言和数学部分的平均值来解释。

在Stata中，主成分分析可以通过pca命令实现。在 \(\mathrm{R}\) 中使用 prcomp 或 princomp。所有这三个都可以应用于协方差矩阵（未缩放数据）或相关矩阵（标准化数据），但它们具有不同的默认设置。默认情况下，Stata pca 命令对观测值进行归一化。默认情况下，R 命令不会对观测值进行归一化。

11.13 因子模型

与主成分密切相关的是因子模型。这些统计模型将随机向量分解为公共因子和特殊误差。因素模型在整个社会科学中都很流行。因此，开发了多种估计方法。在接下来的几节中，我们将重点讨论经济学家中流行的方法。

令 \(X=\left(X_{1}, \ldots, X_{k}\right)^{\prime}\) 为 \(k \times 1\) 随机向量（例如上一节中描述的七个测试分数）。假设 \(X\) 的元素被缩放为均值为零和单位方差。

\(X\) 的单因素模型是

\[ X=\lambda F+u \]

其中 \(\lambda \in \mathbb{R}^{k}\) 是因子载荷，\(F \in \mathbb{R}\) 是公因子，\(u \in \mathbb{R}^{k}\) 是随机误差。因子 \(F\) 是个体特定的，而系数 \(\lambda\) 是个体间共有的。模型 (11.22) 指定 \(X\) 元素之间的相关性是由于公因子 \(F\) 造成的。在学生考试成绩示例中，可以直观地将 \(F\) 视为学生的学术“能力”；在本例中，向量 \(\lambda\) 描述了学术能力如何影响七个科目的分数。

多因素模型具有 \(r<k\) 因素。我们将模型写为

\[ X=\Lambda F+u \]

其中 \(\Lambda\) 是因子载荷的 \(k \times r\) 矩阵，\(F=\left(F_{1}, \ldots, F_{r}\right)^{\prime}\) 是因子的 \(r \times 1\) 向量。在学生考试成绩示例中，可能的因素可能是“数学能力”、“语言技能”、“社交技能”、“艺术能力”、“创造力”等。因素负荷矩阵 \(\Lambda\) 表示每个因素对每次考试成绩。因子 \(r\) 的数量被认为是已知的。我们稍后讨论 \(r\) 的选择。

误差向量 \(u\) 假定为零均值，与 \(F\) 不相关，并且（在正确的规范下）具有互不相关的元素。我们将其协方差矩阵写为 \(\Psi=\mathbb{E}\left[u u^{\prime}\right]\)。因子向量 \(F\) 可以被视为随机变量或回归变量。在本节中，我们将 \(F\) 视为随机；接下来我们将 \(F\) 视为回归量。随机因子 \(F\) 假设均值为零并进行归一化，以便 \(\mathbb{E}\left[F F^{\prime}\right]=\) \(\boldsymbol{I}_{r}\)

这些假设意味着相关矩阵 \(\Sigma=\mathbb{E}\left[X X^{\prime}\right]\) 等于

\[ \Sigma=\Lambda \Lambda^{\prime}+\Psi . \]

因子分析文献经常将 \(\Lambda \Lambda^{\prime}\) 描述为共性，将特殊误差矩阵 \(\Psi\) 描述为唯一性。前者是方差中由因子模型解释的部分，后者是方差中无法解释的部分。

该模型通常是通过最大似然估计的 \({ }^{1}\) 。在 \((F, u)\) 的联合正态性下，\(X\) 的分布为 \(\mathrm{N}\left(0, \Lambda \Lambda^{\prime}+\Psi\right)\)。参数是 \(\Lambda\) 和 \(\Psi=\operatorname{diag}\left(\psi_{1}, \ldots, \psi_{k}\right)\)。随机样本 \(\left(X_{1}, \ldots, X_{n}\right)\) 的对数似然函数为

\[ \ell_{n}(\Lambda, \Psi)=-\frac{n k}{2} \log (2 \pi)-\frac{n}{2} \log \operatorname{det}\left(\Lambda \Lambda^{\prime}+\Psi\right)-\frac{n}{2} \operatorname{tr}\left(\left(\Lambda \Lambda^{\prime}+\Psi\right)^{-1} \widehat{\Sigma}\right) . \]

\(\operatorname{MLE}(\widehat{\Lambda}, \widehat{\Psi})\) 最大化 \(\ell_{n}(\Lambda, \Psi)\)。没有代数解，因此使用数值方法找到估计量。幸运的是，标准包中提供了计算算法。详细的描述和分析可以在Anderson (2003, Chapter 14) 中找到。

对数似然的形式很有趣。请注意，对数似然只是通过其相关矩阵 \(\widehat{\Sigma}\) 观测值的函数，并且只是通过总体相关矩阵 \(\Lambda \Lambda^{\prime}+\Psi\) 的参数的函数。 (11.25) 中的最后一项是 \(\widehat{\Sigma}\) 和 \(\Lambda \Lambda^{\prime}+\Psi\) 之间匹配的度量。总之，我们看到高斯对数似然本质上是模型和样本相关矩阵的拟合度的度量。因此，它不依赖于正态性假设。

估计因子 \(F_{i}\) 通常很有趣。给定 \(\Lambda\)，方程 \(X_{i}=\Lambda F_{i}+u_{i}\) 可以被视为系数为 \(F_{i}\) 的回归。其最小二乘估计量为 \(\widehat{F}_{i}=\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} X_{i}\)。 GLS 估计器（考虑到 \(\left.u_{i}\right)\) 的协方差矩阵是 \(\widehat{F}_{i}=\left(\Lambda^{\prime} \Psi^{-1} \Lambda\right)^{-1} \Lambda^{\prime} \Psi^{-1} X_{i}\)。这激发了 Bartlett 评分估计器

\[ \widetilde{F}_{i}=\left(\widehat{\Lambda}^{\prime} \widehat{\Psi}^{-1} \widehat{\Lambda}\right)^{-1} \widehat{\Lambda}^{\prime} \widehat{\Psi}^{-1} X_{i} . \]

理想化版本满足

\[ \widehat{F}_{i}=\left(\Lambda^{\prime} \Psi^{-1} \Lambda\right)^{-1} \Lambda^{\prime} \Psi^{-1}\left(\Lambda F_{i}+u_{i}\right)=F_{i}+\left(\Lambda^{\prime} \Psi^{-1} \Lambda\right)^{-1} \Lambda^{\prime} \Psi^{-1} u_{i} \]

\({ }^{1}\) 应用因子分析中还使用其他估计量。然而，没有什么理由考虑本节的 MLE 和下一节的主成分估计量之外的估计量。对于 \(F_{i}\) 是无偏的，并且有方差 \(\left(\Lambda^{\prime} \Psi^{-1} \Lambda\right)^{-1}\)。因此，Barlett 评分估计器通常被描述为“无偏”，尽管这实际上是其理想化版本 \(\widehat{F}_{i}\) 的属性。

因子的第二个估计量可以根据 \(F\) 在 \(X\) 上的多元线性投影构建。这是 \(F=A X+\xi\)，其中系数矩阵 \(\boldsymbol{A}\) 是 \(r \times k\)。系数矩阵等于

\[ \boldsymbol{A}=\mathbb{E}\left[F X^{\prime}\right] \mathbb{E}\left[X X^{\prime}\right]^{-1}=\Lambda^{\prime} \Sigma^{-1}, \]

第二个方程使用 \(\mathbb{E}\left[F X^{\prime}\right]=\mathbb{E}\left[F(\Lambda F+u)^{\prime}\right]=\mathbb{E}\left[F F^{\prime}\right] \Lambda^{\prime}+\mathbb{E}\left[F u^{\prime}\right]=\Lambda^{\prime}\)。 \(F_{i}\) 的预测值为 \(F_{i}^{*}=\boldsymbol{A} X_{i}=\Lambda^{\prime} \Sigma^{-1} X_{i}\)。这激发了回归评分估计器

\[ \bar{F}_{i}=\widehat{\Lambda}^{\prime} \widehat{\Sigma}^{-1} X_{i} . \]

理想化版本 \(F_{i}^{*}\) 具有条件期望 \(\Lambda^{\prime} \Sigma^{-1} \Lambda F_{i}\)，因此对 \(F_{i}\) 有偏差。因此，回归评分估计器 \(\bar{F}_{i}\) 通常被描述为“有偏差”。一些代数操作表明 \(F_{i}^{*}\) 的 MSE \(\boldsymbol{I}_{r}-\Lambda^{\prime}\left(\Lambda^{\prime} \Lambda+\Psi\right)^{-1} \Lambda\) 比理想化 Bartlett 估计器 \(\widehat{F}_{i}\) 的 MSE 小（在正定意义上）。

Bartlett 或回归评分哪个是首选估计器？当 \(k\) 较大时，差异会减小，因此该选择对于小到中等的 \(k\) 最相关。回归评分估计器具有较低的近似 MSE，这意味着它是更精确的估计器。因此，根据估计精度，这是我们推荐的选择。

因子载荷 \(\Lambda\) 和因子 \(F\) 没有单独识别。要看到这一点，请注意，如果将 \((\Lambda, F)\) 替换为 \(\Lambda^{*}=\Lambda \boldsymbol{G}\) 和 \(F^{*}=\boldsymbol{G}^{\prime} F\)，其中 \(\boldsymbol{G}\) 是 \(r \times r\) 且正交，则回归模型是相同的。这种替换在因子分析文献中称为“轮换”。因子载荷的任何正交旋转都是同样有效的表示。默认 MLE 输出为一特定旋转；其他的可以通过各种算法获得（我们在这里不进行回顾）。因此，将意义赋予单个因子载荷估计是不明智的。

另一个重要且棘手的问题是因子 \(r\) 数量的选择。没有明确的指导方针。一种方法是检查主成分分解，寻找“大”和“小”特征值之间的划分，并将 \(r\) 设置为等于“大”特征值的数量。另一种方法是基于测试。 -MLE（和标准包实现）的乘积，我们获得 \(r\) 因子的原假设与 \(k\) 因子的备择假设的 LR 检验。如果 LR 检验拒绝（具有较小的 p 值），则为证据表明给定的 \(r\) 可能太小。

在Stata中，\(\operatorname{MLE}(\widehat{\Lambda}, \widehat{\Psi})\)可以用factor, ml Factors (r)命令来计算。因子估计值 \(\widetilde{F}_{i}\) 和 \(\bar{F}_{i}\) 可以通过预测命令分别使用 barlett 或回归选项来计算。在\(R\)中，命令factanal（\(X\)，factors=r，rotation=“none”）计算\(\operatorname{MLE}(\widehat{\Lambda}, \widehat{\Psi})\)，并使用scores选项计算因子估计值\(\widetilde{F}_{i}\)和/或\(\bar{F}_{i}\)。

11.14 近似因子模型

当变量 \(k\) 的数量较小并且认为因子模型被正确指定时，上一节的 MLE 是因子估计的不错选择。然而，在因子分析的许多经济应用中，\(k\) 变量的数量很大。在这种情况下，MLE 的计算成本可能很高并且/或者不稳定。此外，相信模型是正确指定的通常是不可信的；相反，将因子模型视为有用的近似值更为合理。在本节中，我们探索一种称为近似因子模型的方法，通过主成分进行估计。该估计方法通过渐近框架来证明，其中变量的数量 \(k \rightarrow \infty\) 近似因子模型是由 Chamberlain 和 Rothschild (1983) 引入的。它与 (11.23) 相同，但放宽了对特殊误差 \(u\) 的假设，使得协方差矩阵 \(\Psi=\) \(\mathbb{E}\left[u u^{\prime}\right]\) 不受限制。在这种情况下，上一节的高斯 MLE 被错误指定。

张伯伦和罗斯柴尔德（以及随后的文献）提出了最小二乘估计。这个想法是将因子视为未知回归量，并同时估计因子 \(F_{i}\) 和因子载荷 \(\Lambda\)。我们首先描述估计方法。

令 \(\left(X_{1}, \ldots, X_{n}\right)\) 为以样本均值为中心的样本。最小二乘准则是

\[ \frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\Lambda F_{i}\right)^{\prime}\left(X_{i}-\Lambda F_{i}\right) . \]

令 \(\left(\widehat{\Lambda}, \widehat{F}_{1}, \ldots, \widehat{F}_{n}\right)\) 为联合最小化器。由于 \(\Lambda\) 和 \(F_{i}\) 没有单独标识，因此需要标准化。为了与上一节的符号兼容，我们使用 \(n^{-1} \sum_{i=1}^{n} \widehat{F}_{i} \widehat{F}_{i}^{\prime}=\boldsymbol{I}_{r}\)。

我们使用浓度论证来找到解决方案。如上一节所述，每个观测值都满足多元方程 \(X_{i}=\Lambda F_{i}+u_{i}\)。对于固定的\(\Lambda\)，这是一组带有\(r\)未知数\(F_{i}\)的\(k\)方程。最小二乘解是 \(\widehat{F}_{i}(\Lambda)=\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} X_{i}\)。将此表达式代入最小二乘准则，\(\Lambda\) 的集中最小二乘准则为

\[ \begin{aligned} \frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\Lambda \widehat{F}_{i}(\Lambda)\right)^{\prime}\left(X_{i}-\Lambda \widehat{F}_{i}(\Lambda)\right) &=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\Lambda\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} X_{i}\right)^{\prime}\left(X_{i}-\Lambda\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} X_{i}\right) \\ &=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}^{\prime} X_{i}-X_{i}^{\prime} \Lambda\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} X_{i}\right) \\ &=\operatorname{tr}[\widehat{\Sigma}]-\operatorname{tr}\left[\left(\Lambda^{\prime} \Lambda\right)^{-1} \Lambda^{\prime} \widehat{\Sigma} \Lambda\right] \end{aligned} \]

其中 \(\widehat{\Sigma}=n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\) 是样本协方差矩阵。最小二乘估计器 \(\widehat{\Lambda}\) 最小化了这个标准。让\(\widehat{\boldsymbol{D}}\)和\(\widehat{\boldsymbol{H}}\)首先成为\(r\)的特征值和\(\widehat{\Sigma}\)的特征向量。使用归一化 \(\Lambda^{\prime} \Lambda=\boldsymbol{I}_{r}\)，根据 A.15 节的极值结果，最小二乘准则的最小值为 \(\widehat{\Lambda}=\widehat{\boldsymbol{H}}\)。更广泛地说，\(\widehat{\boldsymbol{H}}\) 的任何旋转都是有效的。考虑 \(\widehat{\Sigma}=n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\)。回想一下因子 \(\widehat{\Sigma}=n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\) \(\widehat{\Sigma}=n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\) 的表达式。我们发现估计的因素是

\[ \widehat{F}_{i}=\left(\widehat{\boldsymbol{D}}^{1 / 2} \widehat{\boldsymbol{H}}^{\prime} \widehat{\boldsymbol{H}} \widehat{\boldsymbol{D}}^{1 / 2}\right)^{-1} \widehat{\boldsymbol{D}}^{1 / 2} \widehat{\boldsymbol{H}}^{\prime} X_{i}=\widehat{\boldsymbol{D}}^{-1 / 2} \widehat{\boldsymbol{H}}^{\prime} X_{i} \]

我们计算出

\[ n^{-1} \sum_{i=1}^{n} \widehat{F}_{i} \widehat{F}_{i}^{\prime}=\widehat{\boldsymbol{D}}^{-1 / 2} \widehat{\boldsymbol{H}}^{\prime} \widehat{\Sigma} \widehat{\boldsymbol{H}} \widehat{\boldsymbol{D}}^{-1 / 2 \prime}=\widehat{\boldsymbol{D}}^{-1 / 2} \widehat{\boldsymbol{D}} \widehat{\boldsymbol{D}}^{-1 / 2 \prime}=\boldsymbol{I}_{r} \]

这是所需的标准化。这表明旋转 \(\widehat{\Lambda}=\widehat{\boldsymbol{H}} \widehat{\boldsymbol{D}}^{1 / 2}\) 产生满足此标准化的因子估计。

我们证明了以下结果。

定理 11.9 归一化 \(n^{-1} \sum_{i=1}^{n} \widehat{F}_{i} \widehat{F}_{i}^{\prime}=\boldsymbol{I}_{r}\) 下因子模型 (11.23) 的最小二乘估计量有以下解：

令 \(\widehat{\boldsymbol{D}}=\operatorname{diag}\left[\widehat{d}_{1}, \ldots, \widehat{d}_{r}\right]\) 和 \(\widehat{\boldsymbol{H}}=\left[\widehat{h}_{1}, \ldots, \widehat{h}_{r}\right]\) 为样本协方差矩阵 \(\widehat{\Sigma}\) 的第一个 \(r\) 特征值和特征向量。

2.\(\widehat{\Lambda}=\widehat{\boldsymbol{H}} \widehat{\boldsymbol{D}}^{1 / 2}\)。

3.\(\widehat{F}_{i}=\widehat{\boldsymbol{D}}^{-1 / 2} \widehat{\boldsymbol{H}}^{\prime} X_{i}\)。定理 \(11.9\) 表明最小二乘估计量基于协方差矩阵的特征值分解。即使在高维度下，这在计算上也是稳定的。

因子估计值是按 \(\widehat{\Sigma}\) 特征值缩放的主成分。具体来说，\(j^{t h}\) 因子估计值为 \(\widehat{F}_{j i}=\widehat{d}_{j}^{-1 / 2} \widehat{h}_{j}^{\prime} X\)。因此，许多作者将此估计器称为“主成分方法”。

不幸的是，如果 \(k\) 固定，则 \(\widehat{\Lambda}\) 与 \(\Lambda\) 不一致，正如我们现在所示。通过 WLLN 和 CMT，\(\widehat{\Sigma} \underset{p}{\longrightarrow}\) 和 \(\widehat{\boldsymbol{H}} \underset{p}{\longrightarrow} \boldsymbol{H}\)，得到 \(\Sigma\) 的第一个 \(r\) 特征向量。当 \(\Psi\) 为对角线时，\(\Sigma=\Lambda \Lambda^{\prime}+\Psi\) 的特征向量不位于 \(\widehat{\Lambda}\) 的范围空间内，除非特殊情况 \(\widehat{\Lambda}\)。因此，估计器 \(\widehat{\Lambda}\) 不一致。

这种不一致不应被视为令人惊讶。样本总共有 \(n k\) 个观测值，模型总共有 \(n r+k r-r(r+1) / 2\) 个参数。由于估计参数的数量与样本大小成正比，我们不应该期望估计器的一致性。

正如张伯伦和罗斯柴尔德首先认识到的那样，这种缺陷随着 \(k\) 的增加而减少。具体来说，假设 \(k \rightarrow \infty\) 为 \(n \rightarrow \infty\)。其中一个含义是，观测值数量 \(n k\) 的增长速度快于 \(n\)，而参数数量的增长速度与 \(n\) 成正比。另一个含义是，随着 \(k\) 的增加，有关因素的信息也会增加。

为了使这一点更加精确，我们添加以下假设。令 \(\lambda_{\min }(\boldsymbol{A})\) 和 \(\lambda_{\max }(\boldsymbol{A})\) 表示正半定矩阵 \(\boldsymbol{A}\) 的最小和最大特征值。

假设 \(11.1\) 为 \(k \rightarrow \infty\)

1.\(\lambda_{\max }(\Psi) \leq B<\infty\)。

\(\lambda_{\min }\left(\Lambda^{\prime} \Lambda\right) \rightarrow \infty\) 为 \(k \rightarrow \infty\)。

假设 11.1.1 限制了特殊误差的协方差矩阵。当 \(\Psi=\operatorname{diag}\left(\sigma_{1}^{2}, \ldots, \sigma_{k}^{2}\right)\) 时，这与限制个体方差相同。有效假设 11.1.1 意味着虽然 \(u\) 的元素可以相关，但它们不能具有类似于因子模型的相关结构。假设 11.1.2 要求因子载荷矩阵的大小随着变量数量的增加而增加。这是一个相当温和的要求。当变量之间的因子载荷大小相似时，\(\lambda_{\min }\left(\Lambda^{\prime} \Lambda\right) \sim k \rightarrow \infty\)。从概念上讲，假设 11.1.2 需要额外的变量来添加有关未观察因素的信息。

假设 \(11.1\) 意味着在协方差矩阵分解 \(\Sigma=\Lambda \Lambda^{\prime}+\Psi\) 中，随着 \(k\) 的增加，分量 \(\Lambda \Lambda^{\prime}\) 占主导地位。这意味着对于大型 \(k\)，\(\Sigma\) 的第一个 \(r\) 特征向量与 \(\Lambda \Lambda^{\prime}\) 的特征向量等效，它们位于 \(\Lambda\) 的范围空间中。这一观察结果使得 Chamberlain 和 Rothschild (1983) 推断出主成分估计量是因子载荷和因子的渐近（大 \(11.1\) ）模拟估计量。 Bai (2003) 证明了估计量与 \(11.1\) 联合一致。条件和证明是技术性的，因此这里不进行讨论。

现在考虑估计因素

\[ \widehat{F}_{i}=\boldsymbol{D}^{-1 / 2} \boldsymbol{H}^{\prime} X_{i}=\boldsymbol{D}^{-1} \Lambda^{\prime} X_{i} \]

为简单起见，我们忽略估计误差。由于 \(X_{i}=\Lambda F_{i}+u_{i}\) 和 \(\Lambda^{\prime} \Lambda=\boldsymbol{D}\) 我们可以将其写为

\[ \widehat{F}_{i}=F_{i}+\boldsymbol{D}^{-1} \Lambda^{\prime} u_{i} . \]

这表明 \(\widehat{F}_{i}\) 是 \(F_{i}\) 的无偏估计量，并且具有方差 \(\operatorname{var}\left[\widehat{F}_{i}\right]=\boldsymbol{D}^{-1} \Lambda^{\prime} \Psi \Lambda \boldsymbol{D}^{-1}\)。根据假设 11.1，\(\left\|\operatorname{var}\left[\widehat{F}_{i}\right]\right\| \leq B / \lambda_{\min }\left(\Lambda^{\prime} \Lambda\right) \rightarrow 0\)。因此，\(\widehat{F}_{i}\) 对于 \(F_{i}\) 与 \(k \rightarrow \infty\) 是一致的。 Bai (2003) 表明这可以扩展到可行估计量 \(n, k \rightarrow \infty\)。

在 Stata 中，最小二乘估计器 \(\widehat{\Lambda}\) 和因子 \(\widehat{F}_{i}\) 可以使用因子、pcf 因子 (r) 命令和预测来计算。在\(\mathrm{R}\)中，一种可行的估计方法是通过特征值分解来计算因子。

11.15 具有附加回归器的因子模型

考虑模型

\[ X=\Lambda F+B Z+e \]

其中 \(X\) 和 \(e\) 是 \(k \times 1, \Lambda\) 是 \(k \times r, F\) 是 \(r \times 1, B\) 是 \(k \times \ell\)，\(Z\) 是 \(\ell \times 1\)。

系数 \(\Lambda\) 和 \(\boldsymbol{B}\) 可以通过因子回归（MLE 或主成分）和最小二乘法的组合来估计。关键在于以下两个观察：

给定 \(\boldsymbol{B}\)，系数 \(\Lambda\) 可以通过应用于 \(X-\boldsymbol{B} Z\) 的因子回归来估计。
给定因子 \(F\)，系数 \(\Lambda\) 和 \(\boldsymbol{B}\) 可以通过 \(X\) 在 \(F\) 和 \(Z\) 上的多元最小二乘法来估计。

估计在这两个步骤之间迭代。首先通过 \(X\) 在 \(Z\) 上的多元最小二乘法获得 \(\boldsymbol{B}\) 的初步估计量。然后应用上述两个步骤并在收敛下迭代。

11.16 因子增强回归

在前面的部分中，我们考虑了将一组变量分解为公共因子和特殊误差的因子模型。在本节中，我们考虑因子增强回归，它使用常见因子作为回归量来降维。

假设我们有变量 \((Y, Z, X)\)，其中 \(Y \in \mathbb{R}, Z \in \mathbb{R}^{\ell}\) 和 \(X \in \mathbb{R}^{k}\)。实际上，\(k\) 可能很大，并且 \(X\) 的元素可能高度相关。因子增强回归模型为

\[ \begin{aligned} Y &=F^{\prime} \beta+Z^{\prime} \gamma+e \\ X &=\Lambda F+u \\ \mathbb{E}[F e] &=0 \\ \mathbb{E}[Z e] &=0 \\ \mathbb{E}\left[F u^{\prime}\right] &=0 \\ \mathbb{E}[u e] &=0, \end{aligned} \]

随机变量是 \(e \in \mathbb{R}, F \in \mathbb{R}^{r}\) 和 \(u \in \mathbb{R}^{k}\)。回归系数为 \(\beta \in \mathbb{R}^{k}\) 和 \(\gamma \in \mathbb{R}^{\ell}\)。矩阵 \(\Lambda\) 是因子载荷。

该模型指定 \(X\) 对 \(Y\) 的影响是通过公因子 \(F\) 实现的。这个想法是，回归变量的变化主要由因素的变化捕获，因此可以通过这些因素捕获回归变量的影响。这可以被视为一种降维技术，因为我们已将 \(k\) 维 \(X\) 降维为 \(r\) 维 \(F\)。人们的兴趣通常集中在回归量 \(Z\) 及其系数 \(\gamma\) 上。因子 \(X\) 作为“控制”包含在回归中，而其系数 \(X\) 通常不太受关注。由于很难解释因子 \(X\)，只能确定它们的范围空间，因此通常谨慎地避免解释系数 \(X\)。该模型通常分多个步骤进行估计。首先，通过因子回归估计因子载荷 \(X\) 和因子 \(X\)。在主成分估计的情况下，因子估计是缩放后的 \(X\) 主成分 \(X\)。其次，对估计因子和其他回归量对 \(X\) 进行回归，以获得 \(X\) 和 \(Y\) 的估计量。第二步估计器等于（为简单起见，假设没有 \(Y\) ）

\[ \begin{aligned} \widehat{\beta} &=\left(\sum_{i=1}^{n} \widehat{F}_{i} \widehat{F}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{F}_{i} Y_{i}\right) \\ &=\left(\widehat{\boldsymbol{D}}^{-1} \widehat{\Lambda}^{\prime} \frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{\Lambda}^{-1}\right)^{-1}\left(\widehat{\boldsymbol{D}}^{-1} \widehat{\Lambda}^{\prime} \frac{1}{n} \sum_{i=1}^{n} X_{i} Y_{i}\right) . \end{aligned} \]

现在让我们研究它的渐近行为。由于 \(n \rightarrow \infty, \widehat{\Lambda} \underset{p}{\rightarrow} \Lambda\) 和 \(\widehat{\boldsymbol{D}} \underset{p}{\rightarrow} \boldsymbol{D}\) 所以

\[ \widehat{\beta} \underset{p}{\longrightarrow} \beta^{*}=\left(\boldsymbol{D}^{-1} \Lambda^{\prime} \mathbb{E}\left[X X^{\prime}\right] \Lambda \boldsymbol{D}^{-1}\right)^{-1}\left(\boldsymbol{D}^{-1} \Lambda^{\prime} \mathbb{E}[X Y]\right) . \]

回想一下 \(\mathbb{E}\left[X X^{\prime}\right]=\Lambda \Lambda^{\prime}+\Psi\) 和 \(\Lambda^{\prime} \Lambda=\boldsymbol{D}\)。我们计算出

\[ \mathbb{E}[X Y]=\mathbb{E}\left[(\Lambda F+u)\left(F^{\prime} \beta+e\right)\right]=\Lambda \beta . \]

我们发现 (11.26) 的右边等于

\[ \beta^{*}=\left(D^{-1} \Lambda^{\prime}\left(\Lambda \Lambda^{\prime}+\Psi\right) \Lambda \boldsymbol{D}^{-1}\right)^{-1}\left(\boldsymbol{D}^{-1} \Lambda^{\prime} \Lambda \beta\right)=\left(\boldsymbol{I}_{r}+\boldsymbol{D}^{-1} \Lambda^{\prime} \Psi \Lambda \boldsymbol{D}^{-1}\right)^{-1} \beta \]

它不等于 \(\beta\)。因此，\(\widehat{\beta}\) 有一个概率限制，但 \(\beta\) 与 \(n \rightarrow \infty\) 不一致。

这种缺陷随着 \(k \rightarrow \infty\) 的增加而减少。的确，

\[ \left\|\boldsymbol{D}^{-1} \Lambda^{\prime} \Psi \Lambda \boldsymbol{D}^{-1}\right\| \leq B\left\|\boldsymbol{D}^{-1}\right\| \rightarrow 0 \]

作为 \(k \rightarrow \infty\)。这意味着 \(\beta^{*} \rightarrow \beta\)。因此，如果我们采用顺序渐近极限 \(n \rightarrow \infty\) 后跟 \(k \rightarrow\) \(\infty\)，我们会找到 \(\widehat{\beta} \underset{p}{\longrightarrow} \beta\)。这意味着估计量是一致的。 Bai (2003) 在 \(n, k \rightarrow \infty\) 联合的更严格但技术上具有挑战性的环境下证明了一致性。这个结果的含义是，如果 \(X\) 的样本量和维度都很大，则因子增强回归是一致的。

对于 \(\widehat{\beta}\) 的渐近正态性，我们需要加强假设 11.1.2。相关条件是\(n^{-1 / 2} \lambda_{\min }\left(\Lambda^{\prime} \Lambda\right) \rightarrow \infty\)。这类似于 \(k^{2} / n \rightarrow \infty\) 的条件。这是技术性的，但可以解释为 \(k\) 相对于 \(\sqrt{n}\) 较大。直观上，这要求 \(X\) 的维度大于样本大小 \(n\)。

在 Stata 中，估计采取以下步骤。首先，factor命令用于估计因子模型。可以使用 MLE 或主成分估计。其次，预测命令用于通过 Barlett 或回归评分来估计因素。第三，这些因素在估计回归中被视为回归量。

11.17 多元正态*

一些有趣的采样结果适用于矩阵值正态变量。令 \(\boldsymbol{Y}\) 为 \(n \times m\) 矩阵，其行是独立且分布的 \(\mathrm{N}(\mu, \Sigma)\)。我们说 \(\boldsymbol{Y}\) 是多元矩阵正态，并且

如果未报告系数 \(\widehat{\beta}\)，则可以等效地使用 \({ }^{2}\) 未缩放的主成分。系数估计值 \(\hat{\gamma}\) 不受因子缩放选择的影响。写入 \(Y \sim \mathrm{N}\left(\bar{\mu}, I_{n} \otimes \Sigma\right)\)，其中 \(\bar{\mu}\) 是 \(n \times m\)，每行等于 \(\mu^{\prime}\)。该符号是由于 \(\operatorname{vec}\left((\boldsymbol{Y}-\mu)^{\prime}\right) \sim \mathrm{N}\left(0, \boldsymbol{I}_{n} \otimes \Sigma\right)\)

定义 11.2 如果 \(n \times m Y \sim \mathrm{N}\left(\bar{\mu}, I_{n} \otimes \Sigma\right)\) 则 \(W=Y^{\prime} Y\) 是具有 \(n\) 自由度和协方差矩阵 \(\Sigma\) 的 Wishart 分布，并写为 \(W \sim\) \(W_{m}(n, \Sigma)\)。

Wishart 是卡方的多元推广。如果 \(W \sim W_{1}\left(n, \sigma^{2}\right)\) 则 \(W \sim \sigma^{2} \chi_{n}^{2}\)。

Wishart 是正态抽样模型中样本协方差矩阵的精确分布。 \(\Sigma\) 的偏差校正估计量为

\[ \widehat{\Sigma}=\frac{1}{n-1} \sum_{i=1}^{n}\left(Y_{i}-\bar{Y}\right)\left(Y_{i}-\bar{Y}\right)^{\prime} . \]

定理 11.10 如果 \(Y_{i} \sim \mathrm{N}(\mu, \Sigma)\) 独立，则 \(\widehat{\Sigma} \sim W_{m}\left(n-1, \frac{1}{n-1} \Sigma\right)\) 独立。

以下操作很有用。

定理 11.11 如果 \(W \sim W_{m}(n, \Sigma)\) 那么对于 \(m \times 1 \alpha,\left(\alpha^{\prime} W^{-1} \alpha\right)^{-1} \sim \frac{\chi_{n-m+1}^{2}}{\alpha^{\prime} \Sigma^{-1} \alpha}\)

为了证明这一点，请注意，在不失一般性的情况下，我们可以采用 \(\Sigma=\boldsymbol{I}_{m}\) 和 \(\alpha^{\prime} \alpha=1\)。令 \(\boldsymbol{H}\) 为 \(m \times m\) 正交，第一行等于 \(\alpha\)。这样\(\boldsymbol{H} \alpha=\left(\begin{array}{l}1 \\ 0\end{array}\right)\)。由于 \(\boldsymbol{Y}\) 和 \(\boldsymbol{Y} \boldsymbol{H}\) 的分布相同，我们可以不失一般性地设置 \(\alpha=\left(\begin{array}{c}1 \\ 0\end{array}\right)\)。分区 \(\Sigma=\boldsymbol{I}_{m}\)（其中 \(\Sigma=\boldsymbol{I}_{m}\) 是 \(\Sigma=\boldsymbol{I}_{m}\)）是 \(\Sigma=\boldsymbol{I}_{m}\)，并且它们是独立的。然后

\[ \begin{aligned} \left(\alpha^{\prime} W^{-1} \alpha\right)^{-1} &=\left(\left(\begin{array}{ll} 1 & 0 \end{array}\right)\left(\begin{array}{cc} \boldsymbol{Y}_{1}^{\prime} \boldsymbol{Y}_{1} & \boldsymbol{Y}_{1}^{\prime} \boldsymbol{Y}_{2} \\ \boldsymbol{Y}_{2}^{\prime} \boldsymbol{Y}_{1} & \boldsymbol{Y}_{2}^{\prime} \boldsymbol{Y}_{2} \end{array}\right)^{-1}\left(\begin{array}{l} 1 \\ 0 \end{array}\right)\right)^{-1} \\ &=\boldsymbol{Y}_{1}^{\prime} \boldsymbol{Y}_{1}-\boldsymbol{Y}_{1}^{\prime} \boldsymbol{Y}_{2}\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{Y}_{2}\right)^{-1} \boldsymbol{Y}_{2}^{\prime} \boldsymbol{Y}_{1} \\ &=\boldsymbol{Y}_{1}^{\prime} \boldsymbol{M}_{2} \boldsymbol{Y}_{1} \sim \chi_{n-(m-1)}^{2} \end{aligned} \]

其中 \(\boldsymbol{M}_{2}=\boldsymbol{I}_{m-1}-\boldsymbol{Y}_{2}\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{Y}_{2}\right)^{-1} \boldsymbol{Y}_{2}^{\prime}\).最终的分配等式以 \(\boldsymbol{Y}_{2}\) 为条件，与定理 5.7 的证明中的论证相同。由于这不依赖于 \(\boldsymbol{Y}_{2}\)，它也是无条件分布。这确定了所陈述的结果。

为了检验关于 \(\mu\) 的假设，经典统计量被称为 Hotelling 的 \(T^{2}\) ：

\[ T^{2}=n(\bar{Y}-\mu)^{\prime} \widehat{\Sigma}^{-1}(\bar{Y}-\mu) . \]

定理11.12如果\(Y \sim \mathrm{N}(\mu, \Sigma)\)那么

\[ T^{2} \sim \frac{m}{(n-m)(n-1)} F(m, n-m) \]

按比例缩放的 F 分布。

为了证明 \(\bar{Y}\) 独立于 \(\widehat{\Sigma}\)。将定理 \(11.11\) 与 \(\alpha=\bar{Y}-\mu\) 一起应用。以 \(\bar{Y}\) 为条件并使用 \(\widehat{\Sigma} \sim W_{m}\left(n-1, \frac{1}{n-1} \Sigma\right)\) 的事实，

\[ \begin{aligned} \frac{n}{T^{2}} &=\left((\bar{Y}-\Sigma)^{\prime} \widehat{\Sigma}^{-1}(\bar{Y}-\Sigma)\right)^{-1} \\ & \sim \frac{\chi_{n-1-m+1}^{2}}{(\bar{Y}-\mu)^{\prime}\left(\frac{1}{n-1} \Sigma\right)^{-1}(\bar{Y}-\mu)} \\ & \sim n(n-1) \frac{\chi_{n-m}^{2}}{\chi_{m}^{2}} \end{aligned} \]

由于两个卡方变量是独立的，因此这是规定的结果。

该结果的一个非常有趣的属性是 \(T^{2}\) 统计量是正态随机变量中的多元二次形式，但它具有精确的 \(F\) 分布。

11.18 练习

练习 11.1 显示 (11.10) 误差何时是条件同方差 (11.8) 的。

练习 11.2 显示 (11.11) 回归量何时在方程 \(X_{j}=X\) 中是通用的。

练习 11.3 显示 (11.12) 回归量在方程 \(X_{j}=X\) 中是常见的，并且误差是有条件同方差的 (11.8)。

练习 11.4 证明定理 11.1。

练习 11.5 显示 (11.13) 回归量何时在方程 \(X_{j}=X\) 中是通用的。

练习 11.6 显示 (11.14) 回归量在方程 \(X_{j}=X\) 中是常见的，并且误差是有条件同方差的 (11.8)。

练习 11.7 证明定理 11.2。

练习 11.8 证明定理 11.3。

练习 \(11.9\) 表明从所描述的步骤可得出 (11.16)。

练习11.10 证明从所描述的步骤可得出(11.17)。

练习 \(11.11\) 证明定理 11.4。练习 11.12 证明定理 11.5。

提示：首先，证明足以证明

\[ \mathbb{E}\left[\bar{X}^{\prime} \bar{X}\right]\left(\mathbb{E}\left[\bar{X}^{\prime} \Sigma^{-1} \bar{X}\right]\right)^{-1} \mathbb{E}\left[\bar{X}^{\prime} \bar{X}\right] \leq \mathbb{E}\left[\bar{X}^{\prime} \Sigma \bar{X}\right] . \]

其次，使用变换 \(U=\Sigma^{1 / 2} \bar{X}\) 和 \(V=\Sigma^{1 / 2} \bar{X}\) 重写该方程，然后应用矩阵柯西-施瓦茨不等式 (B.33)。

练习 11.13 证明定理 11.6。

练习 \(11.14\) 建立模型

\[ \begin{aligned} Y &=\pi^{\prime} \beta+e \\ \pi &=\mathbb{E}[X \mid Z]=\Gamma^{\prime} Z \\ \mathbb{E}[e \mid Z] &=0 \end{aligned} \]

其中 \(Y\) 是标量，\(X\) 是 \(k\) 向量，\(Z\) 是 \(\ell\) 向量。 \(\beta\) 和 \(\pi\) 是 \(k \times 1\)，\(\Gamma\) 是 \(Y\)。样本为 \(Y\)，未观察到 \(Y\)。

考虑 \(\beta\) 的估计量 \(\widehat{\beta}\)，通过 \(\widehat{\pi}=\widehat{\Gamma}^{\prime} Z\) 上 \(Y\) 的 OLS，其中 \(\widehat{\Gamma}\) 是 \(Z\) 上 \(X\) 多元回归的 OLS 系数。

表明 \(\widehat{\beta}\) 与 \(\beta\) 一致。
假定 \(\beta=0\)，求渐近分布 \(\sqrt{n}(\widehat{\beta}-\beta)\) 作为 \(n \rightarrow \infty\)。
为什么假设 \(\beta=0\) 是 (b) 部分中的重要简化条件？
使用 (c) 中的结果为假设 \(\mathbb{H}_{0}: \beta=0\) 构建适当的渐近检验。

练习 \(11.15\) 观测值独立同分布，\(\left(Y_{1 i}, Y_{2 i}, X_{i}: i=1, \ldots, n\right)\)。因变量 \(Y_{1}\) 和 \(Y_{2}\) 是实值。回归量 \(X\) 是 \(k\) 向量。模型为二元方程组

\[ \begin{aligned} Y_{1} &=X^{\prime} \beta_{1}+e_{1} \\ \mathbb{E}\left[X e_{1}\right] &=0 \\ Y_{2} &=X^{\prime} \beta_{2}+e_{2} \\ \mathbb{E}\left[X e_{2}\right] &=0 . \end{aligned} \]

\(\beta_{1}\) 和 \(\beta_{2}\) 的适当估计量 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 是什么？
求 \(\widehat{\beta}_{1}\) 和 \(\widehat{\beta}_{2}\) 的联合渐近分布。
描述 \(\mathbb{H}_{0}: \beta_{1}=\beta_{2}\) 的测试。