第5章: 正态回归

5 正态回归

5.1 介绍

本章介绍正态回归模型,它是线性回归模型的特例。这很重要,因为正态性可以实现精确的分布特征和敏锐的推论。它还提供了与渐近近似和自举等替代推理方法进行比较的基线。

正态回归模型是一个完全参数化的设置,其中最大似然估计是合适的。因此,本章我们介绍似然法。最大似然法是参数模型(如正态回归模型)的一种强大的统计方法,广泛应用于计量经济学实践中。

本章首先回顾正态分布的定义和属性。有关详细信息和数学证明,请参阅《经济学家的概率与统计》第五章。

5.2 正态分布

我们说随机变量 \(Z\) 具有标准正态分布,或高斯分布,写作 \(Z \sim\) \(\mathrm{N}(0,1)\),如果它具有密度

\[ \phi(x)=\frac{1}{\sqrt{2 \pi}} \exp \left(-\frac{x^{2}}{2}\right), \quad-\infty<x<\infty . \]

标准正态密度通常用符号 \(\phi(x)\) 表示,相应的分布函数用 \(\Phi(x)\) 表示。标准正态密度函数 \(\phi(x)\) 和分布函数 \(\Phi(x)\) 的图如图 5.1 所示。

  1. 正常密度

  1. 正态分布

图 5.1:标准正态密度和分布

定理 5.1 如果 \(Z \sim \mathrm{N}(0,1)\) 那么

  1. \(Z\) 的所有整数矩都是有限的。

  2. \(Z\) 的所有奇矩都等于 0 。

  3. 对于任意正整数\(m\)

\[ \mathbb{E}\left[Z^{2 m}\right]=(2 m-1) ! !=(2 m-1) \times(2 m-3) \times \cdots \times 1 . \]

  1. 对于任何 \(r>0\)

\[ \mathbb{E}|Z|^{r}=\frac{2^{r / 2}}{\sqrt{\pi}} \Gamma\left(\frac{r+1}{2}\right) \]

其中 \(\Gamma(t)=\int_{0}^{\infty} u^{t-1} e^{-u} d u\) 是伽玛函数。

如果 \(Z \sim \mathrm{N}(0,1)\)\(X=\mu+\sigma Z\) 对应于 \(\mu \in \mathbb{R}\)\(\sigma \geq 0\),则 \(X\) 具有单变量正态分布,写作 \(X \sim \mathrm{N}\left(\mu, \sigma^{2}\right)\)。通过变量的变化 \(X\) 有密度

\[ f(x)=\frac{1}{\sqrt{2 \pi \sigma^{2}}} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right), \quad-\infty<x<\infty . \]

\(X\) 的期望和方差分别为 \(\mu\)\(\sigma^{2}\)

正态分布及其相关分布(卡方、学生 t、F、非中心卡方和 F)经常用于计算临界值和 \(\mathrm{p}\) 值的推理。这涉及评估正态 cdf \(\Phi(x)\) 及其逆。由于 cdf \(\Phi(x)\) 不提供封闭形式,统计教科书传统上为此提供了表格。目前尚未使用此类表格,因为这些计算已嵌入现代统计软件中。为了方便起见,我们列出了 MATLAB、R 和 Stata 中的相应命令来计算常用统计分布的累积分布函数。

这里我们列出了计算相同分布的逆概率(分位数)的适当命令。

To calculate \(x\) which solves \(p=\mathbb{P}[Z \leq x]\) for given \(p\)
\(\mathrm{N}(0,1)\) MATLAB \(\mathrm{R}\) Stata
\(\operatorname{norminv}(\mathrm{p})\) \(\mathrm{qnorm}(\mathrm{p})\) invnormal \((\mathrm{p})\)
\(t_{r}\) \(\operatorname{tinv}(\mathrm{p}, \mathrm{r})\) \(\mathrm{qchisq}(\mathrm{p}, \mathrm{r})\) invchi2 \((\mathrm{r}, \mathrm{p})\)
\(F_{r, k}\) \(\mathrm{finv}(\mathrm{p}, \mathrm{r}, \mathrm{k})\) \(\mathrm{qf}(\mathrm{p}, \mathrm{r}, \mathrm{k})\) invttail \((\mathrm{r}, 1-\mathrm{p})\)
\(\chi_{r}^{2}(d)\) \(\mathrm{ncx2inv}(\mathrm{p}, \mathrm{r}, \mathrm{d})\) \(\mathrm{qchisq}(\mathrm{p}, \mathrm{r}, \mathrm{d})\) invnchi2 \((\mathrm{r}, \mathrm{d}, \mathrm{p})\)
\(F_{r, k}(d)\) \(\mathrm{ncfinv}(\mathrm{p}, \mathrm{r}, \mathrm{k}, \mathrm{d})\) \(\mathrm{qf}(\mathrm{p}, \mathrm{r}, \mathrm{k}, \mathrm{d})\) invnFtail \((\mathrm{r}, \mathrm{k}, \mathrm{d}, 1-\mathrm{p})\)

5.3 多元正态分布

我们说 \(k\)-向量 \(Z\) 具有多元标准正态分布,写作 \(Z \sim \mathrm{N}\left(0, \boldsymbol{I}_{k}\right)\),如果它具有联合密度

\[ f(x)=\frac{1}{(2 \pi)^{k / 2}} \exp \left(-\frac{x^{\prime} x}{2}\right), \quad x \in \mathbb{R}^{k} \]

\(Z\) 的均值和协方差矩阵分别为 0 和 \(\boldsymbol{I}_{k}\)。多变量联合密度因式分解为单变量正态密度的乘积,因此 \(Z\) 的元素是相互独立的标准正态。如果 \(Z \sim \mathrm{N}\left(0, \boldsymbol{I}_{k}\right)\)\(X=\mu+\boldsymbol{B} Z\),则 \(k\) 向量 \(X\) 具有多元正态分布,写作 \(X \sim \mathrm{N}(\mu, \Sigma)\) 其中 \(\Sigma=\boldsymbol{B} \boldsymbol{B}^{\prime} \geq 0\)。如果 \(Z\) 则通过变量更改 \(Z\) 具有联合密度函数

\[ f(x)=\frac{1}{(2 \pi)^{k / 2} \operatorname{det}(\Sigma)^{1 / 2}} \exp \left(-\frac{(x-\mu)^{\prime} \Sigma^{-1}(x-\mu)}{2}\right), \quad x \in \mathbb{R}^{k} . \]

\(X\) 的期望矩阵和协方差矩阵分别为 \(\mu\)\(\Sigma\)。通过设置 \(k=1\) 您可以检查多元正态是否简化为单变量正态。

正态随机向量的一个重要属性是仿射函数是多元正态的。

定理 5.2 如果 \(X \sim \mathrm{N}(\mu, \Sigma)\)\(Y=\boldsymbol{a}+\boldsymbol{B} X\),则 \(Y \sim \mathrm{N}\left(\boldsymbol{a}+\boldsymbol{B} \mu, \boldsymbol{B} \Sigma \boldsymbol{B}^{\prime}\right)\)

定理 \(5.2\) 的一个简单含义是,如果 \(X\) 是多元正态分布,那么 \(X\) 的每个分量都是单变量正态分布。

多元正态分布的另一个有用的属性是不相关性与独立性相同。也就是说,如果向量是多元正态向量,则变量子集当且仅当它们不相关时才是独立的。

定理 5.3 多元正态分布的性质

  1. \(X \sim \mathrm{N}(\mu, \Sigma)\) 的期望矩阵和协方差矩阵为 \(\mathbb{E}[X]=\mu\)\(\operatorname{var}[X]=\Sigma\)

  2. 如果 \((X, Y)\) 是多元正态分布,则 \(X\)\(Y\) 不相关当且仅当它们是独立的。

  3. 如果 \(X \sim \mathrm{N}(\mu, \Sigma)\)\(Y=\boldsymbol{a}+\boldsymbol{B} X\),则 \(Y \sim \mathrm{N}\left(\boldsymbol{a}+\boldsymbol{B} \mu, \boldsymbol{B} \Sigma \boldsymbol{B}^{\prime}\right)\)

  4. 如果 \(X \sim \mathrm{N}\left(0, \boldsymbol{I}_{k}\right)\)\(X^{\prime} X \sim \chi_{k}^{2}\),自由度为 \(k\) 的卡方。

  5. 如果 \(X \sim \mathrm{N}(0, \Sigma)\)\(\Sigma>0\)\(X^{\prime} \Sigma^{-1} X \sim \chi_{k}^{2}\) 其中 \(k=\operatorname{dim}(X)\)

  6. 如果 \(X \sim \mathrm{N}(\mu, \Sigma)\)\(\Sigma>0, r \times r\),则 \(X^{\prime} \Sigma^{-1} X \sim \chi_{r}^{2}(\lambda)\) 其中 \(\lambda=\mu^{\prime} \Sigma^{-1} \mu\)

  7. 如果 \(Z \sim \mathrm{N}(0,1)\)\(Q \sim \chi_{k}^{2}\) 独立,则 \(Z / \sqrt{Q / k} \sim t_{k}\),学生 t 具有 \(k\) 自由度。

  8. 如果 \((Y, X)\) 是多元正态分布

\[ \left(\begin{array}{l} Y \\ X \end{array}\right) \sim \mathrm{N}\left(\left(\begin{array}{l} \mu_{Y} \\ \mu_{X} \end{array}\right),\left(\begin{array}{cc} \Sigma_{Y Y} & \Sigma_{Y X} \\ \Sigma_{X Y} & \Sigma_{X X} \end{array}\right)\right) \]

对于 \(\Sigma_{Y Y}>0\)\(\Sigma_{X X}>0\),则条件分布为

\[ \begin{aligned} &Y \mid X \sim \mathrm{N}\left(\mu_{Y}+\Sigma_{Y X} \Sigma_{X X}^{-1}\left(X-\mu_{X}\right), \Sigma_{Y Y}-\Sigma_{Y X} \Sigma_{X X}^{-1} \Sigma_{X Y}\right) \\ &X \mid Y \sim \mathrm{N}\left(\mu_{X}+\Sigma_{X Y} \Sigma_{Y Y}^{-1}\left(Y-\mu_{Y}\right), \Sigma_{X X}-\Sigma_{X Y} \Sigma_{Y Y}^{-1} \Sigma_{Y X}\right) . \end{aligned} \]

5.4 联合正态性和线性回归

给定 \(X\) 假设变量 \((Y, X)\) 呈联合正态分布。考虑 \(Y\) 的最佳线性预测器

\[ Y=X^{\prime} \beta+\alpha+e . \]

根据最佳线性预测器 \(\mathbb{E}[X e]=0\)\(\mathbb{E}[e]=0\) 的属性,因此 \(X\)\(e\) 不相关。由于 \((e, X)\) 是法线向量 \((Y, X)\) 的仿射变换,因此 \((e, X)\) 是联合法线(定理 5.2)。由于 \((e, X)\) 是联合正态且不相关的,因此它们是独立的(定理 5.3)。独立性意味着

\[ \mathbb{E}[e \mid X]=\mathbb{E}[e]=0 \]

\[ \mathbb{E}\left[e^{2} \mid X\right]=\mathbb{E}\left[e^{2}\right]=\sigma^{2} \]

这是同方差线性 CEF 的属性。

我们已经证明,当 \((Y, X)\) 联合正态分布时,它们满足正态线性 CEF

\[ Y=X^{\prime} \beta+\alpha+e \]

在哪里

\[ e \sim \mathrm{N}\left(0, \sigma^{2}\right) \]

独立于 \(X\)。这个结果也可以从定理5.3.7推导出来。

这是线性回归模型的经典动机。

5.5 正态回归模型

正态回归模型是具有独立正态误差的线性回归模型

\[ \begin{gathered} Y=X^{\prime} \beta+e \\ e \sim \mathrm{N}\left(0, \sigma^{2}\right) . \end{gathered} \]

正如我们在第 5.4 节中了解到的,当 \((Y, X)\) 联合正态分布时,正态回归模型成立。然而,正态回归不需要联合正态性。所需要的只是给定 \(X\)\(Y\) 的条件分布是正态的(\(X\) 的边际分布不受限制)。从这个意义上说,正态回归模型比联合正态性更广泛。请注意,为了符号方便,我们编写了 (5.1),以便 \(X\) 包含截距。

正态回归是一种参数模型,其中似然法可用于估计、测试和分布理论。似然度是数据联合概率密度的名称,在观察到的样本中进行评估,并被视为参数的函数。最大似然估计量是使该似然函数最大化的值。现在让我们推导正态回归模型的似然度。

首先,观察模型 (5.1) 等价于给定 \(X\) 的情况下 \(Y\) 的条件密度采用以下形式

\[ f(y \mid x)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left(-\frac{1}{2 \sigma^{2}}\left(y-x^{\prime} \beta\right)^{2}\right) \]

假设观测值相互独立,这意味着给定 \(\left(X_{1}, \ldots, X_{n}\right)\)\(\left(Y_{1}, \ldots, Y_{n}\right)\) 的条件密度为

\[ \begin{aligned} f\left(y_{1}, \ldots, y_{n} \mid x_{1}, \ldots, x_{n}\right) &=\prod_{i=1}^{n} f\left(y_{i} \mid x_{i}\right) \\ &=\prod_{i=1}^{n} \frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left(-\frac{1}{2 \sigma^{2}}\left(y_{i}-x_{i}^{\prime} \beta\right)^{2}\right) \\ &=\frac{1}{\left(2 \pi \sigma^{2}\right)^{n / 2}} \exp \left(-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(y_{i}-x_{i}^{\prime} \beta\right)^{2}\right) \\ & \stackrel{\operatorname{def}}{=} L_{n}\left(\beta, \sigma^{2}\right) . \end{aligned} \]

当对样本数据进行评估时,这称为似然函数。

为了方便起见,通常使用自然对数

\[ \log L_{n}\left(\beta, \sigma^{2}\right)=-\frac{n}{2} \log \left(2 \pi \sigma^{2}\right)-\frac{1}{2 \sigma^{2}} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \beta\right)^{2} \stackrel{\text { def }}{=} \ell_{n}\left(\beta, \sigma^{2}\right) \]

这称为对数似然函数。

最大似然估计 (MLE) \(\left(\widehat{\beta}_{\mathrm{mle}}, \widehat{\sigma}_{\mathrm{mle}}^{2}\right)\) 是使对数似然最大化的值。我们可以将最大化问题写为

\[ \left(\widehat{\beta}_{\mathrm{mle}}, \widehat{\sigma}_{\mathrm{mle}}^{2}\right)=\underset{\beta \in \mathbb{R}^{k}, \sigma^{2}>0}{\operatorname{argmax}} \ell_{n}\left(\beta, \sigma^{2}\right) . \]

在大多数最大似然应用中,必须通过数值方法找到 MLE。然而,在正常回归模型的情况下,我们可以找到 \(\widehat{\beta}_{\text {mle }}\)\(\widehat{\sigma}_{\text {mle }}^{2}\) 的显式表达式。

(5.3) 的最大化器 \(\left(\widehat{\beta}_{\text {mle }}, \widehat{\sigma}_{\text {mle }}^{2}\right)\) 共同求解一阶条件 (FOC)

\[ \begin{aligned} &0=\left.\frac{\partial}{\partial \beta} \ell_{n}\left(\beta, \sigma^{2}\right)\right|_{\beta=\widehat{\beta}_{\mathrm{mle}}, \sigma^{2}=\widehat{\sigma}_{\mathrm{mle}}^{2}}=\frac{1}{\widehat{\sigma}_{\mathrm{mle}}^{2}} \sum_{i=1}^{n} X_{i}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{mle}}\right) \\ &0=\left.\frac{\partial}{\partial \sigma^{2}} \ell_{n}\left(\beta, \sigma^{2}\right)\right|_{\beta=\widehat{\beta}_{\mathrm{mle}}, \sigma^{2}=\widehat{\sigma}_{\mathrm{mle}}^{2}}=-\frac{n}{2 \widehat{\sigma}_{\mathrm{mle}}^{2}}+\frac{1}{2 \widehat{\sigma}_{\mathrm{mle}}^{4}} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{mle}}\right)^{2} . \end{aligned} \]

第一个 FOC (5.4) 与第 3.6 节的最小二乘最小化问题的一阶条件成比例。由此可见 MLE 满足

\[ \widehat{\beta}_{\mathrm{mle}}=\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} Y_{i}\right)=\widehat{\beta}_{\mathrm{ols}} . \]

也就是说,\(\beta\) 的 MLE 在代数上与 OLS 估计器相同。

求解 \(\widehat{\sigma}_{\mathrm{mle}}^{2}\) 的第二个 FOC (5.5),我们发现

\[ \widehat{\sigma}_{\mathrm{mle}}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{mle}}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{ols}}\right)^{2}=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i}^{2}=\widehat{\sigma}_{\mathrm{ols}}^{2} \]

因此 \(\sigma^{2}\) 的 MLE 与 (3.26) 中的 OLS/矩估计器相同。

由于 OLS 估计量和正态性下的 MLE 是等效的,因此一些作者将 \(\widehat{\beta}\) 描述为最大似然估计量,而其他作者则将其描述为最小二乘估计量。然而,重要的是要记住,只有当误差 \(e\) 具有已知的正态分布时,\(\widehat{\beta}\) 才是 MLE,否则不是。

将估计量代入 (5.2),我们获得最大对数似然

\[ \ell_{n}\left(\widehat{\beta}_{\text {mle }}, \widehat{\sigma}_{\text {mle }}^{2}\right)=-\frac{n}{2} \log \left(2 \pi \widehat{\sigma}_{\text {mle }}^{2}\right)-\frac{n}{2} . \]

对数似然通常被报告为拟合度的度量。

尽管出于完全不同的动机,MLE \(\widehat{\beta}_{\mathrm{mle}}\) 在代数上等于 OLS 估计器,这似乎令人惊讶。这并不完全是偶然的。最小二乘估计器最小化特定样本损失函数(误差平方和标准),并且大多数损失函数相当于特定参数分布的可能性,在本例中为正态回归模型。从这个意义上说,最小二乘估计器可以被激发为样本损失函数的最小化器或似然函数的最大化器,这并不奇怪。

5.6 OLS系数向量的分布

在正态线性回归模型中,我们可以导出 OLS/MLE 估计器、残差和方差估计器的精确采样分布。在本节中,我们推导 OLS 系数估计器的分布。

正态性假设 \(e \mid X \sim \mathrm{N}\left(0, \sigma^{2}\right)\) 与观测值的独立性相结合具有多元含义

\[ \boldsymbol{e} \mid \boldsymbol{X} \sim \mathrm{N}\left(0, \boldsymbol{I}_{n} \sigma^{2}\right) . \]

也就是说,误差向量 \(\boldsymbol{e}\) 独立于 \(\boldsymbol{X}\) 并且呈正态分布。

回想一下,OLS 估计器满足

\[ \widehat{\beta}-\beta=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{e} \]

这是 \(\boldsymbol{e}\) 的线性函数。由于法线的线性函数也是法线的(定理 5.2),这意味着以 \(\boldsymbol{X}\) 为条件,

\[ \begin{aligned} \widehat{\beta}-\beta \mid \boldsymbol{X} \sim\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \mathrm{N}\left(0, \boldsymbol{I}_{n} \sigma^{2}\right) \\ & \sim \mathrm{N}\left(0, \sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) \\ =\mathrm{N}\left(0, \sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) . \end{aligned} \]

这表明在正态误差假设下,OLS 估计量具有精确的正态分布。

定理5.4 在正态回归模型中,

\[ \widehat{\beta} \mid \boldsymbol{X} \sim \mathrm{N}\left(\beta, \sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right) . \]

定理 \(5.2\)\(5.4\) 意味着 OLS 估计器的任何仿射函数也呈正态分布,包括各个分量。令 \(\beta_{j}\)\(\widehat{\beta}_{j}\) 表示 \(\beta\)\(\widehat{\beta}\)\(j^{t h}\) 元素,我们有

\[ \widehat{\beta}_{j} \mid \boldsymbol{X} \sim \mathrm{N}\left(\beta_{j}, \sigma^{2}\left[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right]_{j j}\right) \]

定理 \(5.4\) 是关于条件分布的陈述。那么无条件分配呢?在 \(4.7\) 节中,我们提出了关于联合正态回归模型矩存在性的 Kinal 定理。我们在此重申结果。

定理 5.5 Kinal (1980) 如果 \((Y, X)\) 是联合正规的,则对于任何 \(r, \mathbb{E}\|\widehat{\beta}\|^{r}<\) \(\infty\) 当且仅当 \(r<n-k+1\)

5.7 OLS残差向量的分布

考虑 OLS 残差向量。回想一下 (3.24) 中的 \(\widehat{\boldsymbol{e}}=\boldsymbol{M} \boldsymbol{e}\) 其中 \(\boldsymbol{M}=\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime}\)。这表明 \(\widehat{\boldsymbol{e}}\)\(\boldsymbol{e}\) 中是线性的。因此以 \(\boldsymbol{X}\) 为条件

\[ \widehat{\boldsymbol{e}}=\boldsymbol{M} \boldsymbol{e} \mid \boldsymbol{X} \sim \mathrm{N}\left(0, \sigma^{2} \boldsymbol{M} \boldsymbol{M}\right)=\mathrm{N}\left(0, \sigma^{2} \boldsymbol{M}\right) \]

最终的等式,因为 \(M\) 是幂等的(参见第 3.12 节)。这表明残差向量具有精确的正态分布。

此外,找到 \(\widehat{\beta}\)\(\widehat{\boldsymbol{e}}\) 的联合分布也很有用。最简单的方法是将两者写为误差 \(\boldsymbol{e}\) 的堆叠线性函数。的确,

\[ \left(\begin{array}{c} \widehat{\beta}-\beta \\ \widehat{\boldsymbol{e}} \end{array}\right)=\left(\begin{array}{c} \left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{e} \\ \boldsymbol{M} \boldsymbol{e} \end{array}\right)=\left(\begin{array}{c} \left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \\ \boldsymbol{M} \end{array}\right) \boldsymbol{e} \]

这是 \(\boldsymbol{e}\) 的线性函数。该向量具有协方差矩阵的联合正态分布

\[ \left(\begin{array}{cc} \sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} & 0 \\ 0 & \sigma^{2} \boldsymbol{M} \end{array}\right) \]

非对角线块为零,因为 \(\boldsymbol{X}^{\prime} \boldsymbol{M}=0\) 来自 (3.21)。由于该值为零,因此 \(\widehat{\beta}\)\(\widehat{\boldsymbol{e}}\) 在统计上是独立的(定理 5.3.2)。定理 5.6 在正态回归模型中,\(\widehat{\boldsymbol{e}} \mid \boldsymbol{X} \sim \mathrm{N}\left(0, \sigma^{2} \boldsymbol{M}\right)\)\(\widehat{\beta}\) 无关。

\(\widehat{\beta}\)\(\widehat{\boldsymbol{e}}\) 是独立的这一事实意味着 \(\widehat{\beta}\) 独立于残差向量的任何函数,包括各个残差 \(\widehat{e}_{i}\) 以及方差估计器 \(s^{2}\)\(\widehat{\sigma}^{2}\)

5.8 方差估计器的分布

接下来,考虑 (4.31) 中的方差估计器 \(s^{2}\)。使用(3.28)它满足\((n-k) s^{2}=\widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}=\boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e}\)\(\boldsymbol{M}\)(方程 (A.4))的谱分解为 \(\boldsymbol{M}=\boldsymbol{H} \Lambda \boldsymbol{H}^{\prime}\),其中 \(\boldsymbol{H}^{\prime} \boldsymbol{H}=\boldsymbol{I}_{n}\)\(\Lambda\) 是对角线,\(\boldsymbol{M}\) 的特征值位于对角线上。由于 \(\boldsymbol{M}\) 是幂等的,等级 \(n-k\) (参见第 3.12 节),它的 \(s^{2}\) 特征值等于 1 , \(s^{2}\) 特征值等于 0 ,所以

\[ \Lambda=\left[\begin{array}{cc} \boldsymbol{I}_{n-k} & \mathbf{0} \\ \mathbf{0} & \mathbf{0}_{k} \end{array}\right] . \]

\(\boldsymbol{u}=\boldsymbol{H}^{\prime} \boldsymbol{e} \sim \mathrm{N}\left(\mathbf{0}, \boldsymbol{I}_{n} \sigma^{2}\right)\) (参见练习 5.2)并对 \(\boldsymbol{u}=\left(\boldsymbol{u}_{1}^{\prime}, \boldsymbol{u}_{2}^{\prime}\right)^{\prime}\) 进行分区,其中 \(\boldsymbol{u}_{1} \sim \mathrm{N}\left(0, \boldsymbol{I}_{n-k} \sigma^{2}\right)\)。然后

\[ \begin{aligned} (n-k) s^{2} &=\boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e} \\ &=\boldsymbol{e}^{\prime} \boldsymbol{H}\left[\begin{array}{cc} \boldsymbol{I}_{n-k} & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{array}\right] \boldsymbol{H}^{\prime} \boldsymbol{e} \\ &=\boldsymbol{u}^{\prime}\left[\begin{array}{cc} \boldsymbol{I}_{n-k} & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{array}\right] \boldsymbol{u} \\ &=\boldsymbol{u}_{1}^{\prime} \boldsymbol{u}_{1} \\ & \sim \sigma^{2} \chi_{n-k}^{2} . \end{aligned} \]

我们看到,在正态回归模型中,\(s^{2}\) 的精确分布是按比例缩放的卡方。

由于 \(\widehat{\boldsymbol{e}}\) 独立于 \(\widehat{\beta}\),因此 \(s^{2}\) 也独立于 \(\widehat{\beta}\)

定理5.7 在正态回归模型中,

\[ \frac{(n-k) s^{2}}{\sigma^{2}} \sim \chi_{n-k}^{2} \]

并且独立于\(\widehat{\beta}\)

5.9 t统计量

(5.7) 的另一种写法是

\[ \frac{\widehat{\beta}_{j}-\beta_{j}}{\sqrt{\sigma^{2}\left[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right]_{j j}}} \sim \mathrm{N}(0,1) . \]

有时这被称为标准化统计量,因为分布是标准正态分布。

现在采用标准化统计量,并将未知方差 \(\sigma^{2}\) 替换为其估计量 \(s^{2}\)。我们称之为 t 比率或 t 统计量

\[ T=\frac{\widehat{\beta}_{j}-\beta_{j}}{\sqrt{s^{2}\left[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right]_{j j}}}=\frac{\widehat{\beta}_{j}-\beta_{j}}{s\left(\widehat{\beta}_{j}\right)} \]

其中 \(s\left(\widehat{\beta}_{j}\right)\) 是 (4.42) 中 \(\widehat{\beta}_{j}\) 的经典(同方差)标准误差。我们有时会将 t 统计量写为 \(T\left(\beta_{j}\right)\) 来明确指示其对参数值 \(\beta_{j}\) 的依赖性,有时会简化符号并将 \(\mathrm{t}\) 统计量写为 \(T\) 当从上下文中可以清楚地看出依赖性时。

通过代数重缩放,我们可以将 t 统计量写为标准化统计量与缩放方差估计量的平方根之比。由于这两个分量的分布分别是正态分布和卡方分布,并且是独立的,因此我们推断 t 统计量具有以下分布

\[ \begin{aligned} T &=\frac{\widehat{\beta}_{j}-\beta_{j}}{\sqrt{\sigma^{2}\left[\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\right]_{j j}}} / \sqrt{\frac{(n-k) s^{2}}{\sigma^{2}} /(n-k)} \\ & \sim \frac{\mathrm{N}(0,1)}{\sqrt{\chi_{n-k}^{2} /(n-k)}} \\ & \sim t_{n-k} \end{aligned} \]

具有 \(n-k\) 自由度的学生 \(t\) 分布。

该推导表明 t 比率具有仅取决于数量 \(n-k\) 的抽样分布。该分布不依赖于数据的任何其他特征。在这种情况下,我们说 t 比的分布是关键的,这意味着它不依赖于未知数。

这个结果背后的技巧是通过其标准误差缩放中心系数,并认识到每个系数仅通过缩放依赖于未知的 \(\sigma\)。因此两者的比率不依赖于\(\sigma\)。这种技巧(通过缩放来消除对未知数的依赖)被称为学生化。

定理 5.8 在正态回归模型中,\(T \sim t_{n-k}\)

关于定理 \(5.8\) 的一个重要警告是,它仅适用于使用同方差(老式)标准误构造的 t 统计量。它不适用于使用任何稳健标准误构建的 t 统计量。事实上,即使回归误差是独立的 \(\mathrm{N}\left(0, \sigma^{2}\right)\),稳健的 t 统计量也可以具有与 \(t_{n-k}\) 有很大偏差的有限样本分布。因此,定理 \(5.8\) 中的分布结果以及有限样本中 t 分布的使用只有在应用于正态性假设下的经典 t 统计量时才是准确的。

5.10 回归系数的置信区间

OLS 估计器 \(\widehat{\beta}\) 是系数 \(\beta\) 的点估计器。更广泛的概念是集合或区间估计器,其形式为 \(\widehat{C}=[\widehat{L}, \widehat{U}]\)。区间估计器 \(\widehat{C}\) 的目标是包含真实值,例如\(\beta \in \widehat{C}\),概率很高。

区间估计器 \(\widehat{C}\) 是数据的函数,因此是随机的。当 \(\mathbb{P}[\beta \in \widehat{C}]=1-\alpha\)\(\alpha\) 的选定值时,区间估计器 \(\widehat{C}\) 称为 \(1-\alpha\) 置信区间。值 \(1-\alpha\) 称为覆盖概率。覆盖概率 \(1-\alpha\) 的典型选择是 \(0.95\)\(0.90\)

概率计算 \(\mathbb{P}[\beta \in \widehat{C}]\) 很容易被误解为将 \(\beta\) 视为随机,将 \(\widehat{C}\) 视为固定。 (\(\beta\) 位于 \(\widehat{C}\) 中的概率。)这不是正确的解释。相反,正确的解释是概率 \(\mathbb{P}[\beta \in \widehat{C}]\) 将点 \(\beta\) 视为固定点,并将集合 \(\widehat{C}\) 视为随机。它是随机集 \(\widehat{C}\) 覆盖(或包含)固定真实系数 \(\mathbb{P}[\beta \in \widehat{C}]\) 的概率。

没有唯一的方法来构建置信区间。例如,一个简单(但愚蠢)的间隔是

\[ \widehat{C}=\left\{\begin{array}{cc} \mathbb{R} & \text { with probability } 1-\alpha \\ \{\widehat{\beta}\} & \text { with probability } \alpha . \end{array}\right. \]

如果 \(\widehat{\beta}\) 具有连续分布,则通过构造 \(\mathbb{P}[\beta \in \widehat{C}]=1-\alpha\),因此该置信区间具有完美的覆盖范围。然而,\(\widehat{C}\) 没有提供有关 \(\widehat{\beta}\) 的信息,因此没有用处。

相反,回归系数 \(\beta\) 的置信区间的一个不错选择是通过从估计器 \(\widehat{\beta}\) 中添加和减去其标准误差的固定倍数来获得:

\[ \widehat{C}=[\widehat{\beta}-c \times s(\widehat{\beta}), \quad \widehat{\beta}+c \times s(\widehat{\beta})] \]

其中 \(c>0\) 是预先指定的常量。该置信区间关于点估计器 \(\widehat{\beta}\) 对称,其长度与标准误差 \(s(\widehat{\beta})\) 成正比。

同样,\(\widehat{C}\)\(\beta\) 的参数值集合,使得 t 统计量 \(T(\beta)\) 小于(绝对值)\(c\),即

\[ \widehat{C}=\{\beta:|T(\beta)| \leq c\}=\left\{\beta:-c \leq \frac{\widehat{\beta}-\beta}{s(\widehat{\beta})} \leq c\right\} . \]

该置信区间的覆盖概率为

\[ \begin{aligned} \mathbb{P}[\beta \in \widehat{C}] &=\mathbb{P}[|T(\beta)| \leq c] \\ &=\mathbb{P}[-c \leq T(\beta) \leq c] . \end{aligned} \]

由于 t 统计量 \(T(\beta)\) 具有 \(t_{n-k}\) 分布,因此 (5.9) 等于 \(F(c)-F(-c)\),其中 \(F(u)\) 是具有 \(n-k\) 自由度的学生 \(t\) 分布函数。由于\(F(-c)=1-F(c)\)(参见练习5.8),我们可以将(5.9)写为

\[ \mathbb{P}[\beta \in \widehat{C}]=2 F(c)-1 . \]

这是区间 \(\widehat{C}\) 的覆盖概率,仅取决于常数 \(c\)

正如我们之前提到的,置信区间的覆盖概率为 \(1-\alpha\)。这需要选择常数 \(c\) 以便 \(F(c)=1-\alpha / 2\)。如果 \(c\) 等于 \(t_{n-k}\) 分布的 \(1-\alpha / 2\) 分位数,则此成立。由于这些分位数没有闭合形式表达式,我们以数字方式计算它们的值。例如,在 MATLAB 中通过tinv(1-alpha/2,n-k)。通过此选择,置信区间 (5.8) 具有精确的覆盖概率 \(1-\alpha\)。默认情况下,Stata 使用相同的公式报告每个估计回归系数的 \(95 %\) 置信区间 \(\widehat{C}\)

定理 5.9 在正态回归模型中,\(c=F^{-1}(1-\alpha / 2)\) 的 (5.8) 具有覆盖概率 \(\mathbb{P}[\beta \in \widehat{C}]=1-\alpha\)。当自由度很大时,学生 \(t\) 和正态分布之间的区别可以忽略不计。特别是,对于 \(n-k \geq 61\),我们有 \(c \leq 2.00\)\(95 %\) 区间。使用这个值,我们获得了应用计量经济学实践中最常用的置信区间:

\[ \widehat{C}=[\widehat{\beta}-2 s(\widehat{\beta}), \quad \widehat{\beta}+2 s(\widehat{\beta})] . \]

这是一个有用的经验法则。这个 \(95 %\) 置信区间 \(\widehat{C}\) 计算起来很简单,并且可以根据系数估计和标准误差轻松计算出来。

定理 5.10 在正态回归模型中,如果 \(n-k \geq 61\) 则 (5.10) 的覆盖概率为 \(\mathbb{P}[\beta \in \widehat{C}] \geq 0.95\)

置信区间是评估估计不确定性的简单而有效的工具。在阅读一组经验结果时,请查看估计系数估计值和标准误差。对于感兴趣的参数,计算置信区间 \(\widehat{C}\) 并考虑建议值的分布的含义。如果置信区间中的值范围太宽而无法了解 \(\beta\),则不要仅根据点估计就得出有关 \(\beta\) 的结论。

5.11 误差方差的置信区间

我们还可以使用定理 5.7 中 \(s^{2}\) 的抽样分布构建回归误差方差 \(\sigma^{2}\) 的置信区间。这表明在正常回归模型中

\[ \frac{(n-k) s^{2}}{\sigma^{2}} \sim \chi_{n-k}^{2} . \]

\(F(u)\) 表示 \(\chi_{n-k}^{2}\) 分布函数,并为某些 \(\alpha\) 设置 \(c_{1}=F^{-1}(\alpha / 2)\)\(c_{2}=F^{-1}(1-\alpha / 2)\)\(\chi_{n-k}^{2}\) 分布的 \(\alpha / 2\)\(1-\alpha / 2\) 分位数)。方程(5.11)意味着

\[ \mathbb{P}\left[c_{1} \leq \frac{(n-k) s^{2}}{\sigma^{2}} \leq c_{2}\right]=F\left(c_{2}\right)-F\left(c_{1}\right)=1-\alpha . \]

重写我们发现的不平等

\[ \mathbb{P}\left[\frac{(n-k) s^{2}}{c_{2}} \leq \sigma^{2} \leq \frac{(n-k) s^{2}}{c_{1}}\right]=1-\alpha . \]

这表明 \(\sigma^{2}\) 的精确 \(1-\alpha\) 置信区间为

\[ \widehat{C}=\left[\frac{(n-k) s^{2}}{c_{2}}, \quad \frac{(n-k) s^{2}}{c_{1}}\right] . \]

定理 5.11 在正态回归模型 (5.12) 中,覆盖概率为 \(\mathbb{P}\left[\sigma^{2} \in \widehat{C}\right]=1-\alpha\)

\(\sigma^{2}\) 的置信区间 (5.12) 关于点估计 \(s^{2}\) 不对称,因为后者的采样分布不对称。

5.12 t检验

计量经济学练习的典型目标是评估系数 \(\beta\) 是否等于特定值 \(\beta_{0}\)。通常要测试的具体值是 \(\beta_{0}=0\),但这不是必需的。这称为假设检验,该主题将在第 9 章中详细探讨。在本节和下文中,我们将针对正态回归模型进行简短介绍。

为简单起见,将要测试的系数写为 \(\beta\)。原假设是

\[ \mathbb{M}_{0}: \beta=\beta_{0} . \]

这表明假设 \(\beta\) 的真实值等于假设值 \(\beta_{0}\)

备择假设是 \(\mathbb{M}_{0}\) 的补集,可写为

\[ \mathbb{H}_{1}: \beta \neq \beta_{0} . \]

这表明 \(\beta\) 的真实值不等于假设值。

我们有兴趣针对 \(\mathbb{M}_{1}\) 测试 \(\mathbb{M}_{0}\)。该方法是设计一个包含 \(\mathbb{M}_{1}\) 信息的统计数据。如果在 \(\mathbb{M}_{0}\) 为真的假设下,统计量的观测值与随机变化一致,那么我们就推断没有证据反对 \(\mathbb{H}_{0}\),因此不会拒绝 \(\mathbb{H}_{0}\)。然而,如果统计量取的值在 \(\mathbb{M}_{0}\) 为真的假设下不太可能出现,那么我们就会推断出有证据反对 \(\mathbb{M}_{0}\),因此我们拒绝 \(\mathbb{M}_{0}\) 而支持 \(\mathbb{M}_{0}\)。主要步骤是设计检验统计量并表征其抽样分布。

测试 \(\mathbb{M}_{0}\)\(\mathbb{M}_{1}\) 的标准统计量是 t 统计量的绝对值

\[ |T|=\left|\frac{\widehat{\beta}-\beta_{0}}{s(\widehat{\beta})}\right| . \]

如果 \(\mathbb{M}_{0}\) 为真,那么我们预计 \(|T|\) 会很小,但如果 \(\mathbb{M}_{1}\) 为真,那么我们预计 \(|T|\) 会很大。因此,对于 t 统计量 \(|T|\) 的较大值,标准规则是拒绝 \(\mathbb{M}_{0}\) 而支持 \(\mathbb{M}_{1}\),否则无法拒绝 \(\mathbb{H}_{0}\)。因此假设检验采用以下形式

\[ \text { Reject } \mathbb{M}_{0} \text { if }|T|>c \text {. } \]

测试语句中出现的常数 \(c\) 称为临界值。选择它的值来控制错误拒绝的概率。当零假设为真时,\(T\) 在正态回归模型中具有精确的 \(t_{n-k}\) 分布。因此,对于给定的 \(c\) 值,错误拒绝的概率为

\[ \begin{aligned} \mathbb{P}\left[\text { Reject } \mathbb{H}_{0} \mid \mathbb{B}_{0}\right] &=\mathbb{P}\left[|T|>c \mid \mathbb{M}_{0}\right] \\ &=\mathbb{P}\left[T>c \mid \mathbb{H}_{0}\right]+\mathbb{P}\left[T<-c \mid \mathbb{M}_{0}\right] \\ &=1-F(c)+F(-c) \\ &=2(1-F(c)) \end{aligned} \]

其中 \(F(u)\)\(t_{n-k}\) 分布函数。这是错误拒绝的概率,并且在临界值 \(c\) 中逐渐减小。我们选择值 \(c\),以便该概率等于称为显着性水平的预选值,通常写为 \(\alpha\)。通常设置 \(\alpha=0.05\),尽管这不是硬性规则。然后,我们选择 \(c\) 以便 \(F(c)=1-\alpha / 2\),这意味着 \(c\)\(F(u)\) 分布的 \(F(u)\) 分位数(逆 CDF),与用于置信区间的相同。通过此选择,决策规则“如果 \(F(u)\) 则拒绝 \(F(u)\)”的显着性水平(错误拒绝概率)为 \(F(u)\)。定理 5.12 在正态回归模型中,如果原假设 (5.13) 为真,则对于 (5.14) \(F(u)\) 中定义的 \(F(u)\)。如果 \(F(u)\) 设置为 \(F(u)\) \(F(u)\),则测试“如果 \(t_{n-k}\) 则拒绝 \(t_{n-k}\) 而支持 \(t_{n-k}\)”具有显着性水平 \(t_{n-k}\)

为了报告假设检验的结果,我们需要预先确定显着性水平 \(\alpha\),以便计算临界值 \(c\)。这可能是不方便且任意的。一种简化方法是报告所谓的检验 p 值。一般来说,当测试采用“如果 \(S>c\) 则拒绝 \(\mathbb{B}_{0}\)”形式且 \(S\) 具有空分布 \(G(u)\) 时,则测试的 p 值为 \(p=1-G(S)\)。显着性水平 \(\alpha\) 的检验可以重述为“如果 \(\alpha\) 则拒绝 \(\mathbb{M}_{0}\)”。报告 p 值 \(\alpha\) 就足够了,我们可以将 \(\alpha\) 的值解释为索引检验拒绝原假设的强度。因此,\(\alpha\)\(\alpha\) 值可能被解释为“几乎显着”,\(\alpha\) 被解释为“临界显着”,而 \(\alpha\) 被解释为“高度显着”。在正态回归模型中,t 统计量 \(\alpha\) 的 p 值为 \(\alpha\),其中 \(\alpha\)\(c\) CDF。例如,在 MATLAB 中,计算为 \(c\)。在 Stata 中,默认情况下,对于任何估计的回归,每个估计系数的 t 统计量都会与其使用相同公式计算的 p 值一起报告。这些 t 统计量检验每个系数为零的假设。

p 值报告针对 \(\mathbb{M}_{0}\) 的证据强度,但其本身并不是概率。一个常见的误解是 p 值是“原假设为真的概率”。这是一个不正确的解释。它是一个统计数据,是随机的,并且是对 \(\mathbb{M}_{0}\) 证据的衡量。而已。

5.13 似然比检验

在上一节中,我们将 t 检验描述为检验回归中单个系数的假设的标准方法。然而,在许多情况下,我们希望同时评估一组系数。在正常回归模型中,这可以通过 \(F\) 测试来完成,该测试可以从似然比测试中得出。

将回归量划分为 \(X=\left(X_{1}^{\prime}, X_{2}^{\prime}\right)\),并类似地将系数向量划分为 \(\beta=\left(\beta_{1}^{\prime}, \beta_{2}^{\prime}\right)^{\prime}\)。回归模型可以写为

\[ Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e . \]

\(k=\operatorname{dim}(X), k_{1}=\operatorname{dim}\left(X_{1}\right)\)\(q=\operatorname{dim}\left(X_{2}\right)\),这样\(k=k_{1}+q\)。划分变量,以便假设第二组系数为零,或者

\[ \mathbb{H}_{0}: \beta_{2}=0 . \]

如果 \(\mathbb{M}_{0}\) 为 true,则可以从回归中省略回归量 \(X_{2}\)。在这种情况下,我们可以将(5.15)写为

\[ Y=X_{1}^{\prime} \beta_{1}+e . \]

我们将(5.17)称为零模型。另一种假设是 \(\beta_{2}\) 中至少有一个元素非零,并写为 \(\mathbb{H}_{1}: \beta_{2} \neq 0\)

当通过最大似然估计模型时,公认的测试程序是对于较大的似然比值(分别是 \(\mathbb{H}_{1}\)\(\mathbb{H}_{0}\) 下的最大化似然函数的比率)拒绝 \(\mathbb{M}_{0}\),而选择 \(\mathbb{M}_{1}\) 。我们现在在正常回归模型中构建此统计量。回想一下 (5.6),最大对数似然等于

\[ \ell_{n}\left(\widehat{\beta}, \widehat{\sigma}^{2}\right)=-\frac{n}{2} \log \left(2 \pi \widehat{\sigma}^{2}\right)-\frac{n}{2} . \]

我们类似地计算约束模型的最大对数似然(5.17)。通过与无约束 MLE 的推导相同的步骤,我们发现 (5.17) 的 MLE 是 \(Y\)\(X_{1}\) 上的 OLS。我们可以将这个估计量写为

\[ \widetilde{\beta}_{1}=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime} \boldsymbol{Y} \]

残差 \(\widetilde{e}_{i}=Y_{i}-X_{1 i}^{\prime} \widetilde{\beta}_{1}\) 和误差方差估计 \(\widetilde{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n} \widetilde{e}_{i}^{2}\)。我们在受约束的估计上方使用波形符“ \(\sim\) ”而不是帽子“ \(\wedge\) ”,以将它们与无约束的估计区分开来。您可以类似于(5.6)计算最大约束对数似然为

\[ \ell_{n}\left(\widetilde{\beta}_{1}, \widetilde{\sigma}^{2}\right)=-\frac{n}{2} \log \left(2 \pi \widetilde{\sigma}^{2}\right)-\frac{n}{2} . \]

一个经典的测试过程是拒绝 \(\mathbb{H}_{0}\) 最大似然比的大值。同样,对于对数似然函数差异两倍的大值,该测试会拒绝 \(\mathbb{H}_{0}\)。 (将似然差乘以二被证明是一个有用的缩放比例。)这等于

\[ \begin{aligned} \mathrm{LR} &=2\left(\ell_{n}\left(\widehat{\beta}, \widehat{\sigma}^{2}\right)-\ell_{n}\left(\widetilde{\beta}_{1}, \widetilde{\sigma}^{2}\right)\right) \\ &=2\left(\left(-\frac{n}{2} \log \left(2 \pi \widehat{\sigma}^{2}\right)-\frac{n}{2}\right)-\left(-\frac{n}{2} \log \left(2 \pi \widetilde{\sigma}^{2}\right)-\frac{n}{2}\right)\right) \\ &=n \log \left(\frac{\widetilde{\sigma}^{2}}{\widehat{\sigma}^{2}}\right) . \end{aligned} \]

对于较大的 LR 值,似然比检验会拒绝 \(\mathbb{H}_{0}\),或者对于较大的 LR 值,同样会拒绝 \(5.10\)(参见练习 \(5.10\)

\[ \mathrm{F}=\frac{\left(\widetilde{\sigma}^{2}-\widehat{\sigma}^{2}\right) / q}{\widehat{\sigma}^{2} /(n-k)} . \]

这称为 \(F\) 统计量,用于检验假设 \(\mathbb{M}_{0}\)\(\mathbb{M}_{1}\)

为了制定适当的临界值,我们需要 \(F\) 的零分布。回想一下 (3.28) 中的 \(n \widehat{\sigma}^{2}=\boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e}\),其中 \(\boldsymbol{M}=\boldsymbol{I}_{n}-\boldsymbol{P}\)\(\boldsymbol{P}=\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime}\)。同样,在 \(\mathbb{H}_{0}, n \widetilde{\sigma}^{2}=\boldsymbol{e}^{\prime} \boldsymbol{M}_{1} \boldsymbol{e}\) 下,其中 \(\boldsymbol{M}=\) \(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\)\(\boldsymbol{P}_{1}=\boldsymbol{X}_{1}\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime}\)。您可以计算出 \(\boldsymbol{M}_{1}-\boldsymbol{M}=\boldsymbol{P}-\boldsymbol{P}_{1}\) 是幂等的,等级为 \(F\)。此外,\(F\)。由此可知 \(F\)\(F\) 无关。因此

\[ \mathrm{F}=\frac{\boldsymbol{e}^{\prime}\left(\boldsymbol{M}_{1}-\boldsymbol{M}\right) \boldsymbol{e} / q}{\boldsymbol{e}^{\prime} \boldsymbol{M} \boldsymbol{e} /(n-k)} \sim \frac{\chi_{q}^{2} / q}{\chi_{n-k}^{2} /(n-k)} \sim F_{q, n-k} \]

精确的 \(F\) 分布,自由度分别为 \(q\)\(n-k\)。因此,在 \(\mathbb{H}_{0}\) 下,\(F\) 统计量具有精确的 \(F\) 分布。

临界值是从 \(F\) 分布的上尾部选择的。对于给定的显着性水平 \(\alpha\) (通常为 \(\alpha=0.05\) ),我们选择临界值 \(c\) 以便 \(\mathbb{P}\left[F_{q, n-k} \geq c\right]=\alpha\) 。例如,在 MATLAB 中,表达式为 \(f \operatorname{inv}(1-\alpha, \mathrm{q}, \mathrm{n}-\mathrm{k})\)。如果 \(F>c\),则测试拒绝 \(\mathbb{M}_{0}\),而支持 \(\mathbb{B}_{1}\),否则不拒绝 \(F\)。检验的 p 值为 \(F\),其中 \(F\)\(F\) 分布函数。在 MATLAB 中,p 值计算为 \(F\)。如果 \(F\)\(F\) 相当于拒绝 \(F\)

在 Stata 中,测试多个系数的命令采用“test X1 X2”的形式,其中 X1 和 X2 是测试其系数的变量的名称。然后,Stata 报告假设系数共同为零的 F 统计量以及使用 \(F\) 分布计算的 p 值。

定理 5.13 在正态回归模型中,如果原假设 (5.16) 为真,则对于 (5.19) 中定义的 \(F\)\(F \sim F_{q, n-k}\)。如果 \(c\) 设置为 \(\mathbb{P}\left[F_{q, n-k} \geq c\right]=\alpha\),则测试“如果 \(F>c\) 则拒绝 \(\mathbb{M}_{0}\) 而支持 \(\mathbb{M}_{1}\)”具有显着性水平 \(\alpha\)。定理 \(5.13\) 使用 \(F\) 分布中的临界值证明正态回归模型中 \(F\) 检验的合理性。

5.14 用于正态回归的信息

本节需要熟悉 Cramér-Rao 下界理论。请参阅《经济学家的概率与统计》第 10 章。

正态回归模型的似然得分为

\[ \frac{\partial}{\partial \beta} \ell_{n}\left(\beta, \sigma^{2}\right)=\frac{1}{\sigma^{2}} \sum_{i=1}^{n} X_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)=\frac{1}{\sigma^{2}} \sum_{i=1}^{n} X_{i} e_{i} \]

\[ \frac{\partial}{\partial \sigma^{2}} \ell_{n}\left(\beta, \sigma^{2}\right)=-\frac{n}{2 \sigma^{2}}+\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \beta\right)^{2}=\frac{1}{2 \sigma^{4}} \sum_{i=1}^{n}\left(e_{i}^{2}-\sigma^{2}\right) \]

由此可见信息矩阵为

\[ \mathscr{I}=\operatorname{var}\left[\begin{array}{c} \frac{\partial}{\partial \beta} \ell\left(\beta, \sigma^{2}\right) \\ \frac{\partial}{\partial \sigma^{2}} \ell\left(\beta, \sigma^{2}\right) \end{array} \mid \boldsymbol{X}\right]=\left(\begin{array}{cc} \frac{1}{\sigma^{2}} \boldsymbol{X}^{\prime} \boldsymbol{X} & 0 \\ 0 & \frac{2 \sigma^{4}}{n} \end{array}\right) \]

(参见练习 5.11)。 Cramér-Rao 下界是

\[ \mathscr{I}^{-1}=\left(\begin{array}{cc} \sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} & 0 \\ 0 & \frac{2 \sigma^{4}}{n} \end{array}\right) \]

这表明 \(\beta\) 的估计下限是 \(\sigma^{2}\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\)\(\sigma^{2}\) 的估计下限是 \(2 \sigma^{4} / n\)

\(\sigma^{2}\) 的无偏方差估计量 \(s^{2}\) 的方差 \(2 \sigma^{4} /(n-k)\) (参见练习 5.12)大于 Cramér-Rao 下界 \(2 \sigma^{4} / n\)。因此,与系数估计器相比,方差估计器不是 Cramér-Rao 有效的。

5.15 练习

练习 5.1 证明如果 \(Q \sim \chi_{r}^{2}\),则 \(\mathbb{E}[Q]=r\)\(\operatorname{var}[Q]=2 r\)

提示:使用 \(Q=\sum_{i=1}^{n} Z_{i}^{2}\)\(Z_{i}\) 独立的 \(\mathrm{N}(0,1)\) 表示。

练习 5.2 证明如果 \(\boldsymbol{e} \sim \mathrm{N}\left(0, \boldsymbol{I}_{n} \sigma^{2}\right)\)\(\boldsymbol{H}^{\prime} \boldsymbol{H}=\boldsymbol{I}_{n}\)\(\boldsymbol{u}=\boldsymbol{H}^{\prime} \boldsymbol{e} \sim \mathrm{N}\left(0, \boldsymbol{I}_{n} \sigma^{2}\right)\)

练习 5.3 证明如果 \(\boldsymbol{e} \sim \mathrm{N}(0, \Sigma)\)\(\Sigma=\boldsymbol{A} \boldsymbol{A}^{\prime}\)\(\boldsymbol{u}=\boldsymbol{A}^{-1} \boldsymbol{e} \sim \mathrm{N}\left(0, \boldsymbol{I}_{n}\right)\)

练习 5.4 证明\(\operatorname{argmax}_{\theta \in \Theta} \ell_{n}(\theta)=\operatorname{argmax}_{\theta \in \Theta} L_{n}(\theta)\)

练习 5.5 对于样本内回归预测值 \(\widehat{Y}_{i}\) 显示 \(\widehat{Y}_{i} \mid \boldsymbol{X} \sim \mathrm{N}\left(X_{i}^{\prime} \beta, \sigma^{2} h_{i i}\right)\),其中 \(h_{i i}\) 是杠杆值 (3.40)。

练习 5.6 在正态回归模型中,表明留一预测误差 \(\widetilde{e}_{i}\) 和标准化残差 \(\bar{e}_{i}\)\(\widehat{\beta}\) 无关,以 \(\boldsymbol{X}\) 为条件。

提示:使用(3.45)和(4.29)。练习 5.7 在正态回归模型中,表明稳健协方差矩阵 \(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 0}, \widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HCl}}\)\(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC} 2}\)\(\widehat{\boldsymbol{V}}_{\widehat{\beta}}^{\mathrm{HC}}\) 独立于 OLS 估计器 \(\widehat{\beta}\),以 \(\boldsymbol{X}\) 为条件。

练习 5.8 设 \(F(u)\) 为随机变量 \(X\) 的分布函数,其密度关于零对称。 (这包括标准正态和学生 \(t\)。)显示 \(F(-u)=1-F(u)\)

练习 5.9 令 \(\widehat{C}_{\beta}=[L, U]\)\(\beta\)\(1-\alpha\) 置信区间,并考虑变换 \(\theta=g(\beta)\),其中 \(g(\cdot)\) 单调递增。考虑 \(\theta\) 的置信区间 \(\widehat{C}_{\theta}=[g(L), g(U)]\)。显示\(\mathbb{P}\left[\theta \in \widehat{C}_{\theta}\right]=\mathbb{P}\left[\beta \in \widehat{C}_{\beta}\right]\)。使用此结果来确定 \(\sigma\) 的置信区间。

练习5.10 证明对于(5.18)中定义的LR的测试“Reject \(\mathbb{M}_{0}\) if \(L R \geq c_{1}\)”和对于(5.19)中定义的\(\mathrm{F}\)的测试“Reject \(\mathbb{H}_{0}\) if \(\mathrm{F} \geq c_{2}\)”,产生相同的结果决策如果\(c_{2}=\left(\exp \left(c_{1} / n\right)-1\right)(n-k) / q\)。这是否意味着这两个测试是等效的?

练习 5.11 显示 (5.20)。

练习 5.12 在正态回归模型中,设 \(s^{2}\) 为(4.31)中误差方差 \(\sigma^{2}\) 的无偏估计量。

  1. 显示\(\operatorname{var}\left[s^{2}\right]=2 \sigma^{4} /(n-k)\)

  2. 表明 \(\operatorname{var}\left[s^{2}\right]\) 严格大于 \(\sigma^{2}\) 的 Cramér-Rao 下界。