第13章: 广义矩估计法

13 广义矩估计法

13.1 介绍

应用计量经济学中最流行的估计方法之一是广义矩量法(GMM)。 GMM 通过允许比未知参数(因此被过度识别)更多的方程以及允许观测值和参数的一般非线性函数来推广经典的矩方法。总之,这允许一个相当丰富和灵活的估计框架。 GMM 包括特殊情况 OLS、IV、多元回归和 2SLS。它包括线性和非线性模型。在本章中,我们主要关注线性模型。

Lars Hansen (1982) 在一篇开创性论文中将 GMM 标签和方法引入计量经济学。这些想法和方法建立在 Amemiya \((1974,1977)\)、Gallant (1977) 以及 Gallant 和 Jorgenson (1979) 的工作基础上。这些想法与 Halbert White (1980, 1982) 以及 White 和 Domowitz (1984) 的同时期工作密切相关。这些方法还与统计文献中所谓的估计方程相关。对于后者的回顾参见 Godambe (1991)。

13.2 矩方程模型

到目前为止介绍的所有模型都可以写成矩方程模型,其中总体参数求解矩方程组。矩方程模型比迄今为止考虑的模型更广泛,理解它们的共同结构为处理新的计量经济模型提供了直接的技术。

力矩方程模型采用以下形式。令 \(g_{i}(\beta)\)\(i^{\text {th }}\) 观测值的已知 \(\ell \times 1\) 函数和 \(k \times 1\) 参数 \(\beta\)。力矩方程模型由力矩方程概括

\[ \mathbb{E}\left[g_{i}(\beta)\right]=0 \]

和参数空间 \(\beta \in B\)。例如,在工具变量模型 \(g_{i}(\beta)=Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)\) 中。

一般来说,如果存在从数据分布到 \(\beta\) 的唯一映射,我们就说参数 \(\beta\) 被识别。在模型 (13.1) 的上下文中,这意味着存在唯一的 \(\beta\) 满足 (13.1)。由于 (13.1) 是一个包含 \(k\) 未知数的 \(\ell\) 方程组,因此 \(\ell \geq k\) 必须有唯一解。如果 \(\ell=k\) 我们说模型刚刚被识别,这意味着有足够的信息来识别参数。如果 \(\ell>k\) 我们说模型被过度识别,这意味着存在过多的信息。如果 \(\ell<k\) 我们说模型识别不足,这意味着没有足够的信息来识别参数。一般来说,我们假设 \(\beta\) 因此模型要么刚刚被识别,要么被过度识别。

13.3 矩估计法

在本节中,我们考虑刚刚确定的案例 \(\ell=k\)

定义 (13.5) 的样本模拟

\[ \bar{g}_{n}(\beta)=\frac{1}{n} \sum_{i=1}^{n} g_{i}(\beta) . \]

矩估计器(MME)方法\(\widehat{\beta}_{\mathrm{mm}}\)是设置\(\bar{g}_{n}(\beta)=0\)的参数值。因此

\[ \bar{g}_{n}\left(\widehat{\beta}_{\mathrm{mm}}\right)=\frac{1}{n} \sum_{i=1}^{n} g_{i}\left(\widehat{\beta}_{\mathrm{mm}}\right)=0 . \]

方程 (13.3) 被称为估计方程,因为它们是确定估计器 \(\widehat{\beta}_{\mathrm{mm}}\) 的方程。

在某些情况下(例如下面示例中讨论的情况),\(\widehat{\beta}_{\mathrm{mm}}\) 有一个显式解决方案。在其他情况下,必须以数字方式找到解决方案。

我们现在展示如何将教科书中迄今为止讨论的大多数估计器编写为矩估计器方法。

意思是:设置\(g_{i}(\mu)=Y_{i}-\mu\)。 MME 是 \(\widehat{\mu}=\frac{1}{n} \sum_{i=1}^{n} Y_{i}\)

均值和方差:设置

\[ g_{i}\left(\mu, \sigma^{2}\right)=\left(\begin{array}{c} Y_{i}-\mu \\ \left(Y_{i}-\mu\right)^{2}-\sigma^{2} \end{array}\right) . \]

MME 是 \(\widehat{\mu}=\frac{1}{n} \sum_{i=1}^{n} Y_{i}\)\(\widehat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-\widehat{\mu}\right)^{2}\)

OLS:设置 \(g_{i}(\beta)=X_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)\)。 MME 是 \(\widehat{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right)\)

OLS 和方差:设置

\[ g_{i}\left(\beta, \sigma^{2}\right)=\left(\begin{array}{c} X_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right) \\ \left(Y_{i}-X_{i}^{\prime} \beta\right)^{2}-\sigma^{2} \end{array}\right) \text {. } \]

MME 是 \(\widehat{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Y}\right)\)\(\widehat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-X_{i}^{\prime} \widehat{\beta}\right)^{2}\)

多元最小二乘法,矢量形式:\(\operatorname{Set} g_{i}(\beta)=\bar{X}_{i}^{\prime}\left(Y_{i}-\bar{X}_{i} \beta\right)\)。 MME 是 \(\widehat{\beta}=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i} Y_{i}\right)\),即 (11.4)。

多元最小二乘法,矩阵形式:设置\(g_{i}(\boldsymbol{B})=\operatorname{vec}\left(X_{i}\left(Y_{i}^{\prime}-X_{i}^{\prime} \boldsymbol{B}\right)\right)\)。 MME 是 \(\widehat{\boldsymbol{B}}=\left(\sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} X_{i} Y_{i}^{\prime}\right)\),即 (11.6)。

看似无关的回归:设置

\[ g_{i}(\beta, \Sigma)=\left(\begin{array}{c} \bar{X}_{i} \Sigma^{-1}\left(Y_{i}-\bar{X}_{i}^{\prime} \beta\right) \\ \operatorname{vec}\left(\Sigma-\left(Y_{i}-\bar{X}_{i}^{\prime} \beta\right)\left(Y_{i}-\bar{X}_{i}^{\prime} \beta\right)^{\prime}\right) \end{array}\right) \]

MME 是 \(\widehat{\beta}=\left(\sum_{i=1}^{n} \bar{X}_{i} \widehat{\Sigma}^{-1} \bar{X}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i} \widehat{\Sigma}^{-1} Y_{i}\right)\)\(\widehat{\Sigma}=n^{-1} \sum_{i=1}^{n}\left(Y_{i}-\bar{X}_{i}^{\prime} \widehat{\beta}\right)\left(Y_{i}-\bar{X}_{i}^{\prime} \widehat{\beta}\right)^{\prime}\)

IV:设置\(g_{i}(\beta)=Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)\)。 MME 是 \(\widehat{\beta}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}\right)\)。生成的回归器:设置

\[ g_{i}(\beta, \boldsymbol{A})=\left(\begin{array}{c} \boldsymbol{A}^{\prime} Z_{i}\left(Y_{i}-Z_{i}^{\prime} \boldsymbol{A} \beta\right) \\ \operatorname{vec}\left(Z_{i}\left(X_{i}^{\prime}-Z_{i}^{\prime} \boldsymbol{A}\right)\right) \end{array}\right) \]

MME 是 \(\widehat{\boldsymbol{A}}=\left(\sum_{i=1}^{n} Z_{i} Z_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i} X_{i}^{\prime}\right)\)\(\widehat{\beta}=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1}\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\right)\)

这些例子的一个共同特征是估计器可以写成一组估计方程(13.3)的解。这提供了一个通用框架,可以方便地开发统一的分布理论。

13.4 过度识别的力矩方程

在工具变量模型 \(g_{i}(\beta)=Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)\) 中。因此 (13.2) 是

\[ \bar{g}_{n}(\beta)=\frac{1}{n} \sum_{i=1}^{n} g_{i}(\beta)=\frac{1}{n} \sum_{i=1}^{n} Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right)=\frac{1}{n}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}-\boldsymbol{Z}^{\prime} \boldsymbol{X} \beta\right) . \]

我们定义了 \(\beta\) 的矩估计器方法作为设置 \(\bar{g}_{n}(\beta)=\) 0 的参数值。然而,当模型被过度识别时(如果 \(\ell>k\) ),这通常是不可能的,因为方程比自由参数多。同样,没有 \(\beta\) 选项将 (13.4) 设置为零。因此,没有为过度识别的情况定义矩估计器的方法。

虽然我们找不到将 \(\bar{g}_{n}(\beta)\) 设置为零的估计器,但我们可以尝试找到一个使 \(\bar{g}_{n}(\beta)\) 尽可能接近于零的估计器。

思考这个问题的一种方法是定义向量 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\)、矩阵 \(\boldsymbol{G}=\boldsymbol{Z}^{\prime} \boldsymbol{X}\) 和“误差”\(\eta=\mu-\boldsymbol{G} \beta\)。那么我们可以将(13.4)写为\(\mu=\boldsymbol{G} \beta+\eta\)。这看起来像是一个包含 \(\ell \times 1\) 因变量 \(\mu\)\(\ell \times k\) 回归矩阵 \(\boldsymbol{G}\)\(\ell \times 1\) 误差向量 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\) 的回归方程。目标是使误差向量 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\) 尽可能小。回顾我们关于最小二乘的知识,我们推断出一个简单的方法是在 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\) 上回归 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\),得到 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\)。这可以最小化平方和 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\)。这当然是使 \(\mu=\boldsymbol{Z}^{\prime} \boldsymbol{Y}\) 变“小”的一种方法。

更一般地说,我们知道,当误差非均匀时,通过加权最小二乘法进行估计会更有效。因此,对于某些权重矩阵 \(\boldsymbol{W}\) 考虑估计器

\[ \widehat{\beta}=\left(\boldsymbol{G}^{\prime} \boldsymbol{W} \boldsymbol{G}\right)^{-1}\left(\boldsymbol{G}^{\prime} \boldsymbol{W} \boldsymbol{\mu}\right)=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\right) . \]

这最小化了加权平方和 \(\eta^{\prime} \boldsymbol{W} \eta\)。该解决方案称为广义矩法 (GMM)。

估计量通常定义如下。给定一组矩方程 (13.2) 和 \(\ell \times \ell\) 权重矩阵 \(\boldsymbol{W}>0\),GMM 准则函数定义为

\[ J(\beta)=n \bar{g}_{n}(\beta)^{\prime} \boldsymbol{W} \bar{g}_{n}(\beta) . \]

因子“ \(n\) ”对于估计量的定义并不重要,但对于分布理论来说很方便。标准 \(J(\beta)\) 是矩方程误差平方的加权和。当 \(\boldsymbol{W}=\boldsymbol{I}_{\ell}\) 然后 \(J(\beta)=n \bar{g}_{n}(\beta)^{\prime} \bar{g}_{n}(\beta)=n\left\|\bar{g}_{n}(\beta)\right\|^{2}\) 时,欧几里得长度的平方。由于我们将注意力限制在正定权重矩阵 \(\boldsymbol{W}\) 上,因此标准 \(J(\beta)\) 是非负的。

定义 13.1 广义矩量法 (GMM) 估计器是

\[ \widehat{\beta}_{\mathrm{gmm}}=\underset{\beta}{\operatorname{argmin}} J(\beta) . \]

回想一下,在刚刚确定的情况 \(k=\ell\) 中,矩估计器 \(\widehat{\beta}_{\mathrm{mm}}\) 的方法求解 \(\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{mm}}\right)=\) 0 。因此,在这种情况下 \(J\left(\widehat{\beta}_{\mathrm{mm}}\right)=0\) 意味着 \(\widehat{\beta}_{\mathrm{mm}}\) 最小化 \(J(\beta)\) 并等于 \(\widehat{\beta}_{\mathrm{gmm}}=\widehat{\beta}_{\mathrm{mm}}\)。这意味着 GMM 包括 MME 作为一个特例。这意味着我们所有的 GMM 结果都适用于任何矩估计方法。

在过度识别的情况下,GMM 估计器取决于权重矩阵 \(\boldsymbol{W}\) 的选择,因此这是理论的一个重要焦点。在刚刚确定的情况下,GMM 估计器简化为不依赖于 \(\boldsymbol{W}\) 的 MME。

Lars Hansen (1982) 在一篇有影响力的论文中发展了广义矩方法和理论。介绍了该方法、其渐近分布、有效权重矩阵的形式以及过度识别的检验。

13.5 线性力矩模型

矩方程框架的一大优点是它允许线性和非线性模型。然而,当矩方程的参数是线性时,我们就有了估计的显式解和简单的渐近分布理论。因此,我们首先将注意力集中在线性矩方程上,然后再回到非线性矩方程。在前面列出的示例中,具有线性矩方程的估计量包括样本均值、OLS、多元最小二乘、IV 和 2SLS。具有非线性矩方程的估计包括样本方差、SUR 和生成的回归量。

我们特别关注带有矩方程的过度识别 IV 模型

\[ g_{i}(\beta)=Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right) \]

其中 \(Z_{i}\)\(\ell \times 1\)\(X_{i}\)\(k \times 1\)

13.6 GMM估计器

给定(13.5),样本矩方程为(13.4)。 GMM 准则可以写为

\[ J(\beta)=n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}-\boldsymbol{Z}^{\prime} \boldsymbol{X} \beta\right)^{\prime} \boldsymbol{W}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}-\boldsymbol{Z}^{\prime} \boldsymbol{X} \beta\right) . \]

GMM 估计器最小化 \(J(\beta)\)。一阶条件是

\[ \begin{aligned} 0 &=\frac{\partial}{\partial \beta} J(\widehat{\beta}) \\ &=2 \frac{\partial}{\partial \beta} \bar{g}_{n}(\widehat{\beta})^{\prime} \boldsymbol{W} \bar{g}_{n}(\widehat{\beta}) \\ &=-2\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \boldsymbol{W}\left(\frac{1}{n} \boldsymbol{Z}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta})\right) . \end{aligned} \]

解决方案如下。

定理13.1 对于过度识别的IV模型

\[ \widehat{\beta}_{\mathrm{gmm}}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\right) . \]

虽然估计器依赖于 \(\boldsymbol{W}\),但依赖性仅达到规模。这是因为如果 \(\boldsymbol{W}\)\(c W\) 替换,对于某些 \(c>0, \widehat{\beta}_{\text {gmm }}\) 不会改变。当 \(W\) 由用户固定时,我们将 \(\widehat{\beta}_{\text {gmm }}\) 称为单步 GMM 估计器。公式(13.6)适用于过度识别的\((\ell>k)\)和刚刚识别的\((\ell=k)\)情况。当模型刚刚被识别时,\(\boldsymbol{X}^{\prime} \boldsymbol{Z}\)\(\boldsymbol{W}\),因此表达式 (13.6) 简化为

\[ \widehat{\beta}_{\mathrm{gmm}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{W}^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\right)=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}\right)=\widehat{\beta}_{\mathrm{iv}} \]

IV 估计器。

GMM 估计器 (13.6) 类似于 2SLS 估计器 (12.29)。事实上,当 \(\boldsymbol{W}=\) \(\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\) 时它们是相等的。这意味着 2SLS 估计器是线性模型的一步 GMM 估计器。

定理 13.2 如果 \(\boldsymbol{W}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\)\(\widehat{\beta}_{\mathrm{gmm}}=\widehat{\beta}_{2 \text { sls. }}\) 此外,如果 \(k=\ell\)\(\widehat{\beta}_{\mathrm{gmm}}=\widehat{\beta}_{\mathrm{iv}}\)

13.7 GMM估计器的分布

\(\boldsymbol{Q}=\mathbb{E}\left[Z X^{\prime}\right]\)\(\Omega=\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\)。然后

\[ \left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \boldsymbol{W}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right) \underset{p}{\longrightarrow} \boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q} \]

\[ \left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \boldsymbol{W}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \underset{d}{\longrightarrow} \boldsymbol{Q}^{\prime} \boldsymbol{W} \mathrm{N}(0, \Omega) \]

我们得出结论:

定理13.3 GMM估计量的渐近分布。根据假设 12.2,如 \(n \rightarrow \infty, \sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中

\[ \boldsymbol{V}_{\boldsymbol{\beta}}=\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \Omega \boldsymbol{W} \boldsymbol{Q}\right)\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} . \]

GMM 估计量是渐近正态的,具有“三明治形式”渐近方差。

我们的推导将权重矩阵 \(W\) 视为非随机的,但定理 \(13.3\) 适用于随机权重矩阵情况,只要 \(\widehat{\boldsymbol{W}}\) 收敛到正定极限 \(\boldsymbol{W}\) 的概率。这可能需要缩放权重矩阵,例如用 \(\widehat{\boldsymbol{W}}=\left(n^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\) 替换 \(\widehat{\boldsymbol{W}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\)。由于重新缩放权重矩阵不会影响估计器,因此在实现中会忽略这一点。

13.8 高效的GMM

GMM 估计量 \(\widehat{\beta}_{\mathrm{gmm}}\) 的渐近分布通过渐近方差 \(\boldsymbol{V}_{\beta}\) 取决于权重矩阵 \(\boldsymbol{W}\)。渐进最优权重矩阵 \(\boldsymbol{W}_{0}\) 是最小化 \(\boldsymbol{V}_{\beta}\) 的矩阵。结果是 \(\boldsymbol{W}_{0}=\Omega^{-1}\)。证明留给练习 13.4。

当 GMM 估计器 \(\widehat{\beta}\) 使用 \(\boldsymbol{W}=\boldsymbol{W}_{0}=\Omega^{-1}\) (或权重矩阵,它是 \(\boldsymbol{W}_{0}\) 的一致估计器)构建时,我们将其称为高效 GMM 估计器:

\[ \widehat{\beta}_{\mathrm{gmm}}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \Omega^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \Omega^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}\right) . \]

它的渐近分布采用比定理 13.3 更简单的形式。将 \(\boldsymbol{W}=\boldsymbol{W}_{0}=\Omega^{-1}\) 代入 (13.7) 我们发现

\[ \boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \Omega \Omega^{-1} \boldsymbol{Q}\right)\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1} . \]

这是有效 GMM 估计器的渐近方差。

定理13.4具有有效权Ma-\的GMM渐近分布 特里克斯。假设 \(12.2\)\(\boldsymbol{W}=\Omega^{-1}\),如 \(n \rightarrow \infty, \sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right) \underset{d}{\mathrm{~d}}\)\ \(\mathrm{~N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中 \(\boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}\)

定理 13.5 高效 GMM。根据假设 12.2,对于任何 \(\boldsymbol{W}>0\)

\[ \left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \Omega \boldsymbol{W} \boldsymbol{Q}\right)\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1}-\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1} \geq 0 \]

如果 \(W \neq \Omega^{-1}\),则不等式“ \(\geq\) ”可以替换为“ \(>\) ”。因此,如果 \(\widehat{\beta}_{\mathrm{gmm}}\) 是有效的 GMM 估计器,而 \(\widetilde{\beta}_{\text {gmm }}\) 是另一个 GMM 估计器,那么

\[ \operatorname{avar}\left[\widehat{\beta}_{\mathrm{gmm}}\right] \leq \operatorname{avar}\left[\widetilde{\beta}_{\mathrm{gmm}}\right] . \]

证明参见练习 13.4。

这意味着最小可能的 GMM 协方差矩阵(在正定意义上)是通过有效的 GMM 权重矩阵实现的。

\(\boldsymbol{W}_{0}=\Omega^{-1}\) 在实践中未知,但可以一致地估计,正如我们在 \(13.10 .\) 节中讨论的那样,对于任何 \(\widehat{\boldsymbol{W}} \underset{p}{\rightarrow} \boldsymbol{W}_{0}\),定理 \(13.4\) 中的渐近分布不受影响。因此,我们将任何使用有效权重矩阵估计构造的 \(\widehat{\beta}_{\mathrm{gmm}}\) 称为有效 GMM 估计器。

“有效”是指该估计器在具有这组矩条件的 GMM 估计器类别中具有最小的渐近方差。这是一个较弱的最优性概念,因为我们只考虑替代权重矩阵 \(\widehat{\boldsymbol{W}}\)。然而,事实证明,GMM 估计量是半参数有效的,如 Gary Chamberlain (1987) 所示。如果已知 \(\mathbb{E}\left[g_{i}(\beta)\right]=0\) 并且这就是已知的全部,那么这是一个半参数问题,因为数据的分布未知。张伯伦表明,在这种情况下,没有任何半参数估计量(对于所考虑的模型类别全局一致的半参数估计量)可以具有比 \(\left(\boldsymbol{G}^{\prime} \Omega^{-1} \boldsymbol{G}\right)^{-1}\) (其中 \(\boldsymbol{G}=\mathbb{E}\left[\frac{\partial}{\partial \beta^{\prime}} g_{i}(\beta)\right]\))更小的渐近方差。由于 GMM 估计量具有渐进方差,因此它是半参数有效的。

本节的结果表明,在线性模型中,没有估计器比高效线性 GMM 估计器具有更好的渐近效率。如果不施加额外的假设,任何估计器都无法做得更好(在这种一阶渐近意义上)。

13.9 高效 GMM 与 2SLS

对于线性模型,我们引入 2SLS 作为 \(\beta\) 的标准估计器。现在我们介绍了GMM,其中包括2SLS作为特例。是否存在 2SLS 有效的环境?

要回答这个问题,请回想一下,2SLS 是给定权重矩阵 \(\widehat{\boldsymbol{W}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\) 或等效的 \(\widehat{\boldsymbol{W}}=\left(n^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\) 的 GMM,因为缩放并不重要。由于 \(\widehat{\boldsymbol{W}} \underset{p}{\longrightarrow}\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1}\) 这渐近等价于权重矩阵 \(\boldsymbol{W}=\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1}\)。相反,有效权重矩阵采用 \(\left(\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\right)^{-1}\) 形式。现在假设结构方程误差 \(e\)\(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 的意义上是条件同方差的。那么有效权重矩阵等于 \(\boldsymbol{W}=\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1} \sigma^{-2}\) 或等效于 \(W=\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1}\),因为缩放并不重要。后者的权重矩阵与2SLS渐近权重矩阵相同。这表明2SLS权重矩阵是条件同方差下的有效权重矩阵。

定理 13.6 假设 \(12.2\)\(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}, \widehat{\beta}_{2 \text { sls }}\) 是有效的 GMM。

这表明 2SLS 在同方差下是有效的。当同方差成立时,没有理由使用高效的 GMM 而不是 2SLS。更广泛地说,当同方差是合理的近似值时,2SLS 将是合理的估计量。然而,这个结果也表明,在误差是条件异方差的一般情况下,2SLS 相对于高效 GMM 来说效率较低。

13.10 有效权重矩阵的估计

为了构造有效的 GMM 估计器,我们需要 \(\boldsymbol{W}_{0}=\Omega^{-1}\) 的一致估计器 \(\widehat{\boldsymbol{W}}\)。约定是形成 \(\Omega\) 的估计器 \(\widehat{\Omega}\),然后设置 \(\widehat{\boldsymbol{W}}=\widehat{\Omega}^{-1}\)

两步 GMM 估计器通过使用 \(\beta\) 的一步一致估计器来构造权重矩阵估计器 \(\widehat{\boldsymbol{W}}\)。在线性模型中,\(\beta\) 的自然一步估计量为 2 SLS。设置 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{2 s l s}, \widetilde{g}_{i}=g_{i}(\widetilde{\beta})=Z_{i} \widetilde{e}_{i}\)\(\bar{g}_{n}=n^{-1} \sum_{i=1}^{n} \widetilde{g}_{i}\)\(\Omega\) 的两个矩估计器是

\[ \widehat{\Omega}=\frac{1}{n} \sum_{i=1}^{n} \widetilde{g}_{i} \widetilde{g}_{i}^{\prime} \]

\[ \widehat{\Omega}^{*}=\frac{1}{n} \sum_{i=1}^{n}\left(\widetilde{g}_{i}-\bar{g}_{n}\right)\left(\widetilde{g}_{i}-\bar{g}_{n}\right)^{\prime} . \]

估计器(13.8)是无中心协方差矩阵估计器,而估计器(13.9)是中心版本。当 \(\mathbb{E}[Z e]=0\) 在正确的规范下成立时,两者都是一致的。然而,如果指定错误,我们可能有 \(\mathbb{E}[Z e] \neq 0\)。在后一种情况下,\(\widehat{\Omega}^{*}\) 仍然是 var \([Z e]\) 的估计器,而 \(\widehat{\Omega}\)\(\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\) 的估计器。从这个意义上说,\(\widehat{\Omega}^{*}\) 是一个稳健的方差估计器。对于某些测试问题,最好使用对备择假设稳健的协方差矩阵估计器。由于这些原因,估计量 (13.9) 通常是首选。非中心估计器 (13.8) 在实践中更常见,因为它是大多数包的默认选择。还值得观察的是,当模型刚刚被识别时,\(\bar{g}_{n}=0\) 因此两者在代数上是相同的。权重矩阵的选择也可能影响协方差矩阵估计,如第 13.12 节所述。

给定协方差矩阵估计器的选择,我们设置 \(\widehat{W}=\widehat{\Omega}^{-1}\)\(\widehat{W}=\widehat{\Omega}^{*-1}\)。给定这个权重矩阵,我们使用权重矩阵 \(\widehat{\boldsymbol{W}}\) 构造两步 GMM 估计器,如 (13.6) 所示。

由于 2SLS 估计器对于 \(\beta\) 是一致的,通过与用于协方差矩阵估计的参数几乎相同的参数,我们可以证明 \(\widehat{\Omega}\)\(\widehat{\Omega}^{*}\) 对于 \(\Omega\) 是一致的,因此 \(\widehat{\boldsymbol{W}}\) 对于 \(\Omega^{-1}\) 是一致的。参见练习 13.3。

这也意味着两步 GMM 估计器满足定理 13.4 的条件。

定理 \(13.7\) 假设 \(12.2\)\(\Omega>0\),如果 \(\widehat{W}=\widehat{\Omega}^{-1}\)\(\widehat{W}=\) \(\widehat{\Omega}^{*-1}\) 其中后者在 (13.8) 和 (13.9) 中定义,则为 \(n \rightarrow \infty\)\(\sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中 \(\boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}\)

这表明两步 GMM 估计器是渐近有效的。

IV 回归方程的两步 GMM 估计量可以在 Stata 中使用 ivregress gmm 命令进行计算。默认情况下,它使用公式(13.8)。可以使用 center 选项选择居中版本 (13.9)。

13.11 迭代GMM

两步 GMM 估计器的渐近分布不依赖于初步一步估计器的选择。然而,估计量的实际值取决于此选择,有限样本分布也取决于此选择。这是不希望的并且可能效率低下。为了消除这种依赖性,我们可以迭代估计序列。具体来说,给定 \(\widehat{\beta}_{\mathrm{gmm}}\),我们可以构建更新的权重矩阵估计 \(\widehat{\boldsymbol{W}}\),然后重新估计 \(\widehat{\beta}_{\mathrm{gmm}}\)。这种更新可以迭代直到收敛\({ }^{1}\)。结果称为迭代 GMM 估计器,是高效 GMM 的常见实现。

有趣的是,B. E. Hansen 和 Lee (2021) 表明,无论是否中心化计算权重矩阵,迭代 GMM 估计量都不会受到影响。然而,标准误差和检验统计量将受到选择的影响。

IV 回归方程的迭代 GMM 估计量可以在 Stata 中使用 ivregress gmm 命令和 igmm 选项来计算。

13.12 协方差矩阵估计

\(\widehat{\beta}_{\mathrm{gmm}}\) 渐近方差的估计量可以通过将渐近方差公式中的矩阵替换为一致估计量来获得。

\({ }^{1}\) 实际上,当后续步骤的估计值之间的差异小于预先指定的容差时,就会获得“收敛”。收敛的充分条件是该序列是收缩映射。事实上,B. Hansen 和 Lee (2021) 已经表明,迭代 GMM 估计量在大样本中通常满足这个条件。对于一步或两步 GMM 估计器,协方差矩阵估计器为

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)^{-1}\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\Omega} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)^{-1} \]

其中 \(\widehat{\boldsymbol{Q}}=\frac{1}{n} \sum_{i=1}^{n} Z_{i} X_{i}^{\prime}\).权重矩阵是使用带有残差 \(\widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{gmm}}\) 的非中心估计器 (13.8) 或中心估计器 (13.9) 构建的。

对于高效迭代 GMM 估计器,协方差矩阵估计器为

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\Omega}^{-1} \widehat{\boldsymbol{Q}}\right)^{-1}=\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \widehat{\Omega}^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1} . \]

\(\widehat{\Omega}\) 可以使用非中心估计器 (13.8) 或中心估计器 (13.9) 进行计算。基于渐近近似,估计器 (13.11) 也可用于两步估计器,但应使用最终残差 \(\widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{gmm}}\)

渐近标准误差由 \(n^{-1} \widehat{\boldsymbol{V}}_{\beta}\) 对角线元素的平方根给出。

目前尚不清楚是否优选使用基于 \(\Omega\) 的中心估计器或非中心估计器的协方差矩阵估计器来构造协方差矩阵估计器。使用中心估计量会产生更小的协方差矩阵和标准误差,从而基于渐近临界值进行更“显着”的测试。相反,\(\Omega\) 的非中心估计量将导致更大的标准误差,因此更加“保守”。

在Stata中,默认的协方差矩阵估计方法是由权重矩阵的选择决定的。因此,如果中心估计器 (13.9) 用于权重矩阵,那么它也可用于协方差矩阵估计器。

13.13 集群依赖

\(4.21\) 节中,我们引入了聚类依赖,在 \(12.25\) 节中描述了 2SLS 的协方差矩阵估计。这些方法自然地扩展到 GMM,但可能会改变权重矩阵计算,从而带来额外的复杂性。

\(g^{t h}\) 簇的结构方程可以写为矩阵系统 \(\boldsymbol{Y}_{g}=\boldsymbol{X}_{g} \beta+\boldsymbol{e}_{g}\)。使用这种表示法,具有权重矩阵 \(\boldsymbol{W}\) 的中心 GMM 估计器可以写为

\[ \widehat{\beta}_{\mathrm{gmm}}-\beta=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W}\left(\sum_{g=1}^{G} \boldsymbol{Z}_{g}^{\prime} \boldsymbol{e}_{g}\right) \]

\(\widehat{\beta}_{\mathrm{gmm}}\) 的集群鲁棒协方差矩阵估计器是

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \widehat{\boldsymbol{S}} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \]

\[ \widehat{\boldsymbol{S}}=\sum_{g=1}^{G} \boldsymbol{Z}_{g}^{\prime} \widehat{\boldsymbol{e}}_{g} \widehat{\boldsymbol{e}}_{g}^{\prime} \boldsymbol{Z}_{g} \]

和聚类残差

\[ \widehat{\boldsymbol{e}}_{g}=\boldsymbol{Y}_{g}-\boldsymbol{X}_{g} \widehat{\beta}_{\mathrm{gmm}} . \]

集群鲁棒估计器 (13.12) 适用于一步或两步 GMM 估计器。当迭代估计器使用传统(非聚类)有效权重矩阵时,它也适用于迭代估计器。然而,在聚类上下文中,更自然的是使用聚类鲁棒权重矩阵,例如 \(\boldsymbol{W}=\widehat{\boldsymbol{S}}^{-1}\),其中 \(\widehat{\boldsymbol{S}}\) 是基于一步或迭代残差的聚类鲁棒协方差估计器,如 (13.13) 中所示。这产生了集群鲁棒 GMM 估计器

\[ \widehat{\beta}_{\mathrm{gmm}}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{S}}^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{S}}^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y} \]

适当的集群鲁棒协方差矩阵估计器是

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{S}}^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \]

其中 \(\widehat{S}\) 使用最终残差计算。

要实现集群鲁棒权重矩阵,第一步使用 2SLS 估计器。计算聚类残差 (13.14) 和协方差矩阵 (13.13)。那么(13.15)就是两步GMM估计器。迭代残差和协方差矩阵直到收敛,我们得到迭代的 GMM 估计量。

在 Stata 中,使用带 cluster 选项的 ivregress gmm 命令可使用集群鲁棒权重矩阵和集群鲁棒协方差矩阵估计器实现两步 GMM 估计器。要使用中心协方差矩阵,请使用 center 选项,要实现迭代 GMM 估计器,请使用 igmm 选项。或者,您可以使用 wmatrix 和 vce 选项分别指定权重矩阵和协方差矩阵估计方法。

13.14 瓦尔德检验

对于给定函数 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\),我们定义参数 \(\theta=r(\beta)\)\(\theta\) 的 GMM 估计量是 \(\widehat{\theta}_{\mathrm{gmm}}=r\left(\widehat{\beta}_{\mathrm{gmm}}\right)\)。通过 delta 方法,它与协方差矩阵 \(\boldsymbol{V}_{\theta}=\) \(\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\) 渐近正态,其中 \(\boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)^{\prime}\)。渐近协方差矩阵的估计量为 \(\widehat{\boldsymbol{V}}_{\theta}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}}^{\text {where }}\) \(\widehat{\boldsymbol{R}}=\frac{\partial}{\partial \beta} r\left(\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime}\)。当 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\) 为标量时,\(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\) 的渐近标准误差将形成为 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\)

假设 \(\mathbb{M}_{0}: \theta=\theta_{0}\)\(\mathbb{M}_{1}: \theta \neq \theta_{0}\) 的标准检验基于 Wald 统计量

\[ W=n\left(\widehat{\theta}-\theta_{0}\right)^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\theta}}^{-1}\left(\widehat{\theta}-\theta_{0}\right) . \]

\(G_{q}(u)\) 表示 \(\chi_{q}^{2}\) 分布函数。

假设 12.2、假设 7.3 和 \(\mathbb{H}_{0}\) 下的定理 \(13.8\)\(n \rightarrow \infty\)\(W \underset{d}{\longrightarrow} \chi_{q}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{q}(c), \mathbb{P}\left[W>c \mid \mathbb{H}_{0}\right] \longrightarrow \alpha\),因此测试“Reject \(\mathbb{H}_{0}\) if \(W>c\)”具有渐近大小 \(\alpha\)

证明参见练习 13.5。

在Stata中,可以在ivregress gmm之后使用命令test和testparm来实现线性假设的Wald检验。 ivregress gmm 之后可以使用命令 nlcom 和 testnl 来实现非线性假设的 Wald 检验。

13.15 受限GMM

通常需要对系数施加限制。在本节中,我们考虑受到线性约束 \(\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}\) 的估计。在下一节中,我们考虑非线性约束。

受约束的 GMM 估计器最小化受约束的 GMM 准则。这是

\[ \widehat{\beta}_{\mathrm{cgmm}}=\underset{\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}}{\operatorname{argmin}} J(\beta) . \]

这是参数向量,它使估计方程相对于加权二次距离尽可能接近于零,同时对参数施加限制。

假设权重矩阵 \(\boldsymbol{W}\) 是固定的。使用第 8 章的方法,可以直接得出约束 GMM 估计量为

\[ \widehat{\beta}_{\mathrm{cgmm}}=\widehat{\beta}_{\mathrm{gmm}}-\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{gmm}}-\boldsymbol{c}\right) . \]

(有关详细信息,请参见练习 13.6。)

我们在限制成立的假设下推导出渐近分布。将 (13.16) 中的 \(\boldsymbol{c}=\boldsymbol{R}^{\prime} \beta\) 代入并重新组织以找到

\[ \sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right)=\left(\boldsymbol{I}_{k}-\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right) \]

这是 \(\sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right)\) 的线性函数。由于后者的渐近分布已知,\(\sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right)\) 的渐近分布是前者的线性函数。

\[ \begin{aligned} &\text { Theorem 13.9 Under Assumptions } 12.2 \text { and 8.3, for the constrained GMM es- } \\ &\text { timator (13.16), } \sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\mathrm{cgmm}}\right) \text { as } n \rightarrow \infty \text {, where } \\ &\boldsymbol{V}_{\mathrm{cgmm}}=\boldsymbol{V}_{\beta}-\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \\ &\quad-\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \\ & \\ &+\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \end{aligned} \]

证明请参见练习 13.8。不幸的是,渐近协方差矩阵公式(13.18)相当乏味!

现在假设权重矩阵设置为 \(W=\widehat{\Omega}^{-1}\),即来自无约束估计的有效权重矩阵。在这种情况下,约束 GMM 估计器可以写为

\[ \widehat{\beta}_{\mathrm{cgmm}}=\widehat{\beta}_{\mathrm{gmm}}-\widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{V}}_{\boldsymbol{\beta}} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{gmm}}-\boldsymbol{c}\right) \]

这与有效最小距离的公式(8.25)相同。 (详细信息请参见练习 13.7。)我们发现渐近协方差矩阵大大简化了。定理 13.10 在假设 \(12.2\) 和 8.3 下,对于有效约束 GMM 估计器 (13.19),\(\sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\mathrm{cgmm}}\right)\)\(n \rightarrow \infty\),其中

\[ \boldsymbol{V}_{\mathrm{cgmm}}=\boldsymbol{V}_{\beta}-\boldsymbol{V}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} . \]

证明请参见练习 13.9。

渐近协方差矩阵 (13.20) 可以通过以下方式估计

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\mathrm{cgmm}} &=\widetilde{\boldsymbol{V}}_{\beta}-\widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widetilde{\boldsymbol{V}}_{\beta} . \\ \widetilde{\boldsymbol{V}}_{\beta} &=\left(\widehat{\boldsymbol{Q}}^{\prime} \widetilde{\Omega}^{-1} \widehat{\boldsymbol{Q}}\right)^{-1} \\ \widetilde{\Omega} &=\frac{1}{n} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widetilde{e}_{i}^{2} \\ \widetilde{e}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{cgmm}} . \end{aligned} \]

协方差矩阵 (13.18) 可以类似地估计,尽管使用 (13.10) 来估计 \(\boldsymbol{V}_{\beta}\)。协方差矩阵估计器 \(\widetilde{\Omega}\) 也可以替换为中心版本。

约束迭代 GMM 估计器可以通过设置 \(\boldsymbol{W}=\widetilde{\Omega}^{-1}\) 来实现,其中 \(\widetilde{\Omega}\) 在 (13.22) 中定义,然后迭代直至收敛。这是一个自然估计器,因为它是迭代 GMM 的适当实现。

由于在约束为真的假设下,\(\widehat{\Omega}\)\(\widetilde{\Omega}\) 都收敛到相同的极限 \(\Omega\),因此受约束的迭代 GMM 估计器具有定理 13.10 中给出的渐近分布。

13.16 非线性受限GMM

对于某些函数 \(r: \mathbb{R}^{k} \rightarrow \mathbb{R}^{q}\),参数的非线性约束可以写为 \(r(\beta)=0\)。如果 \(r(\beta)\) 不能写成 \(\beta\) 的线性函数,则约束是非线性的。第 8.14 节探讨了受非线性约束的最小二乘估计。在本节中,我们介绍受非线性约束的 GMM 估计。

受约束的 GMM 估计器最小化受约束的 GMM 准则。这是

\[ \widehat{\beta}_{\mathrm{cgmm}}=\underset{r(\beta)=0}{\operatorname{argmin}} J(\beta) . \]

这是参数向量,它使估计方程相对于加权二次距离尽可能接近于零,同时对参数施加限制。

一般来说,\(\widehat{\beta}_{\mathrm{cgmm}}\) 没有明确的解决方案。相反,解决方案是通过数字找到的。幸运的是,在标准软件包中实现了出色的非线性约束优化求解器。

对于渐近分布,假设限制 \(r(\beta)=0\) 为真。使用与定理 \(8.10\) 证明相同的方法,我们可以证明 (13.17) 大约在以下意义上成立:

\[ \sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right)=\left(\boldsymbol{I}_{k}-\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{W} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) \sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right)+o_{p}(1) \]

其中 \(\boldsymbol{R}=\frac{\partial}{\partial \beta} r(\beta)^{\prime}\).因此,约束估计量的渐近分布采用与线性情况相同的形式。定理 \(13.11\) 在假设 \(12.2\) 和 8.3 下,对于约束 GMM 估计器 (13.23),\(\sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{\mathrm{cgmm}}\right)\) 等于 \(n \rightarrow \infty\),其中 \(\boldsymbol{V}_{\mathrm{cgmm}}\) 等于 (13.18)。如果 \(W=\widehat{\Omega}^{-1}\),则 \(V_{\text {cgmm }}\) 等于 (13.20)。

有效情况下的渐近协方差矩阵由 (13.21) 估计,其中 \(\boldsymbol{R}\) 替换为 \(\widehat{\boldsymbol{R}}=\frac{\partial}{\partial \beta} r\left(\widehat{\beta}_{\text {cgmm }}\right)^{\prime}\)。一般情况下的渐近协方差矩阵 (13.18) 的估计方式类似。

为了实现迭代受限 GMM 估计器,权重矩阵可以设置为 \(\boldsymbol{W}=\widetilde{\Omega}^{-1}\),其中 \(\widetilde{\Omega}\) 在 (13.22) 中定义,然后迭代直到收敛。

13.17 约束回归

采用传统投影模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[X e]=0\)。这是 GMM 的一个特例,因为它是带有 \(Z=X\) 的模型 (13.5)。刚刚确定的 GMM 估计量等于最小二乘 \(\widehat{\beta}_{\mathrm{gmm}}=\widehat{\beta}_{\mathrm{ols}}\)

在第 8 章中,我们讨论了受线性约束 \(\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}\) 影响的投影模型的估计,其中包括排除限制。由于投影模型是 GMM 的特例,因此约束投影模型也是约束 GMM。从 \(13.15\) 节的结果我们发现有效的约束 GMM 估计器是

\[ \widehat{\beta}_{\mathrm{cgmm}}=\widehat{\beta}_{\mathrm{ols}}-\widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right)=\widehat{\beta}_{\mathrm{emd}}, \]

有效的最小距离估计器。因此,对于线性投影模型的线性约束,有效 GMM 等于有效最小距离。因此,一种实现有效最小距离的便捷方法是 GMM。

13.18 多元回归

GMM 方法可以简化多元回归的估计和推理,例如 \(11 .\) 章中介绍的方法

一般的多元回归(投影)模型是

\[ \begin{aligned} Y_{j} &=X_{j}^{\prime} \beta_{j}+e_{j} \\ \mathbb{E}\left[X_{j} e_{j}\right] &=0 \end{aligned} \]

\(j=1, \ldots, m\)。使用 \(11.2\) 节中的符号,方程可以联合写为 \(Y=\bar{X} \beta+e\),而完整样本则可以写为 \(\boldsymbol{Y}=\overline{\boldsymbol{X}} \beta+\boldsymbol{e}\)\(\bar{k}\) 矩条件是

\[ \mathbb{E}\left[\bar{X}^{\prime}(Y-\bar{X} \beta)\right]=0 . \]

给定 \(\bar{k} \times \bar{k}\) 权重矩阵 \(\boldsymbol{W}\),GMM 准则为

\[ J(\beta)=n(\boldsymbol{Y}-\overline{\boldsymbol{X}} \beta)^{\prime} \overline{\boldsymbol{X}} \boldsymbol{W} \overline{\boldsymbol{X}}^{\prime}(\boldsymbol{Y}-\overline{\boldsymbol{X}} \beta) . \]

GMM 估计器 \(\widehat{\beta}_{\text {gmm }}\) 最小化 \(J(\beta)\)。由于这是刚刚识别的模型,因此估计器求解样本方程

\[ \overline{\boldsymbol{X}}^{\prime}\left(\boldsymbol{Y}-\overline{\boldsymbol{X}} \widehat{\beta}_{\mathrm{gmm}}\right)=0 \]

解决办法是

\[ \widehat{\beta}_{\mathrm{gmm}}=\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} \bar{X}_{i}\right)^{-1}\left(\sum_{i=1}^{n} \bar{X}_{i}^{\prime} Y_{i}\right)=\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1}\left(\overline{\boldsymbol{X}}^{\prime} \boldsymbol{Y}\right)=\widehat{\beta}_{\mathrm{ols}} \]

多元最小二乘估计器。

因此,多元回归模型的无约束 GMM 估计量是最小二乘法。由于模型刚刚被识别,因此估计器不依赖于权重矩阵。

GMM 框架的一个重要优点是能够合并交叉方程约束。考虑限制类别 \(\boldsymbol{R}^{\prime} \beta=\boldsymbol{c}\)。受此限制的 GMM 准则的最小化具有如 (13.15) 中所述的解决方案。受限 GMM 估计量为

\[ \widehat{\beta}_{\mathrm{gmm}}=\widehat{\beta}_{\mathrm{ols}}-\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}} \boldsymbol{W} \overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}} \boldsymbol{W} \overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right) \]

该估计器依赖于权重矩阵,因为它被过度识别。

权重矩阵的一个简单选择是 \(\boldsymbol{W}=\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\)。这导致了一步估计器

\[ \widehat{\beta}_{1}=\widehat{\beta}_{\mathrm{ols}}-\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right) . \]

渐进有效的选择设置 \(\boldsymbol{W}=\widehat{\Omega}^{-1}\),其中 \(\widehat{\Omega}=n^{-1} \sum_{i=1}^{n} \bar{X}_{i}^{\prime} \widehat{e}_{i} \widehat{e}_{i}^{\prime} \bar{X}_{i}\)\(\widehat{e}_{i}=Y_{i}-\bar{X}_{i} \widehat{\beta}_{1}\)。这导致了两步估计器

\[ \widehat{\beta}_{2}=\widehat{\beta}_{\text {ols }}-\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}} \widehat{\Omega}^{-1} \overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}} \widehat{\Omega}^{-1} \overline{\boldsymbol{X}}^{\prime} \overline{\boldsymbol{X}}\right)^{-1} \boldsymbol{R}\right)^{-1}\left(\boldsymbol{R}^{\prime} \widehat{\beta}_{\mathrm{ols}}-\boldsymbol{c}\right) \]

当回归量 \(X\) 在所有方程中都是通用的时,多元回归模型可以方便地编写为(11.3):\(Y=\boldsymbol{B}^{\prime} X+e\)\(\mathbb{E}\left[X e^{\prime}\right]=0\)。矩限制可以写成矩阵系统\(\mathbb{E}\left[X\left(Y^{\prime}-X^{\prime} \boldsymbol{B}\right)\right]=0\)。将其写为矢量系统时,为 (13.24),并导致相同的受限 GMM 估计量。

这些是施加限制的一般公式。在特定情况下(例如排除限制),直接方法可能更方便。在所有情况下,解决方案都是通过最小化受限制的 GMM 准则 \(J(\beta)\) 来找到的。

13.19 距离测试

\(13.14\) 节中,我们介绍了假设 \(\mathbb{M}_{0}: \theta=\theta_{0}\) 的 Wald 检验,其中 \(\theta=r(\beta)\) 对于给定函数 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\)。当 \(r(\beta)\) 是非线性时,替代方法是使用基于标准的统计量。这有时称为 GMM 距离统计量,有时称为类 LR 统计量(LR 表示似然比)。这个想法首先由 Newey 和 West (1987a) 提出。

这个想法是通过对比准则函数来比较无限制和受限制的估计器。无限制估计量采用以下形式

\[ \widehat{\beta}_{\mathrm{gmm}}=\underset{\beta}{\operatorname{argmin}} \widehat{J}(\beta) \]

在哪里

\[ \widehat{J}(\beta)=n \bar{g}_{n}(\beta)^{\prime} \widehat{\Omega}^{-1} \bar{g}_{n}(\beta) \]

是具有有效权重矩阵估计 \(\widehat{\Omega}\) 的无限制 GMM 准则。标准的最小值为 \(\widehat{J}=\widehat{J}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\)。如第 13.15 节所示,受 \(r(\beta)=\theta_{0}\) 影响的估计器是

\[ \widehat{\beta}_{\mathrm{cgmm}}=\underset{r(\beta)=\theta_{0}}{\operatorname{argmin}} \widetilde{J}(\beta) \]

在哪里

\[ \widetilde{J}(\beta)=n \bar{g}_{n}(\beta)^{\prime} \widetilde{\Omega}^{-1} \bar{g}_{n}(\beta) \]

这取决于有效的权重矩阵估计器,\(\widehat{\Omega}\)(与无限制估计器相同)或\(\widetilde{\Omega}\)(来自约束估计的迭代权重矩阵)。标准的最小值为 \(\widetilde{J}=\widetilde{J}\left(\widehat{\beta}_{\operatorname{cgmm}}\right)\)

GMM 距离(或类 LR)统计量是准则函数 \(D=\widetilde{J}-\widehat{J}\) 之间的差异。距离测试具有 LR 测试的有用特征,因为它是替代模型计算的自然副产品。

该测试具有以下大样本分布。

定理 \(13.12\) 在假设 12.2、假设 7.3 和 \(\mathbb{H}_{0}\) 下,则为 \(n \rightarrow\) \(\infty, D \longrightarrow \chi_{q}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{q}(c), \mathbb{P}\left[D>c \mid \mathbb{H}_{0}\right] \longrightarrow \alpha\)。测试“如果 \(D>c\) 则拒绝 \(\mathbb{H}_{0}\)”具有渐近大小 \(\alpha\)

第 13.28 节给出了证明。

定理 \(13.12\) 表明距离统计量与 Wald 和似然比统计量具有相同的渐近分布,并且可以进行类似的解释。 \(D\) 的值较小意味着施加限制不会导致矩方程值较大。因此,该限制似乎与数据兼容。另一方面,较大的 \(D\) 值意味着施加限制会导致矩方程值变得更大,这意味着限制与数据不兼容。渐近分布是卡方的发现允许计算渐近临界值和 p 值。

现在我们讨论权重矩阵的选择。如上所述,一个简单的选择是设置 \(\widetilde{\Omega}=\widehat{\Omega}\)。在这种情况下,我们得到以下结果。

定理 13.13 如果 \(\widetilde{\Omega}=\widehat{\Omega}\)\(D \geq 0\)。此外,如果 \(r\)\(\beta\) 中是线性的,则 \(D\) 等于 Wald 统计量。

\(\widetilde{\Omega}=\widehat{\Omega}\) 暗示 \(D \geq 0\) 的说法是根据这样的事实得出的:在这种情况下,准则函数 \(\widehat{J}(\beta)=\widetilde{J}(\beta)\) 是相同的,因此受约束的最小值不能小于无约束的最小值。线性假设和 \(\widetilde{\Omega}=\widehat{\Omega}\) 意味着 \(D=W\) 的陈述是通过应用约束 GMM 估计量 (13.19) 的表达式并使用协方差矩阵公式 (13.11) 得出的。

\(D \geq 0\)\(\widetilde{\Omega}=\widehat{\Omega}\) 的事实促使 Newey 和 West (1987a) 推荐这种选择。然而,\(\widetilde{\Omega}=\widehat{\Omega}\) 不是必需的。相反,将 \(\widetilde{\Omega}\) 设置为等于约束有效权重矩阵对于有效估计 \(\widehat{\beta}_{\mathrm{cgmm}}\) 来说是很自然的。如果 \(D<0\) 检验根本无法在任何显着性水平上拒绝 \(\mathbb{H}_{0}\)

正如 \(9.17\) 节中针对非线性假设检验所讨论的,Wald 统计量的效果可能相当差。特别是,Wald 统计量受到假设 \(r(\beta)\) 的表述方式的影响。相反,距离统计量 \(D\) 不受假设的代数表述的影响。目前的证据表明,\(D\) 统计量似乎具有良好的采样特性,并且相对于 Wald 统计量而言,它是非线性假设的首选检验统计量。 (参见 B.E.Hansen (2006)。)

在 Stata 中,ivregress gmm 之后的命令 estat overid 可用于报告 GMM 准则 \(J\) 的值。通过估计两个嵌套 GMM 回归,可以获得值 \(\widehat{J}\)\(\widetilde{J}\) 并计算 \(D\)

13.20 持续更新的GMM

可以通过让权重矩阵为 \(\beta\) 的显式函数来构建两步 GMM 估计器的替代方案。这些导致了标准函数

\[ J(\beta)=n \bar{g}_{n}(\beta)^{\prime}\left(\frac{1}{n} \sum_{i=1}^{n} g_{i}(\beta) g_{i}(\beta)^{\prime}\right)^{-1} \bar{g}_{n}(\beta) . \]

最小化该函数的 \(\widehat{\beta}\) 称为连续更新 GMM (CU-GMM) 估计器,由 L. Hansen、Heaton 和 Yaron (1996) 引入。

一个复杂的问题是,不断更新的准则 \(J(\beta)\)\(\beta\) 中不是二次的。这意味着最小化需要数值方法。 CU-GMM 估计器可能看起来与迭代 GMM 估计器相同,但事实并非如此。它们解决不同的一阶条件,并且在应用中可能有很大不同。

相对于传统 GMM,CU-GMM 估计器具有较低的偏差,但分布尾部较厚。虽然它在理论上受到了相当多的关注,但在应用中并不常用。

13.21 过度识别测试

\(12.31\) 节中,我们在同方差假设下介绍了 2SLS 估计量的 Sargan (1958) 过度识别检验。 L. Hansen (1982) 将检验推广到了考虑到一般异方差性的 GMM 估计量。

回想一下,过度识别的模型 \((\ell>k)\) 是特殊的,因为可能不存在参数值 \(\beta\) 使得时刻条件 \(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\) 成立。因此,该模型——过度识别的限制——是可测试的。

例如,采用带有 \(\mathbb{E}\left[X_{1} e\right]=0\)\(\mathbb{E}\left[X_{2} e\right]=0\) 的线性模型 \(Y=\beta_{1}^{\prime} X_{1}+\beta_{2}^{\prime} X_{2}+e\)\(\beta_{2}=0\) 是可能的,因此线性方程可以写为 \(Y=\beta_{1}^{\prime} X_{1}+e\)。然而,\(\beta_{2} \neq 0\) 是有可能的。在这种情况下,不可能找到 \(\beta_{1}\) 的值使得 \(\mathbb{E}\left[X_{1}\left(Y-X_{1}^{\prime} \beta_{1}\right)\right]=0\)\(\mathbb{E}\left[X_{2}\left(Y-X_{1}^{\prime} \beta_{1}\right)\right]=0\) 同时成立。从这个意义上说,排除限制可以被视为过度识别限制。

请注意,\(\bar{g}_{n} \underset{p}{\mathbb{E}}[Z e]\)\(\bar{g}_{n}\) 可用于评估假设 \(\mathbb{E}[Z e]=0\)。假设使用有效的权重矩阵估计器,参数估计器的准则函数为 \(J=\) \(J\left(\widehat{\beta}_{\mathrm{gmm}}\right)=n \bar{g}_{n}^{\prime} \widehat{\Omega}^{-1} \bar{g}_{n}\)。这是 \(\bar{g}_{n}\) 中的二次形式,因此是 \(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\) 的自然检验统计量。请注意,我们假设标准函数是使用有效的权重矩阵估计器构建的。这对于分布理论很重要。

定理 13.14 假设 \(12.2\) 则为 \(n \rightarrow \infty, J=J\left(\widehat{\beta}_{\mathrm{gmm}}\right) \underset{d}{\rightarrow} \chi_{\ell-k}^{2} \cdot\) 对于 \(c\) 满足 \(\alpha=1-G_{\ell-k}(c), \mathbb{P}\left[J>c \mid \mathbb{M}_{0}\right] \longrightarrow \alpha\),因此测试“如果 \(J>c\) 则拒绝 \(\mathbb{H}_{0}\)”具有渐近大小 \(\alpha\)。该定理的证明留给练习 13.13。

渐近分布的自由度是过度识别限制的数量。如果统计量 \(J\) 超过卡方临界值,我们可以拒绝该模型。仅根据这些信息,尚不清楚出了什么问题,但通常会引起担忧。 GMM 过度识别测试是 GMM 方法的一个有用的副产品,只要 GMM 是估计方法,建议报告统计数据 \(J\)。当 GMM 估计过度识别的模型时,通常会报告 \(J\) 统计量作为模型充分性的一般测试。

在Stata中,命令estat overid afer ivregress gmm可用于实现过度识别测试。报告使用 \(\chi_{\ell-k}^{2}\) 分布的 GMM 准则 \(J\) 及其渐近 \(\mathrm{p}\) 值。

13.22 子集过度识别测试

\(12.32\) 节中,我们在同方差假设下引入了 2SLS 估计器的子集过度识别测试。在本节中,我们描述如何在一般异方差下构建 GMM 估计量的类似检验。

回想一下,当需要将注意力集中在有效性受到质疑的工具子集上时,使用子集过度识别测试。分区 \(Z=\left(Z_{a}, Z_{b}\right)\) 分别具有维度 \(\ell_{a}\)\(\ell_{b}\),其中 \(Z_{a}\) 包含被认为与 \(e\) 不相关的工具,\(Z_{b}\) 包含可能与 \(e\) 相关的工具。有必要选择此分区,以便\(\ell_{a}>k\),以便工具\(Z_{a}\)单独识别参数。

给定这个分区,维持的假设是 \(\mathbb{E}\left[Z_{a} e\right]=0\)。原假设和备择假设是 \(\mathbb{H}_{0}: \mathbb{E}\left[Z_{b} e\right]=0\)\(\mathbb{M}_{1}: \mathbb{E}\left[Z_{b} e\right] \neq 0\)。 GMM 检验的构造如下。首先,仅使用较小的 \(Z_{a}\) 工具集通过高效 GMM 来估计模型。让 \(\widetilde{J}\) 表示生成的 GMM 准则。其次,通过高效的 GMM 和全套 \(Z=\left(Z_{a}, Z_{b}\right)\) 工具来估计模型。让 \(\widehat{J}\) 表示生成的 GMM 准则。检验统计量是准则函数的差异:\(C=\widehat{J}-\widetilde{J}\)。这类似于 13.19 节中介绍的 GMM 距离统计。区别在于,距离统计比较基于参数限制而不同的模型,而 \(C\) 统计比较基于不同仪器集的模型。

通常为 \(C \geq 0\)。然而,这不是必需的,\(C<0\) 可能会出现。如果发生这种情况,就会导致 \(\mathbb{H}_{0}\) 不被拒绝。

如果较小的工具集 \(Z_{a}\) 刚刚被识别,那么 \(\ell_{a}=k\) 那么 \(\widetilde{J}=0\) 那么 \(C=\widehat{J}\) 只是标准的过度识别测试。这就是为什么我们限制对 \(\ell_{a}>k\) 案例的关注。

该测试具有以下大样本分布。

定理 13.15 假设 \(12.2\)\(\mathbb{E}\left[Z_{a} X^{\prime}\right]\) 具有满秩 \(k\),则 \(n \rightarrow \infty, C \rightarrow \underset{d}{\rightarrow} \chi_{\ell_{b}}^{2} .\) 对于 \(c\) 满足 \(\alpha=1-G_{\ell_{b}}(c), \mathbb{P}\left[C>c \mid \mathbb{H}_{0}\right] \longrightarrow \alpha .\) 测试“如果 \(C>c\) 则拒绝 \(\mathbb{H}_{0}\)”具有渐近大小 \(\alpha\)

定理 \(13.15\) 的证明在第 13.28 节中给出。

在 Stata 中,命令 estat overid zb afer ivregress gmm 可用于实现子集过度识别测试,其中 \(\mathrm{zb}\) 是测试有效性的仪器的名称。报告使用 \(\chi_{\ell_{2}}^{2}\) 分布的统计量 \(C\) 及其渐近 \(p\) 值。

13.23 内生性检验

\(12.29\) 节中,我们介绍了 2SLS 估计背景下的内生性检验。内生性测试作为子集过度识别测试在 GMM 框架中很容易实现。该模型为 \(Y=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\),其中维持的假设是回归量 \(Z_{1}\) 和排除的工具 \(Z_{2}\) 是外生的,因此 \(\mathbb{E}\left[Z_{1} e\right]=0\)\(\mathbb{E}\left[Z_{2} e\right]=0\)。问题是 \(Y_{2}\) 是否是内生的。原假设为 \(\mathbb{M}_{0}: \mathbb{E}\left[Y_{2} e\right]=0\),替代假设为 \(\mathbb{H}_{1}: \mathbb{E}\left[Y_{2} e\right] \neq 0\)

GMM 检验的构造如下。首先,使用 \(\left(Z_{1}, Z_{2}\right)\) 作为 \(\left(Z_{1}, Y_{2}\right)\) 的工具,通过高效 GMM 来估计模型。让 \(\widetilde{J}\) 表示生成的 GMM 准则。其次,使用 \(\left(Z_{1}, Z_{2}, Y_{2}\right)\) 作为 \(\left(Z_{1}, Y_{2}\right)\) 的工具,通过高效的 \(\mathrm{GMM}^{2}\) 来估计模型。让 \(\widehat{J}\) 表示生成的 GMM 准则。检验统计量是准则函数的差异:\(C=\widehat{J}-\widetilde{J}\)

该测试的分布理论是过度识别测试的一个特例。

定理\(13.16\) 假设\(12.2\)\(\mathbb{E}\left[Z_{2} Y_{2}^{\prime}\right]\) 具有满秩\(k_{2}\),则为\(n \rightarrow \infty, C \underset{d}{\rightarrow} \chi_{k_{2}}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{k_{2}}(c), \mathbb{P}\left[C>c \mid \mathbb{H}_{0}\right] \rightarrow \alpha\)。测试“如果 \(C>c\) 则拒绝 \(\mathbb{H}_{0}\)”具有渐近大小 \(13.16\)

在Stata中,可以使用命令estat endogenous afer ivregress gmm来实现内生性检验。报告使用 \(\chi_{k_{2}}^{2}\) 分布的统计量 \(C\) 及其渐近 \(p\) 值。

13.24 子集内生性检验

\(12.30\) 节中,我们引入了 2SLS 估计的子集内生性检验。 GMM 测试作为子集过度识别测试很容易实现。该模型为 \(Y=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+Y_{3}^{\prime} \beta_{3}+e\)\(\mathbb{E}[Z e]=0\),其中工具向量为 \(Z=\left(Z_{1}, Z_{2}\right)\)\(k_{3} \times 1\) 变量 \(Y_{3}\) 被视为内生变量,\(k_{2} \times 1\) 变量 \(Y_{2}\) 被视为潜在内生变量。要测试的假设是 \(Y_{2}\) 是外生的,或者 \(12.30\) 相对于 \(12.30\)。该测试需要 \(12.30\),以便可以在 \(12.30\) 下估计模型。

GMM 检验的构造如下。首先,使用 \(\left(Z_{1}, Z_{2}\right.\) ) 作为 \(\left(Z_{1}, Y_{2}, Y_{3}\right)\) 的工具,通过高效 GMM 来估计模型。让 \(\widetilde{J}\) 表示生成的 GMM 准则。其次,使用 \(\left(Z_{1}, Z_{2}, Y_{2}\right)\) 作为 \(\left(Z_{1}, Y_{2}, Y_{3}\right)\) 的工具,通过高效 GMM 来估计模型。让 \(\widehat{J}\) 表示生成的 GMM 准则。检验统计量是准则函数的差异:\(C=\widehat{J}-\widetilde{J}\)

检验的分布理论是过度识别检验理论的一个特例。

定理\(13.17\) 假设\(12.2\)\(\mathbb{E}\left[Z_{2}\left(Y_{2}^{\prime}, Y_{3}^{\prime}\right)\right]\) 具有满秩\(k_{2}+k_{3}\),则为\(n \rightarrow \infty, C \underset{d}{\longrightarrow} \chi_{k_{2}}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{k_{2}}(c), \mathbb{P}\left[C>c \mid \mathbb{H}_{0}\right] \longrightarrow \alpha\)。测试“如果 \(C>c\) 则拒绝 \(\mathbb{H}_{0}\)”具有渐近大小 \(13.17\)

在 Stata 中,命令 estat endogenous \(\mathrm{x} 2\) afer ivregress gmm 可用于实现内生性检验,其中 \(\mathrm{x} 2\) 是内生性测试变量的名称。报告使用 \(\chi_{k_{2}}^{2}\) 分布的统计量 \(C\) 及其渐近 \(\mathrm{p}\) 值。

\({ }^{2}\) 如果使用同方差权重矩阵,则此 GMM 估计器等于最小二乘,但当权重矩阵允许异方差时,有效的 GMM 估计器不等于最小二乘,因为模型被过度识别。

13.25 非线性GMM

只要经济或统计模型暗示 \(\ell \times 1\) 矩条件,GMM 就适用

\[ \mathbb{E}\left[g_{i}(\beta)\right]=0 . \]

其中 \(g_{i}(\beta)\) 可能是参数 \(\beta\) 的非线性函数。通常,这就是已知的全部。识别需要 \(\ell \geq k=\operatorname{dim}(\beta)\)。 GMM 估计器最小化

\[ J(\beta)=n \bar{g}_{n}(\beta)^{\prime} \widehat{\boldsymbol{W}} \bar{g}_{n}(\beta) \]

对于一些权重矩阵 \(\widehat{\boldsymbol{W}}\) 其中

\[ \bar{g}_{n}(\beta)=\frac{1}{n} \sum_{i=1}^{n} g_{i}(\beta) . \]

有效的 GMM 估计器可以通过设置来构建

\[ \widehat{\boldsymbol{W}}=\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{g}_{i} \widehat{g}_{i}^{\prime}-\bar{g}_{n} \bar{g}_{n}^{\prime}\right)^{-1}, \]

\(\widehat{g}_{i}=g_{i}(\widetilde{\beta})\) 使用初步一致估计器 \(\widetilde{\beta}\) 构建,可能通过 \(\widehat{\boldsymbol{W}}=\boldsymbol{I}_{\ell}\) 获得。与线性模型的情况一样,可以迭代权重矩阵直到收敛以获得迭代的 GMM 估计量。

命题13.1非线性GMM估计量的分布 在一般正则条件下,\(\sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中

\[ \boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \Omega \boldsymbol{W} \boldsymbol{Q}\right)\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \]

\(\Omega=\mathbb{E}\left[g_{i} g_{i}^{\prime}\right]\)

\[ \boldsymbol{Q}=\mathbb{E}\left[\frac{\partial}{\partial \beta^{\prime}} g_{i}(\beta)\right] \]

如果使用有效权重矩阵,则\(\boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}\)

由于使用了更先进的技术,因此省略了该结果的证明。

渐近协方差矩阵可以通过总体矩阵的样本对应物来估计。对于一般权重矩阵的情况,

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)^{-1}\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\Omega} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\boldsymbol{W}} \widehat{\boldsymbol{Q}}\right)^{-1} \]

在哪里

\[ \begin{gathered} \widehat{\Omega}=\frac{1}{n} \sum_{i=1}^{n}\left(g_{i}(\widehat{\beta})-\bar{g}\right)\left(g_{i}(\widehat{\beta})-\bar{g}\right)^{\prime} \\ \bar{g}=n^{-1} \sum_{i=1}^{n} g_{i}(\widehat{\beta}) \end{gathered} \]

\[ \widehat{\boldsymbol{Q}}=\frac{1}{n} \sum_{i=1}^{n} \frac{\partial}{\partial \beta^{\prime}} g_{i}(\widehat{\beta}) . \]

对于迭代有效权重矩阵的情况,

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\widehat{\boldsymbol{Q}}^{\prime} \widehat{\Omega}^{-1} \widehat{\boldsymbol{Q}}\right)^{-1} . \]

本章讨论的所有方法 - Wald 检验、约束估计、距离检验、过度识别检验、内生性检验 - 类似地适用于非线性 GMM 估计器。

13.26 GMM 引导程序

2SLS 的 bootstrap(第 12.23 节)可用于 GMM 估计。标准引导算法通过独立采样三元组 \(\left(Y_{i}^{*}, X_{i}^{*}, Z_{i}^{*}\right)\) 并替换原始样本来生成引导样本。 GMM 估计器应用于 bootstrap 样本以获得 bootstrap 估计值 \(\widehat{\beta}_{\mathrm{gmm}}^{*}\)。重复 \(B\) 次以创建 \(B\) 引导绘制的样本。根据这些抽签结果,按照传统方式计算自举置信区间,包括百分位数、\(\mathrm{BC}\) 百分位数、\(\mathrm{BC}_{a}\) 和百分位数-t。

对于方差和标准误差估计,同样的注意事项适用于 2SLS。很难知道 GMM 估计器在给定应用中是否具有有限方差。最好避免使用引导程序来计算标准误差。相反,请使用引导程序来确定百分位数和百分位数-t 置信区间。

当模型被过度识别时,如 2SLS 所讨论的,自举 GMM 推理将无法实现渐近细化,除非自举估计器重新居中以满足正交性条件。我们现在描述 Hall 和 Horowitz (1996) 建议的重新定位。

对于具有权重矩阵 \(\boldsymbol{W}\) 的线性 GMM,中心化 GMM 自举估计器为

\[ \widehat{\beta}_{\mathrm{gmm}}^{* *}=\left(\boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*} \boldsymbol{W}^{*} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)^{-1}\left(\boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*} \boldsymbol{W}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Y}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right)\right) \]

其中 \(\boldsymbol{W}^{*}\)\(\boldsymbol{W}\)\(\widehat{\boldsymbol{e}}=\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta}_{\mathrm{gmm}}\) 的引导版本。对于高效的 GMM,

\[ \boldsymbol{W}^{*}=\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i}^{*} Z_{i}^{* \prime}\left(Y_{i}^{*}-X_{i}^{* \prime} \widetilde{\beta}^{*}\right)^{2}\right)^{-1} \]

对于初步估计器 \(\widetilde{\beta}^{*}\)

对于非线性 GMM(第 13.25 节),修改了引导准则函数。重新定位的引导标准是

\[ \begin{aligned} &J^{* *}(\beta)=n\left(\bar{g}_{n}^{*}(\beta)-\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\right)^{\prime} \boldsymbol{W}^{*}\left(\bar{g}_{n}^{*}(\beta)-\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\right) \\ &\bar{g}_{n}^{*}(\beta)=\frac{1}{n} \sum_{i=1}^{n} g_{i}^{*}(\beta) \end{aligned} \]

其中 \(\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\) 来自样本而不是来自引导数据。自举估计器是

\[ \widehat{\beta}_{\mathrm{gmm}}^{* *}=\operatorname{argmin} J^{* *}(\beta) . \]

bootstrap 可用于计算 GMM 过度识别检验的 p 值。对于具有有效权重矩阵的 GMM 估计器,标准过度识别测试是 Hansen \(J\) 统计量

\[ J=n \bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime} \widehat{\Omega}^{-1} \bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right) . \]

居中引导程序模拟是

\[ J^{* *}=n\left(\bar{g}_{n}^{*}\left(\widehat{\beta}_{\mathrm{gmm}}^{* *}\right)-\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\right)^{\prime} \widehat{\Omega}^{*-1}\left(\bar{g}_{n}^{*}\left(\widehat{\beta}_{\mathrm{gmm}}^{* *}\right)-\bar{g}_{n}\left(\widehat{\beta}_{\mathrm{gmm}}\right)\right) \]

在每个引导样本上计算并存储 \(J^{* *}(b)\)。自举 p 值为

\[ p^{*}=\frac{1}{B} \sum_{b=1}^{B} \mathbb{1}\left\{J^{* *}(b)>S\right\} . \]

由于 \(J^{* *}\) 满足过度识别的矩条件,因此该引导 p 值渐近有效。

13.27 条件矩方程模型

在许多情况下,经济模型意味着以下形式的条件矩限制

\[ \mathbb{E}\left[e_{i}(\beta) \mid Z_{i}\right]=0 \]

其中 \(e_{i}(\beta)\) 是观测值和参数的某个 \(s \times 1\) 函数。在许多情况下\(s=1\)。事实证明,这种条件矩限制比本章讨论的无条件矩方程模型更强大。

例如,在假设 \(\mathbb{E}[e \mid Z]=0\) 下,带有工具 \(Z\) 的线性模型 \(Y=X^{\prime} \beta+e\) 就属于此类。在这种情况下\(e_{i}(\beta)=Y_{i}-X_{i}^{\prime} \beta\)

认识到传统回归模型也属于此类也是有帮助的,除了本例中的 \(X=Z\)。例如,在线性回归 \(e_{i}(\beta)=Y_{i}-X_{i}^{\prime} \beta\) 中,而在非线性回归模型 \(e_{i}(\beta)=Y_{i}-m\left(X_{i}, \beta\right)\) 中。在条件期望 \(\mathbb{E}[Y \mid X=x]=x^{\prime} \beta\) 和方差 \(\operatorname{var}[Y \mid X=x]=f(x)^{\prime} \gamma\) 的联合模型中,则

\[ e_{i}(\beta, \gamma)=\left\{\begin{array}{c} Y_{i}-X_{i}^{\prime} \beta \\ \left(Y_{i}-X_{i}^{\prime} \beta\right)^{2}-f\left(X_{i}\right)^{\prime} \gamma \end{array} .\right. \]

这里是\(s=2\)

给定条件矩限制,总是可以构造无条件矩限制。也就是说,对于任何 \(\ell \times 1\) 函数 \(\phi(Z, \beta)\),我们可以设置满足 \(\mathbb{E}\left[g_{i}(\beta)\right]=\) 0 的 \(g_{i}(\beta)=\phi\left(Z_{i}, \beta\right) e_{i}(\beta)\),从而定义一个无条件矩方程模型。明显的问题是函数类 \(\phi\) 是无限的。应该选择哪个?

这相当于选择最佳仪器的问题。如果 \(Z \in \mathbb{R}\) 是满足 \(\mathbb{E}[e \mid Z]=0\) 的有效工具,那么 \(Z, Z^{2}, Z^{3}\) 等都是有效工具。应该使用哪个?

一种解决方案是构建一个无限的有效工具列表,然后使用第一个 \(\ell\)\(\ell\) 如何确定?这是一个仍在发展中的理论领域。 Donald 和 Newey (2001) 对此问题进行了一项研究。

另一种方法是构建最小化渐近方差的最优工具。该形式是由张伯伦(Chamberlain,1987)发现的。以 \(s=1\) 为例。让

\[ R_{i}=\mathbb{E}\left[\frac{\partial}{\partial \beta} e_{i}(\beta) \mid Z_{i}\right] \]

\(\sigma_{i}^{2}=\mathbb{E}\left[e_{i}(\beta)^{2} \mid Z_{i}\right]\)。那么最佳工具是 \(A_{i}=-\sigma_{i}^{-2} R_{i}\)。最佳时刻是 \(g_{i}(\beta)=\) \(A_{i} e_{i}(\beta)\)。将 \(g_{i}(\beta)\) 设置为此选择(即 \(k \times 1\),因此是刚刚确定的)会产生具有最低渐近方差的 GMM 估计量。实际上 \(A_{i}\) 是未知的,但它的形式可以帮助我们思考构建好的工具。在线性模型 \(e_{i}(\beta)=Y_{i}-X_{i}^{\prime} \beta\) 中,请注意 \(R_{i}=-\mathbb{E}\left[X_{i} \mid Z_{i}\right]\)\(\sigma_{i}^{2}=\mathbb{E}\left[e_{i}(\beta)^{2} \mid Z_{i}\right]\)。这意味着最佳工具是 \(\sigma_{i}^{2}=\mathbb{E}\left[e_{i}(\beta)^{2} \mid Z_{i}\right]\)。对于线性回归\(\sigma_{i}^{2}=\mathbb{E}\left[e_{i}(\beta)^{2} \mid Z_{i}\right]\)\(\sigma_{i}^{2}=\mathbb{E}\left[e_{i}(\beta)^{2} \mid Z_{i}\right]\)。因此,高效 GMM 相当于 GLS!

对于内生变量,请注意,有效工具 \(A_{i}\) 涉及在给定 \(Z\) 的情况下估计 \(X\) 的条件平均值。换句话说,为了获得 \(X\) 的最佳工具,我们需要 \(X\) 的最佳条件均值模型,因为 \(Z\) 不仅仅是任意的线性投影。有效工具也与 \(e\) 的条件方差成反比。这与 GLS 估计器相同;也就是说,如果观测值的加权与误差的条件方差成反比,则可以获得更高的效率。

13.28 技术证明*

定理证明 13.12 设置 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{cgmm}}\)\(\widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{gmm}}\)。通过标准协方差矩阵分析 \(\widehat{\Omega} \vec{p} \Omega\)\(\widetilde{\Omega} \vec{p} \Omega\)。因此,我们可以替换条件中的 \(\widehat{\Omega}\)\(\widetilde{\Omega}\) 而不会影响渐近分布。尤其

\[ \begin{aligned} \widetilde{J}\left(\widehat{\beta}_{\mathrm{cgmm}}\right) &=\frac{1}{n} \widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z} \widetilde{\Omega}^{-1} \boldsymbol{Z}^{\prime} \widetilde{\boldsymbol{e}} \\ &=\frac{1}{n} \widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \widetilde{\boldsymbol{e}}+o_{p}(1) . \end{aligned} \]

现在观察一下

\[ \boldsymbol{Z}^{\prime} \widetilde{\boldsymbol{e}}=\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}-\boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right) . \]

因此

\[ \begin{aligned} \frac{1}{n} \widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \widetilde{\boldsymbol{e}} &=\frac{1}{n} \widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}-\frac{2}{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} \\ &+\frac{1}{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right) \\ &=\widehat{J}\left(\widehat{\beta}_{\mathrm{gmm}}\right)+\frac{1}{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right) \end{aligned} \]

其中第二个等式成立,因为 \(\boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} Z^{\prime} \widehat{\boldsymbol{e}}=0\)\(\widehat{\beta}_{\mathrm{gmm}}\) 的一阶条件。根据 \(\mathbb{M}_{0}\) 下的 (13.16) 和定理 13.4

\[ \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right) &=-\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \Omega^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\left(\boldsymbol{R}^{\prime}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z} \Omega^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \sqrt{n}\left(\widehat{\beta}_{\mathrm{gmm}}-\beta\right)+o_{p}(1) \\ & \underset{d}{\longrightarrow}\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1} \boldsymbol{R} Z \end{aligned} \]

在哪里

\[ \begin{aligned} Z & \sim \mathrm{N}\left(0, \boldsymbol{V}_{\boldsymbol{R}}\right) \\ \boldsymbol{V}_{\boldsymbol{R}} &=\left(\boldsymbol{R} \boldsymbol{V}^{\prime}\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1} \boldsymbol{R}\right)^{-1} . \end{aligned} \]

将(13.25)、(13.26)、(13.27)和(13.28)放在一起,

\[ \begin{aligned} D &=\widetilde{J}\left(\widehat{\beta}_{\mathrm{cgmm}}\right)-\widehat{J}\left(\widehat{\beta}_{\mathrm{gmm}}\right) \\ &=\sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right)^{\prime} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X} \sqrt{n}\left(\widehat{\beta}_{\mathrm{cgmm}}-\widehat{\beta}_{\mathrm{gmm}}\right) \\ & \underset{d}{\longrightarrow} Z^{\prime} \boldsymbol{V}_{\boldsymbol{R}}^{-1} Z \sim \chi_{q}^{2} \end{aligned} \]

因为 \(V_{R}>0\)\(\mathrm{Z}\)\(q \times 1\)

定理证明13.15 令\(\widetilde{\beta}\) 表示使用工具集\(Z_{a}\) 获得的GMM 估计量,令\(\widehat{\beta}\) 表示使用工具集\(Z\) 获得的GMM 估计量。设置\(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}, \widehat{e}{ }_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}\)

\[ \begin{aligned} &\widetilde{\Omega}=n^{-1} \sum_{i=1}^{n} Z_{a i} Z_{a i}^{\prime} \widetilde{e}_{i}^{2} \\ &\widehat{\Omega}=n^{-1} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widehat{e}_{i}^{2} \end{aligned} \]

\(\boldsymbol{R}\)\(\ell \times \ell_{a}\) 选择器矩阵,以便 \(Z_{a}=\boldsymbol{R}^{\prime} Z\)。注意

\[ \widetilde{\Omega}=\boldsymbol{R}^{\prime} n^{-1} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widetilde{e}_{i}^{2} \boldsymbol{R} . \]

通过标准协方差矩阵分析,\(\widehat{\Omega} \underset{p}{\rightarrow} \Omega\)\(\widetilde{\Omega} \underset{p}{\rightarrow} \boldsymbol{R}^{\prime} \Omega \boldsymbol{R}\)。另外,比如说\(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X} \underset{p}{\rightarrow} \boldsymbol{Q}\)。根据 CLT,\(n^{-1 / 2} \boldsymbol{Z}^{\prime} \boldsymbol{e} \underset{d}{\longrightarrow} Z\) 其中 \(Z \sim \mathrm{N}(0, \Omega)\)。然后

\[ \begin{aligned} n^{-1 / 2} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} &=\left(\boldsymbol{I}_{\ell}-\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \widehat{\Omega}^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \widehat{\Omega}^{-1}\right) n^{-1 / 2} \boldsymbol{Z}^{\prime} \boldsymbol{e} \\ & \rightarrow\left(\boldsymbol{I}_{\ell}-\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \Omega^{-1}\right) Z \end{aligned} \]

\[ \begin{aligned} n^{-1 / 2} \boldsymbol{Z}_{a}^{\prime} \widetilde{\boldsymbol{e}} &=\boldsymbol{R}^{\prime}\left(\boldsymbol{I}_{\ell}-\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \boldsymbol{R}^{-1} \boldsymbol{R}^{\prime} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \boldsymbol{R}^{-1} \boldsymbol{R}^{\prime}\right) n^{-1 / 2} \boldsymbol{Z}^{\prime} \boldsymbol{e} \\ & \underset{d}{\longrightarrow} \boldsymbol{R}^{\prime}\left(\boldsymbol{I}_{\ell}-\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \Omega \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \Omega \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) Z \end{aligned} \]

共同。

通过 \(Z\)\(\boldsymbol{R}\) 的线性旋转,我们可以设置 \(\Omega=\boldsymbol{I}_{\ell}\) 来简化符号。因此设置 \(\boldsymbol{P}_{\boldsymbol{Q}}=\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime}\)\(\boldsymbol{P}_{\boldsymbol{R}}=\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\)\(Z \sim \mathrm{N}\left(0, \boldsymbol{I}_{\ell}\right)\) 我们有

\[ \widehat{J} \underset{d}{\longrightarrow} Z^{\prime}\left(I_{\ell}-\boldsymbol{P}_{\mathbf{Q}}\right) Z \]

\[ \widetilde{J} \underset{d}{\rightarrow} Z^{\prime}\left(\boldsymbol{P}_{\boldsymbol{R}}-\boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{P}_{R} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \boldsymbol{P}_{\boldsymbol{R}}\right) Z \]

它遵循

\[ C=\widehat{J}-\widetilde{J} \underset{d}{\longrightarrow} \mathrm{Z}^{\prime} A \mathrm{Z} \]

在哪里

\[ \boldsymbol{A}=\left(\boldsymbol{I}_{\ell}-\boldsymbol{P}_{Q}-\boldsymbol{P}_{\boldsymbol{R}}+\boldsymbol{P}_{R} \boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{P}_{R} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \boldsymbol{P}_{R}\right) . \]

这是标准法向量的二次形式,并且矩阵 \(\boldsymbol{A}\) 是幂等的(这很容易检查)。 \(Z^{\prime} A Z\) 因此分布为 \(\chi_{d}^{2}\),自由度 \(d\) 等于

\[ \begin{aligned} \operatorname{rank}(\boldsymbol{A}) &=\operatorname{tr}\left(\boldsymbol{I}_{\ell}-\boldsymbol{P}_{\boldsymbol{Q}}-\boldsymbol{P}_{\boldsymbol{R}}+\boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \boldsymbol{P}_{\boldsymbol{R}}\right) \\ &=\ell-k-\ell_{a}+k=\ell_{b} \end{aligned} \]

因此,\(C\) 的渐近分布是 \(\chi_{\ell_{b}}^{2}\)

13.29 练习

练习13.1 建立模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \mathbb{E}[X e] &=0 \\ e^{2} &=Z^{\prime} \gamma+\eta \\ \mathbb{E}[Z \eta] &=0 . \end{aligned} \]

\((\beta, \gamma)\) 的矩估计器 \((\widehat{\beta}, \widehat{\gamma})\) 的方法

练习 13.2 采用模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[e \mid Z]=0\)。令 \(\widehat{\beta}_{\mathrm{gmm}}\) 为使用权重矩阵 \(\boldsymbol{W}_{n}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\) 的 GMM 估计器。假设 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 表明

\[ \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \sigma^{2}\left(\boldsymbol{Q}^{\prime} \boldsymbol{M}^{-1} \boldsymbol{Q}\right)^{-1}\right) \]

其中 \(\boldsymbol{Q}=\mathbb{E}\left[Z X^{\prime}\right]\)\(\boldsymbol{M}=\mathbb{E}\left[Z Z^{\prime}\right]\)

练习 13.3 采用模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\)。让 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}\) 其中 \(\widetilde{\beta}\)\(\beta\) 一致(例如具有某些权重矩阵的 GMM 估计器)。最优 GMM 权重矩阵的估计量为

\[ \widehat{\boldsymbol{W}}=\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widetilde{e}_{i}^{2}\right)^{-1} . \]

显示 \(\widehat{\boldsymbol{W}} \underset{p}{\longrightarrow} \Omega^{-1}\) 其中 \(\Omega=\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\)

练习 \(13.4\) 在由 GMM 用一般权重矩阵 \(\boldsymbol{W}\) 估计的线性模型中,\(\widehat{\beta}_{\mathrm{gmm}}\) 的渐近方差为

\[ \boldsymbol{V}=\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime} \boldsymbol{W} \Omega \boldsymbol{W} \boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{W} \boldsymbol{Q}\right)^{-1} \]

  1. \(\boldsymbol{W}=\Omega^{-1}\) 时,令 \(\boldsymbol{V}_{0}\) 为该矩阵。显示\(\boldsymbol{V}_{0}=\left(\boldsymbol{Q}^{\prime} \Omega^{-1} \boldsymbol{Q}\right)^{-1}\)

  2. 我们想要证明,对于任何 \(\boldsymbol{W}, \boldsymbol{V}-\boldsymbol{V}_{0}\) 都是半正定的(因为 \(\boldsymbol{V}_{0}\) 是较小的可能协方差矩阵,而 \(W=\Omega^{-1}\) 是有效权重矩阵)。为此,首先查找矩阵 \(\boldsymbol{A}\)\(\boldsymbol{B}\),使得 \(\boldsymbol{V}=\boldsymbol{A}^{\prime} \Omega \boldsymbol{A}\)\(\boldsymbol{V}_{0}=\boldsymbol{B}^{\prime} \Omega \boldsymbol{B}\) 满足。

  3. 显示 \(\boldsymbol{B}^{\prime} \Omega \boldsymbol{A}=\boldsymbol{B}^{\prime} \Omega \boldsymbol{B}\) 并因此显示 \(\boldsymbol{B}^{\prime} \Omega(\boldsymbol{A}-\boldsymbol{B})=0\)

  4. 使用表达式 \(\boldsymbol{V}=\boldsymbol{A}^{\prime} \mathbf{\Omega} \boldsymbol{A}, \boldsymbol{A}=\boldsymbol{B}+(\boldsymbol{A}-\boldsymbol{B})\)\(\boldsymbol{B}^{\prime} \boldsymbol{\Omega}(\boldsymbol{A}-\boldsymbol{B})=0\) 来证明 \(\boldsymbol{V} \geq \boldsymbol{V}_{0}\)

练习 \(13.5\) 证明定理 13.8。

练习13.6 推导约束GMM 估计器(13.16)。

练习13.7 证明带有有效权重矩阵的约束GMM 估计器(13.16) 是(13.19)。

练习 \(13.8\) 证明定理 13.9。

练习 13.9 证明定理 13.10。练习 \(13.10\) 感兴趣的方程是 \(Y=m(X, \beta)+e\)\(\mathbb{E}[Z e]=0\),其中 \(m(x, \beta)\) 是已知函数,\(\beta\)\(k \times 1\)\(Z\)\(\ell \times 1\)。展示如何为 \(\beta\) 构建高效的 GMM 估计器。

练习 13.11 作为练习 \(12.7\) 的延续,使用工具 \(Z=\left(\begin{array}{ll}X & X^{2}\end{array}\right)^{\prime}\) 推导有效的 GMM 估计器。这与 2SLS 和/或 OLS 有何不同?

练习 13.12 在线性模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[X e]=0\) 中,\(\beta\) 的 GMM 准则函数为

\[ J(\beta)=\frac{1}{n}(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime} \boldsymbol{X} \widehat{\Omega}^{-1} \boldsymbol{X}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta) \]

其中 \(\widehat{\Omega}=n^{-1} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{e}_{i}^{2}, \widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}\) 是 OLS 残差,\(\widehat{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Y}\) 是最小二乘法。 \(\beta\)\(r(\beta)=0\) 限制的 GMM 估计量为

\[ \widetilde{\beta}=\underset{r(\beta)=0}{\operatorname{argmin}} J_{n}(\beta) . \]

假设 \(r(\beta)=0\) 的 GMM 检验统计量(距离统计量)为

\[ D=J(\tilde{\beta})=\min _{r(\beta)=0} J(\beta) . \]

  1. 表明你可以将 (13.29) 中的 \(J(\beta)\) 重写为

\[ J(\beta)=n(\beta-\widehat{\beta})^{\prime} \widehat{\boldsymbol{V}}_{\beta}^{-1}(\beta-\widehat{\beta}) \]

因此 \(\widetilde{\beta}\) 与最小距离估计器相同。

  1. 证明在线性假设下,(13.30) 中的距离统计量 \(D\) 等于 Wald 统计量。

练习13.13 采用线性模型\(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\)。考虑 \(\beta\) 的 GMM 估计器 \(\widehat{\beta}\)。让 \(J=n \bar{g}_{n}(\widehat{\beta})^{\prime} \widehat{\Omega}^{-1} \bar{g}_{n}(\widehat{\beta})\) 表示过度识别限制的测试。通过演示以下各项,将 \(J \underset{d}{\longrightarrow} \chi_{\ell-k}^{2}\) 展示为 \(n \rightarrow \infty\)

  1. \(\Omega>0\) 开始,我们可以为某个矩阵 \(\boldsymbol{C}\) 编写 \(\Omega^{-1}=\boldsymbol{C} \boldsymbol{C}^{\prime}\)\(\Omega=\boldsymbol{C}^{\prime-1} \boldsymbol{C}^{-1}\)

  2. \(J=n\left(\boldsymbol{C}^{\prime} \bar{g}_{n}(\widehat{\beta})\right)^{\prime}\left(\boldsymbol{C}^{\prime} \widehat{\Omega} \boldsymbol{C}\right)^{-1} \boldsymbol{C}^{\prime} \bar{g}_{n}(\widehat{\beta})\)

  3. \(\boldsymbol{C}^{\prime} \bar{g}_{n}(\widehat{\beta})=\boldsymbol{D}_{n} \boldsymbol{C}^{\prime} \bar{g}_{n}(\beta)\) 其中 \(\bar{g}_{n}(\beta)=\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{e}\)

\[ \boldsymbol{D}_{n}=\boldsymbol{I}_{\ell}-\boldsymbol{C}^{\prime}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \widehat{\Omega}^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right) \widehat{\Omega}^{-1} \boldsymbol{C}^{\prime-1} \]

  1. \(\boldsymbol{D}_{n} \underset{p}{\longrightarrow} \boldsymbol{I}_{\ell}-\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\) 其中 \(\boldsymbol{R}=\boldsymbol{C}^{\prime} \mathbb{E}\left[Z X^{\prime}\right]\)

  2. \(n^{1 / 2} \boldsymbol{C}^{\prime} \bar{g}_{n}(\beta) \underset{d}{\longrightarrow} u \sim \mathrm{N}\left(0, \boldsymbol{I}_{\ell}\right)\)

  3. \(J \underset{d}{\longrightarrow} u^{\prime}\left(I_{\ell}-\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) u\)

  4. \(u^{\prime}\left(\boldsymbol{I}_{\ell}-\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\right) u \sim \chi_{\ell-k}^{2}\)

提示:\(\boldsymbol{I}_{\ell}-\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\) 是一个投影矩阵。练习 13.14 采用模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0, Y \in \mathbb{R}, X \in \mathbb{R}^{k}, Z \in \mathbb{R}^{\ell}, \ell \geq k\)。考虑统计数据

\[ \begin{aligned} J(\beta) &=n \bar{m}_{n}(\beta)^{\prime} \boldsymbol{W} \bar{m}_{n}(\beta) \\ \bar{m}_{n}(\beta) &=\frac{1}{n} \sum_{i=1}^{n} Z_{i}\left(Y_{i}-X_{i}^{\prime} \beta\right) \end{aligned} \]

对于一些权重矩阵 \(W>0\)

  1. 采用假设 \(\mathbb{I}_{0}: \beta=\beta_{0}\)。将 \(J\left(\beta_{0}\right)\)\(\mathbb{H}_{0}\) 下的渐近分布推导为 \(n \rightarrow \infty\)

  2. \(W\) 的什么选择会产生 (a) 部分中已知的渐近分布? (具体说明自由度。)

  3. \(W\) 写出一个适当的估计器 \(\widehat{\boldsymbol{W}}\),它利用了 \(\mathbb{M}_{0}\)。 (您无需表现出一致性或公正性。)

  4. 根据该统计数据描述 \(\mathbb{H}_{0}\) 相对于 \(\mathbb{M}_{1}: \beta \neq \beta_{0}\) 的渐近检验。

  5. 使用 (d) 部分的结果构建 \(\beta\) 的置信区域。您对这个地区的形态有何看法?例如,置信区域是否采用椭圆形的形式,类似于传统的置信区域?

练习 13.15 考虑模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\) 以及

\[ \boldsymbol{R}^{\prime} \beta=0 \]

\(Y \in \mathbb{R}, X \in \mathbb{R}^{k}, Z \in \mathbb{R}^{\ell}, \ell>k\)。矩阵 \(\boldsymbol{R}\)\(k \times q\)\(1 \leq q<k\)。您有一个随机样本 \(\left(Y_{i}, X_{i}, Z_{i}: i=1, \ldots, n\right)\)

为简单起见,假设有效权重矩阵 \(\boldsymbol{W}=\left(\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\right)^{-1}\) 已知。

  1. 写出忽略约束的 GMM 估计器 \(\widehat{\beta}\) (13.31)。

  2. 写出添加约束 (13.31) 的 GMM 估计器 \(\widetilde{\beta}\)

  3. 在假设 (13.31) 下求 \(\sqrt{n}(\widetilde{\beta}-\beta)\) 的渐近分布为 \(n \rightarrow \infty\)

练习 \(13.16\) 观察到的数据是 \(\left\{Y_{i}, X_{i}, Z_{i}\right\} \in \mathbb{R} \times \mathbb{R}^{k} \times \mathbb{R}^{\ell}, k>1\)\(\ell>k>1, i=1, \ldots, n\)。该模型是 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\)

  1. 给定一个权重矩阵 \(\boldsymbol{W}>0\),写下 \(\beta\) 的 GMM 估计器 \(\widehat{\beta}\)

  2. 假设模型指定错误。具体来说,假设对于某些 \(\delta \neq 0\)

\[ \begin{aligned} e &=\delta n^{-1 / 2}+u \\ \mathbb{E}[u \mid Z] &=0 \end{aligned} \]

\(\mu_{Z}=\mathbb{E}[Z] \neq 0\)。表明 (13.32) 蕴含 \(\mathbb{E}[Z e] \neq 0\)

  1. \(\sqrt{n}(\widehat{\beta}-\beta)\) 表示为 \(\boldsymbol{W}, n, \delta\) 和变量 \(\left(X_{i}, Z_{i}, u_{i}\right)\) 的函数。

  2. 求假设 (13.32) 下 \(\sqrt{n}(\widehat{\beta}-\beta)\) 的渐近分布。练习 \(13.17\) 该模型是带有 \(\mathbb{E}[e \mid Z]=0, X \in \mathbb{R}\)\(Z \in \mathbb{R}\)\(Y=Z \beta+X \gamma+e\)\(X\) 可能是内生的,\(Z\) 是外生的。有人建议通过 GMM 使用 \(\left(Z, Z^{2}\right)\) 作为工具来估计 \((\beta, \gamma)\)。这可行吗?在什么条件下这是一个有效的估计量?

练习 \(13.18\) 观测值是 i.i.d.、\(\left(Y_{i}, X_{i}, Q_{i}: i=1, \ldots, n\right)\),其中 \(X\)\(k \times 1\)\(Q\)\(m \times 1\)。该模型为 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[X e]=0\)\(\mathbb{E}[Q e]=0\)。找到 \(13.18\) 的有效 GMM 估计器。

练习13.19 你想在\(\mathbb{E}[X]=0\)的假设下估计\(\mu=\mathbb{E}[Y]\),其中\(Y\)\(X\)是标量并且是从随机样本中观察到的。为 \(\mu\) 找到一个高效的 GMM 估计器。

练习 13.20 考虑给定 \(\mathbb{E}[Z e]=0\)\(\boldsymbol{R}^{\prime} \beta=0\) 的模型 \(Y=X^{\prime} \beta+e\)。维度为 \(X \in R^{k}\)\(Z \in R^{\ell}\) 以及 \(\ell>k\)。矩阵 \(\boldsymbol{R}\)\(k \times q, 1 \leq q<k\)。为 \(\beta\) 推导一个高效的 GMM 估计器。

练习13.21 采用线性方程\(Y=X^{\prime} \beta+e\)并考虑以下\(\beta\)的估计量。

  1. \(\widehat{\beta}\) :使用工具 \(Z_{1}\) 进行 2SLS。

  2. 使用工具 \(Z_{2}\) 进行 \(\widetilde{\beta}: 2\) SLS。

  3. \(\bar{\beta}\) :使用工具 \(Z=\left(Z_{1}, Z_{2}\right)\) 和权重矩阵的 GMM

\[ \boldsymbol{W}=\left(\begin{array}{cc} \left(\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1}\right)^{-1} \lambda & 0 \\ 0 & \left(\boldsymbol{Z}_{2}^{\prime} \boldsymbol{Z}_{2}\right)^{-1}(1-\lambda) \end{array}\right) \]

\(\lambda \in(0,1)\)

找到 \(\bar{\beta}\) 的表达式,它表明它是 \(\widehat{\beta}\)\(\widetilde{\beta}\) 的特定加权平均值。

练习13.22 考虑刚刚识别的模型\(Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e\)\(\mathbb{E}[Z e]=0\),其中\(X=\left(X_{1}^{\prime}\right.\)\(\left.X_{2}^{\prime}\right)^{\prime} \in \mathbb{R}^{k}\)\(Z \in \mathbb{R}^{k}\)。我们想测试 \(\mathbb{H}_{0}: \beta_{1}=0\)。三位计量经济学家被邀请寻求建议。

  • 计量经济学家 1 建议通过 Wald 统计量测试 \(\mathbb{M}_{0}\)

  • 计量经济学家 2 建议通过 GMM 距离统计来测试 \(\mathbb{M}_{0}\)

  • 计量经济学 3 建议使用过度识别限制测试来测试 \(\mathbb{M}_{0}\)

要求您解决此争议。解释在此特定情况下不同程序的优点和/或缺点。

练习13.23 采用模型\(Y=X^{\prime} \beta+e\)\(\mathbb{E}[X e]=0\)\(\beta=\boldsymbol{Q} \theta\),其中\(\beta\)\(k \times 1, \boldsymbol{Q}\)\(k \times m\)\(m<k, \boldsymbol{Q}\)是已知的,\(\theta\)\(m \times 1\)。观测值 \(Y=X^{\prime} \beta+e\) 是独立同分布的。跨越 \(Y=X^{\prime} \beta+e\)

在这些假设下, \(\theta\) 的有效估计量是什么?

练习13.24 将模型\(Y=\theta+e\)\(\mathbb{E}[X e]=0, Y \in \mathbb{R}, X \in \mathbb{R}^{k}\)\(\left(Y_{i}, X_{i}\right)\)作为随机样本。

  1. 找到 \(\theta\) 的有效 GMM 估计器。

  2. 该模型是否被过度识别或只是被识别?

  3. 找到过度识别的 GMM 检验统计量。练习13.25 采用模型\(Y=X^{\prime} \beta+e\)\(\mathbb{E}[X e]=0\),其中\(X\)包含一个截距,因此\(\mathbb{E}[e]=0\)。一位有进取心的计量经济学家注意到这意味着 \(n\) 矩条件

\[ \mathbb{E}\left[e_{i}\right]=0, i=1, \ldots, n . \]

给定 \(n \times n\) 权重矩阵 \(\boldsymbol{W}\),这意味着 GMM 准则

\[ J(\beta)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime} \boldsymbol{W}(\boldsymbol{Y}-\boldsymbol{X} \beta) . \]

  1. 在独立同分布下采样,表明有效权重矩阵为 \(\boldsymbol{W}=\sigma^{-2} \boldsymbol{I}_{n}\),其中 \(\sigma^{2}=\mathbb{E}\left[e^{2}\right]\)

  2. 使用权重矩阵 \(\boldsymbol{W}=\sigma^{-2} \boldsymbol{I}_{n}\) 找到最小化 \(J(\beta)\) 的 GMM 估计器 \(\widehat{\beta}\)

  3. 找到最小化标准 \(J(\widehat{\beta})\) 的简单表达式。

  4. 定理 \(13.14\) 表示诸如 \(J(\widehat{\beta})\) 之类的标准是渐进的 \(\chi_{\ell-k}^{2}\),其中 \(\ell\) 是矩数。虽然定理 \(13.14\) 的假设不适用于此上下文,但这里的 \(\ell\) 是什么?也就是说,哪个 \(\chi^{2}\) 分布是所断言的渐近分布?

  5. (d)中的答案有意义吗?解释你的推理。

练习 13.26 使用模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[e \mid X]=0\)\(\mathbb{E}\left[e^{2} \mid X\right]=\sigma^{2}\)。一位比上一问题中的经济学家更有进取心的计量经济学家注意到,这意味着 \(n k\) 矩条件

\[ \mathbb{E}\left[X_{i} e_{i}\right]=0, i=1, \ldots, n . \]

我们可以使用矩阵符号将矩写为 \(\mathbb{E}\left[\bar{X}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta)\right]\) 其中

\[ \overline{\boldsymbol{X}}=\left(\begin{array}{cccc} X_{1}^{\prime} & 0 & \cdots & 0 \\ 0 & X_{2}^{\prime} & & 0 \\ \vdots & \vdots & & \vdots \\ 0 & 0 & \cdots & X_{n}^{\prime} \end{array}\right) \text {. } \]

给定 \(n k \times n k\) 权重矩阵 \(\boldsymbol{W}\),这意味着 GMM 准则

\[ J(\beta)=(\boldsymbol{Y}-\boldsymbol{X} \beta)^{\prime} \overline{\boldsymbol{X}} \boldsymbol{W} \overline{\boldsymbol{X}}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \beta) . \]

  1. 计算\(\Omega=\mathbb{E}\left[\overline{\boldsymbol{X}}^{\prime} \boldsymbol{e} \boldsymbol{e}^{\prime} \overline{\boldsymbol{X}}\right]\)

  2. 计量经济学家决定设置 \(\boldsymbol{W}=\Omega^{-}\),即 \(\Omega\) 的 Moore-Penrose 广义逆。 (参见 A.6 节。) 注意:一个有用的事实是对于向量 \(\boldsymbol{a},\left(\boldsymbol{a} \boldsymbol{a}^{\prime}\right)^{-}=\boldsymbol{a} \boldsymbol{a}^{\prime}\left(\boldsymbol{a}^{\prime} \boldsymbol{a}\right)^{-2}\)

  3. 找到最小化 \(J(\beta)\) 的 GMM 估计器 \(\widehat{\beta}\)

  4. 找到最小化准则 \(J(\widehat{\beta})\) 的简单表达式。

  5. 评论定理 \(13.14\)\(\chi^{2}\) 近似值是否适合 \(J(\widehat{\beta})\)

练习 13.27 练习 12.22 的继续,基于 Acemoglu、Johnson 和 Robinson(2001)报告的实证工作。

  1. 通过高效 GMM 重新估计 (j) 部分估计的模型。使用 2SLS 估计作为权重矩阵的第一步,然后使用该权重矩阵计算 GMM 估计器,无需进一步迭代。报告估计值和标准误差。 (b) 计算并报告过度识别的 \(J\) 统计数据。

  2. 比较 GMM 和 2SLS 估计。讨论你的发现。

练习 13.28 练习 12.24 的继续,其中涉及通过 2 SLS 估计工资方程。

  1. 通过高效 GMM 重新估计 (a) 部分的模型。结果改变有意义吗?

  2. 通过高效 GMM 重新估计 (d) 部分的模型。结果改变有意义吗?

  3. 报告过度识别的 \(J\) 统计数据。