第12章: 工具变量

12 工具变量

12.1 介绍

内生性和工具变量的概念是计量经济学的基础,并且标志着与统计学其他分支的重大区别。内生性的思想在经济学中自然地从联立方程模型中产生,最著名的是价格决定的经典供需模型。

联立方程中的辨识问题可以追溯到 Philip Wright (1915) 和 Work (1927)。工具变量方法首次出现在菲利普·赖特 1928 年所著书籍的附录中,尽管作者有时被认为是他的儿子休厄尔·赖特 (Sewell Wright)。 “工具变量”这个标签是由 Reiersøl (1945) 引入的。 Stock 和 Trebbi (2003) 对工具变量的历史进行了精彩的回顾。

12.2 概述

我们说线性模型存在内生性

\[ Y=X^{\prime} \beta+e \]

如果 \(\beta\) 是感兴趣的参数并且

\[ \mathbb{E}[X e] \neq 0 \text {. } \]

这是计量经济学的核心问题,并且在很大程度上将该领域与统计学区分开来。为了区分(12.1)与回归和投影模型,我们将(12.1)称为结构方程,\(\beta\)称为结构参数。当 (12.2) 成立时,通常说 \(X\) 对于 \(\beta\) 是内生的。

如果系数由线性投影定义,则不会发生内生性。事实上,我们可以定义线性投影系数 \(\beta^{*}=\mathbb{E}\left[X X^{\prime}\right]^{-1} \mathbb{E}[X Y]\) 和线性投影方程

\[ \begin{aligned} Y &=X^{\prime} \beta^{*}+e^{*} \\ \mathbb{E}\left[X e^{*}\right] &=0 . \end{aligned} \]

然而,在内生性 (12.2) 下,投影系数 \(\beta^{*}\) 不等于结构参数 \(\beta\)。的确,

\[ \begin{aligned} \beta^{*} &=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y] \\ &=\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}\left[X\left(X^{\prime} \beta+e\right)\right] \\ &=\beta+\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X e] \neq \beta \end{aligned} \]

最终的关系是因为\(\mathbb{E}[X e] \neq 0\)

因此,内生性要求系数的定义与投影不同。我们将此类定义描述为结构性的。我们将在下一节中展示三个示例。

内生性意味着最小二乘估计量对于结构参数是不一致的。事实上,根据 i.i.d.采样,最小二乘对于投影系数是一致的。

\[ \widehat{\beta} \underset{p}{\longrightarrow}\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1} \mathbb{E}[X Y]=\beta^{*} \neq \beta . \]

最小二乘法的不一致通常被称为内生性偏差或内生性导致的估计偏差。这是一个不完美的标签,因为实际问题是不一致,而不是偏见。

由于结构参数 \(\beta\) 是感兴趣的参数,内生性需要开发替代估计方法。我们将在后面的部分中讨论这些内容。

12.3 例子

通过例子可能最容易理解内生性的概念。我们讨论三个。在每种情况下,重要的是要了解结构参数 \(\beta\) 是如何独立于线性投影模型定义的。

示例:回归器中的测量误差。假设 \((Y, Z)\) 是联合随机变量,\(\mathbb{E}[Y \mid Z]=Z^{\prime} \beta\) 是线性变量,\(\beta\) 是结构参数。未观察到 \(Z\)。相反,我们观察 \(X=Z+u\),其中 \(u\)\(k \times 1\) 测量误差,与 \(e\)\(Z\) 无关。这是潜在变量模型的示例,其中“潜在”指的是未观察到的结构变量。

\(Z\)\(u\) 独立且 \(\mathbb{E}[u]=0\) 的模型 \(X=Z+u\) 被称为经典测量误差。这意味着 \(X\)\(Z\) 的一个有噪声但无偏差的度量。

通过替换,我们可以将 \(Y\) 表示为观察变量 \(X\) 的函数。

\[ Y=Z^{\prime} \beta+e=(X-u)^{\prime} \beta+e=X^{\prime} \beta+v \]

其中 \(v=e-u^{\prime} \beta\).这意味着 \((Y, X)\) 满足线性方程

\[ Y=X^{\prime} \beta+v \]

出现错误 \(v\)。但这个错误不是投影错误。的确,

\[ \mathbb{E}[X v]=\mathbb{E}\left[(Z+u)\left(e-u^{\prime} \beta\right)\right]=-\mathbb{E}\left[u u^{\prime}\right] \beta \neq 0 \]

如果 \(\beta \neq 0\)\(\mathbb{E}\left[u u^{\prime}\right] \neq 0\)。正如我们在上一节中了解到的,如果 \(\mathbb{E}[X \nu] \neq 0\) 则最小二乘估计将不一致。

我们可以计算出投影系数的形式(一致地通过最小二乘估计)。为简单起见,假设 \(k=1\)。我们发现

\[ \beta^{*}=\beta+\frac{\mathbb{E}[X \nu]}{\mathbb{E}\left[X^{2}\right]}=\beta\left(1-\frac{\mathbb{E}\left[u^{2}\right]}{\mathbb{E}\left[X^{2}\right]}\right) . \]

由于 \(\mathbb{E}\left[u^{2}\right] / \mathbb{E}\left[X^{2}\right]<1\) 投影系数将结构参数 \(\beta\) 缩小到零。这称为测量误差偏差或衰减偏差。

为了说明这一点,图 12.1(a) 显示了测量误差对回归线的影响。这三个实心点是对 \((Y, Z)\) 的测量,没有误差。通过这三个点绘制的回归函数被标记为“无测量误差”。六个空心圆圈标记对 \((Y, X)\),其中 \(X=Z+u\)\(u=\{+1,-1\}\)。因此 \(X\)\(Z\) 的错误测量版本。六个空心圆沿 \(\mathrm{x}\) 轴展开联合分布,但不沿 \(\mathrm{y}\) 轴展开。为这六个点绘制的回归线被标记为“有测量误差”。您可以看到后面的回归线相对于原始回归函数是平坦的。这是由于测量误差引起的衰减偏差。

  1. 测量误差

  1. 供给与需求

图 12.1:内生性示例

示例:供给和需求。变量 \(Q\)\(P\)(数量和价格)由需求方程共同确定

\[ Q=-\beta_{1} P+e_{1} \]

和供给方程

\[ Q=\beta_{2} P+e_{2} \text {. } \]

假设 \(e=\left(e_{1}, e_{2}\right)\) 满足 \(\mathbb{E}[e]=0\)\(\mathbb{E}\left[e e^{\prime}\right]=\boldsymbol{I}_{2}\)(为简单起见,后者)。问题是:如果我们将 \(Q\) 回归到 \(P\) 上,会发生什么?

解决 \(Q\)\(P\) 的错误很有帮助。用矩阵表示法来说,

\[ \left[\begin{array}{cc} 1 & \beta_{1} \\ 1 & -\beta_{2} \end{array}\right]\left(\begin{array}{l} Q \\ P \end{array}\right)=\left(\begin{array}{l} e_{1} \\ e_{2} \end{array}\right) \]

所以

\[ \begin{aligned} \left(\begin{array}{l} Q \\ P \end{array}\right) &=\left[\begin{array}{cc} 1 & \beta_{1} \\ 1 & -\beta_{2} \end{array}\right]^{-1}\left(\begin{array}{c} e_{1} \\ e_{2} \end{array}\right) \\ &=\left[\begin{array}{cc} \beta_{2} & \beta_{1} \\ 1 & -1 \end{array}\right]\left(\begin{array}{l} e_{1} \\ e_{2} \end{array}\right)\left(\frac{1}{\beta_{1}+\beta_{2}}\right) \\ &=\left(\begin{array}{c} \left(\beta_{2} e_{1}+\beta_{1} e_{2}\right) /\left(\beta_{1}+\beta_{2}\right) \\ \left(e_{1}-e_{2}\right) /\left(\beta_{1}+\beta_{2}\right) \end{array}\right) . \end{aligned} \]

\(Q\)\(P\) 上的投影产生 \(Q=\beta^{*} P+e^{*}\)\(\mathbb{E}\left[P e^{*}\right]=0\),投影系数为

\[ \beta^{*}=\frac{\mathbb{E}[P Q]}{\mathbb{E}\left[P^{2}\right]}=\frac{\beta_{2}-\beta_{1}}{2} . \]

投影系数 \(\beta^{*}\) 既不等于需求斜率 \(\beta_{1}\) 也不等于供给斜率 \(\beta_{2}\),而是等于两者的平均值。 (它是简单平均值这一事实是协方差结构的产物。)

OLS 估计器满足 \(\widehat{\beta} \underset{p}{\rightarrow} \beta^{*}\) 并且极限不等于 \(\beta_{1}\)\(\beta_{2}\)。这称为联立方程偏差。当 \(Y\)\(X\) 共同确定时(如市场均衡),这种情况通常会发生。

一般来说,当同时确定因变量和回归变量时,则应将回归变量视为内生变量。

为了说明这一点,图 12.1(b) 绘制了一个供需模型,其中 y 轴为数量,\(\mathrm{x}\) 轴为价格。供给和需求方程分别为 \(Q=P+\varepsilon_{1}\)\(Q=4-P-\varepsilon_{2}\)。假设每个错误都具有 Rademacher 分布 \(\varepsilon \in\{-1,+1\}\)。该模型有四种均衡结果,由图中的四个点标记。通过这四个点的回归线的斜率为零,并标记为“回归”。这是通过观察数量对观察价格的最小二乘回归来衡量的。这是由于同时性而产生的内生性偏差。

示例:选择变量作为回归量。采用经典的工资方程

\[ \log (\text { wage })=\beta \text { education }+e \]

\(\beta\) 是教育对工资的平均因果效应。如果工资受到不可观测能力的影响,并且能力高的个体自我选择接受高等教育,则\(e\)包含不可观测能力,因此教育和\(e\)将呈正相关。因此,教育是内生的。正相关意味着线性投影系数 \(\beta^{*}\) 将相对于结构系数 \(\beta\) 向上偏置。因此,最小二乘法(估计投影系数)往往会高估教育对工资的因果影响。

这种类型的内生性通常发生在 \(Y\)\(X\) 都是经济主体做出的选择时,即使它们是在不同的时间点做出的。

一般来说,当因变量和回归变量都是同一主体做出的选择变量时,这些变量应被视为内生变量。

这个例子在图 \(2.8\) 中得到了说明,它显示了 Jennifers 和 Georges 人口的工资和教育的联合分布。在图 2.8 中,绘制的平均因果效应是大学教育对工资的结构性影响(人口平均)。绘制的回归线具有较大的斜率,因为由于教育是一个选择变量,它增加了内生性偏差。

12.4 内生回归因子

我们将内生性定义为回归量与方程误差相关的背景。内生性的反面是外生性。也就是说,如果 \(\mathbb{E}[X e]=\) 0 ,我们说回归量 \(X\) 对于 \(\beta\) 是外生的。一般来说,经济模型的区别在于,如果回归量 \(X\)\(Y\) 共同确定,则它是内生的;而如果回归量 \(X\)\(Y\) 单独确定,则它是外生的。

在大多数应用中,只有一部分回归量被视为内生的。使用维度 \(\left(k_{1}, k_{2}\right)\)\(X=\left(X_{1}, X_{2}\right)\) 进行分区,以便 \(X_{1}\) 包含外生回归量,\(X_{2}\) 包含内生回归量。由于因变量 \(Y\) 也是内生的,因此我们有时通过将其称为内生右侧变量来区分 \(X_{2}\)。类似地对 \(\beta=\left(\beta_{1}, \beta_{2}\right)\) 进行分区。使用这种符号,结构方程为

\[ Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e . \]

另一种表示法如下。令 \(Y_{2}=X_{2}\) 为内生回归量,并将因变量 \(Y\) 重命名为 \(Y_{1}\)。那么结构方程为

\[ Y_{1}=X_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e . \]

这特别有用,因为符号可以阐明哪些变量是内生的,哪些是外生的。我们还将 \(\vec{Y}=\left(Y_{1}, Y_{2}\right)\) 写为内生变量集。我们使用符号\(\vec{Y}\),这样就不会与(12.3)中定义的\(Y\)混淆。

关于回归量和回归误差的假设是

\[ \begin{aligned} &\mathbb{E}\left[X_{1} e\right]=0 \\ &\mathbb{E}\left[Y_{2} e\right] \neq 0 . \end{aligned} \]

内生回归量 \(Y_{2}\) 是上一节示例中讨论的关键变量 - 联立变量、选择变量、误测回归量 - 可能与方程误差 \(e\) 相关。在许多应用中 \(k_{2}\) 很小(1 或 2 )。外生变量 \(X_{1}\) 是剩余的回归量(包括方程截距),可以是低维或高维的。

12.5 仪器

为了一致地估计 \(\beta\),我们需要额外的信息。经济应用中常用的一类信息就是我们所说的工具。

定义 \(12.1\) \(\ell \times 1\) 随机向量 \(Z\) 是 (12.3) 的工具变量,如果

\[ \begin{aligned} \mathbb{E}[Z e] &=0 \\ \mathbb{E}\left[Z Z^{\prime}\right] &>0 \\ \operatorname{rank}\left(\mathbb{E}\left[Z X^{\prime}\right]\right) &=k . \end{aligned} \]

给出的定义包含三个组成部分。第一个 (12.5) 是工具与回归误差不相关。第二个 (12.6) 是排除线性冗余仪器的归一化。第三个 (12.7) 通常称为相关性条件,对于模型的识别至关重要,我们稍后将对此进行讨论。 (12.7) 的必要条件是 \(\ell \geq k\)

条件 (12.5) - 工具与方程误差不相关 - 通常被描述为它们是外生的,因为它们是在 \(Y\) 模型之外确定的。

请注意,回归量 \(X_{1}\) 满足条件 (12.5),因此应作为工具变量包含在内。因此它们是变量 \(Z\) 的子集。符号上我们进行分区

\[ Z=\left(\begin{array}{l} Z_{1} \\ Z_{2} \end{array}\right)=\left(\begin{array}{c} X_{1} \\ Z_{2} \end{array}\right) \begin{aligned} &k_{1} \\ &\ell_{2} \end{aligned} . \]

这里,\(X_{1}=Z_{1}\) 是包含的外生变量,\(Z_{2}\) 是排除的外生变量。也就是说, \(Z_{2}\) 是可以包含在 \(Y\) 方程中的变量(从某种意义上说,它们与 \(e\) 不相关),但可以排除在外,因为它们在方程中具有真正的零系数。利用这个符号,我们还可以将结构方程(12.4)写为

\[ Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e . \]

这是有用的符号,因为它阐明了变量 \(Z_{1}\) 是外生的,而变量 \(Y_{2}\) 是内生的。

许多作者将 \(Z_{1}\) 描述为“外生变量”,将 \(Y_{2}\) 描述为“内生变量”,将 \(Z_{2}\) 描述为“工具变量”。

如果 \(\ell=k\),我们说模型是刚刚识别的;如果 \(\ell>k\),我们说模型是过度识别的。

哪些变量可以用作工具变量?根据定义 \(\mathbb{E}[Z e]=0\),该工具必须与方程误差不相关,这意味着它被排除在上述结构方程之外。根据等级条件 (12.7),在控制其他外生变量 \(Z_{1}\) 后,工具变量与内生变量 \(Y_{2}\) 相关也很重要。这两个要求通常被解释为要求在系统外部确定 \(\vec{Y}\) 的工具,因果地确定 \(Y_{2}\),但不因果地确定 \(Y_{1}\),除非通过 \(Y_{2}\)

我们以上面给出的三个例子为例。

回归器中的测量误差。当 \(X\)\(Z\) 的错误测量版本时,工具 \(Z_{2}\) 的常见选择是 \(Z\) 的替代测量。为了使 \(Z_{2}\) 满足工具变量的属性,\(Z_{2}\) 中的测量误差必须独立于 \(X\) 中的测量误差。

供需。需求方程中价格 \(P\) 的合适工具是变量 \(Z_{2}\),它影响供给但不影响需求。这样的变量影响 \(P\)\(Q\) 的均衡值,但除了通过数量之外,不会直接影响价格。影响供给但不影响需求的变量通常与生产成本有关。

供给方程中合适的价格工具是影响需求但不影响供给的变量。这种变量影响价格和数量的均衡值,但仅通过数量影响价格。

选择变量作为回归量。理想工具会影响回归量(教育)的选择,但不会直接影响因变量(工资),除非通过对回归量的间接影响。我们将在下一节中讨论一个例子。

12.6 示例:大学邻近度

David Card(1995)在一篇有影响力的论文中提出,如果潜在学生住在大学附近,就可以降低就读成本,从而提高学生上大学的可能性。然而,大学邻近性不会直接影响学生的技能或能力,因此不应对其市场工资产生直接影响。这些考虑因素表明,大学邻近性可以作为工资回归教育的工具。我们使用卡德论文中报告的最简单的模型来说明本章中工具变量的概念。

卡德使用了 1976 年全国青年纵向调查 (NLSYM) 的数据。表 12.1 的第一列报告了他的数据集的基线最小二乘工资回归。因变量是每周收入的对数。回归变量是教育(受教育年限)、经验(工作经验年数,计算方式为年龄(年)减去教育 \(+6\) )、经验 \({ }^{2} / 100\)、黑人、南方(居住在美国南部地区的指标) )和城市(居住在标准大都市统计区域的指标)。我们删除缺少工资的观察结果。其余样本有 3,010 个观测值。他的数据是课本网站上的文件Card1995。最小二乘法获得的点估计表明,每年教育年收入增加 \(7 %\)

表 12.1:工具变量工资回归

education OLS IV(a) IV(b) 2SLS(a) 2SLS(b) LIML
\(0.074\) \(0.132\) \(0.133\) \(0.161\) \(0.160\) \(0.164\)
\((0.004)\) \((0.049)\) \((0.051)\) \((0.040)\) \((0.041)\) \((0.042)\)
\(0.084\) \(0.107\) \(0.056\) \(0.119\) \(0.047\) \(0.120\)
experience \(2 / 100\) \(-0.224\) \(-0.228\) \(-0.080\) \(-0.231\) \(-0.032\) \(-0.231\)
\((0.032)\) \((0.035)\) \((0.133)\) \((0.037)\) \((0.127)\) \((0.037)\)
Black \(-0.190\) \(-0.131\) \(-0.103\) \(-0.102\) \(-0.064\) \(-0.099\)
\((0.017)\) \((0.051)\) \((0.075)\) \((0.044)\) \((0.061)\) \((0.045)\)
south \(-0.125\) \(-0.105\) \(-0.098\) \(-0.095\) \(-0.086\) \(-0.094\)
\((0.015)\) \((0.023)\) \((0.0284)\) \((0.022)\) \((0.026)\) \((0.022)\)
urban \(0.161\) \(0.131\) \(0.108\) \(0.116\) \(0.083\) \(0.115\)
\((0.015)\) \((0.030)\) \((0.049)\) \((0.026)\) \((0.041)\) \((0.027)\)
Sargan \(0.82\) \(0.52\) \(0.82\)
p-value \(0.37\) \(0.47\) \(0.37\)

笔记:

  1. IV(a) 使用大学作为教育工具。

  2. IV(b) 使用大学、年龄和年龄 \(^{2} / 100\) 作为教育、经验和经验 \({ }^{2} / 100\) 的工具。

  3. 2SLS(a) 使用公共和私人作为教育工具。

  4. \(2 \mathrm{SLS}(\mathrm{b})\) 使用公共、私人、年龄和年龄 \({ }^{2}\) 作为教育、经验和经验 \(^{2} / 100\) 的工具。

  5. LIML 使用公共和私人作为教育工具。

正如前面几节所讨论的,将受教育年限视为个人做出的选择是合理的,因此教育的结构性回报可能是内生的。这意味着最小二乘是线性投影的估计,但与代表教育年限对预期工资因果影响的结构方程的系数不一致。劳动经济学预测,能力、教育和工资将呈正相关。这表明由最小二乘法估计的人口预测系数将高于结构参数(因此存在向上偏差)。然而,偏差的符号是不确定的,因为存在多个回归变量并且存在其他潜在的内生性来源。

为了衡量教育的内生性,卡德建议合理的工具是一个虚拟变量,表明个人是否在大学附近长大。我们将考虑三项措施:

大学 在同一县长大,读四年制大学

公立 在同一县长大,就读 4 年制公立大学

私立 在同一县长大,就读四年制私立大学。

12.7 简化形式

简化形式是内生回归变量 \(Y_{2}\) 和工具 \(Z\) 之间的关系。 \(Y_{2}\) 的线性简化形式模型是

\[ Y_{2}=\Gamma^{\prime} Z+u_{2}=\Gamma_{12}^{\prime} Z_{1}+\Gamma_{22}^{\prime} Z_{2}+u_{2} \]

这是第 11 章中介绍的多元回归。 \(\ell \times k_{2}\) 系数矩阵 \(\Gamma\) 通过线性投影定义:

\[ \Gamma=\mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z Y_{2}^{\prime}\right] \]

这意味着\(\mathbb{E}\left[Z u_{2}^{\prime}\right]=0\)。投影系数 (12.11) 在 (12.6) 下定义明确且唯一。

我们还构建了 \(Y_{1}\) 的简化形式。将(12.10)代入(12.9)可得

\[ \begin{aligned} Y_{1} &=Z_{1}^{\prime} \beta_{1}+\left(\Gamma_{12}^{\prime} Z_{1}+\Gamma_{22}^{\prime} Z_{2}+u_{2}\right)^{\prime} \beta_{2}+e \\ &=Z_{1}^{\prime} \lambda_{1}+Z_{2}^{\prime} \lambda_{2}+u_{1} \\ &=Z^{\prime} \lambda+u_{1} \end{aligned} \]

在哪里

\[ \begin{aligned} &\lambda_{1}=\beta_{1}+\Gamma_{12} \beta_{2} \\ &\lambda_{2}=\Gamma_{22} \beta_{2} \\ &u_{1}=u_{2}^{\prime} \beta_{2}+e . \end{aligned} \]

我们也可以写

\[ \lambda=\bar{\Gamma} \beta \]

在哪里

\[ \bar{\Gamma}=\left[\begin{array}{cc} \boldsymbol{I}_{k_{1}} & \Gamma_{12} \\ 0 & \Gamma_{22} \end{array}\right]=\left[\begin{array}{cc} \boldsymbol{I}_{k_{1}} & \Gamma \\ 0 & \end{array}\right] . \]

总而言之,系统的简化形式方程为

\[ \begin{aligned} &Y_{1}=\lambda^{\prime} Z+u_{1} \\ &Y_{2}=\Gamma^{\prime} Z+u_{2} . \end{aligned} \]

或者

\[ \vec{Y}=\left[\begin{array}{cc} \lambda_{1}^{\prime} & \lambda_{2}^{\prime} \\ \Gamma_{12}^{\prime} & \Gamma_{22}^{\prime} \end{array}\right] Z+u \]

其中 \(u=\left(u_{1}, u_{2}\right)\).

关系 (12.14)-(12.16) 对于理解结构参数 \(\beta_{1}\)\(\beta_{2}\) 的识别至关重要,正如我们下面讨论的。这些方程显示了结构参数 \(\left(\beta_{1}\right.\)\(\left.\beta_{2}\right)\) 与简化形式参数 \((\Gamma\)\(\lambda)\) 之间的紧密关系。

简化形式的方程是投影,因此可以通过最小二乘法来估计系数(参见第 11 章)。 (12.11) 和 (12.13) 的最小二乘估计量为

\[ \begin{aligned} &\widehat{\Gamma}=\left(\sum_{i=1}^{n} Z_{i} Z_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i} Y_{2 i}^{\prime}\right) \\ &\widehat{\lambda}=\left(\sum_{i=1}^{n} Z_{i} Z_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i} Y_{1 i}\right) . \end{aligned} \]

12.8 鉴别

如果参数是可观测量概率分布的唯一函数,则该参数被识别。表明参数已被识别的一种方法是将其写为总体矩的显式函数。例如,简化形式系数矩阵 \(\Gamma\)\(\lambda\) 被识别,因为它们可以写成变量 \((Y, X, Z)\) 矩的显式函数。那是,

\[ \begin{aligned} &\Gamma=\mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z Y_{2}^{\prime}\right] \\ &\lambda=\mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z Y_{1}\right] . \end{aligned} \]

如果定义 \(12.1\) 成立,则这些由 \(\left(Y_{1}, Y_{2}, Z\right)\) 的概率分布唯一确定,因为这包括 \(\mathbb{E}\left[Z Z^{\prime}\right]\) 可逆的要求。

我们对结构参数 \(\beta\) 感兴趣。它通过 (12.16) 与 \((\lambda, \Gamma)\) 相关。如果 \(\beta\) 由该关系唯一确定,则该 \(\beta\) 被识别。这是一组 \(\ell\) 方程,其中 \(k\) 未知数与 \(\ell \geq k\)。从线性代数我们知道,当且仅当 \(\bar{\Gamma}\) 具有满秩 \(k\) 时,存在唯一解。

\[ \operatorname{rank}(\bar{\Gamma})=k . \]

在 (12.22) 下 \(\beta\) 可以从 (12.16) 唯一求解。如果 (12.22) 失败,则 (12.16) 的方程数少于系数,因此不存在唯一解。

我们可以写\(\bar{\Gamma}=\mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z X^{\prime}\right]\)。将其与 (12.16) 结合我们得到

\[ \mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z Y_{1}\right]=\mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z X^{\prime}\right] \beta \]

或者

\[ \mathbb{E}\left[Z Y_{1}\right]=\mathbb{E}\left[Z X^{\prime}\right] \beta \]

这是一组带有 \(k\) 未知数的 \(\ell\) 方程。这有一个唯一的解决方案当(且仅当)

\[ \operatorname{rank}\left(\mathbb{E}\left[Z X^{\prime}\right]\right)=k \]

作为定义 12.1 的条件列在 (12.7) 中。 (事实上,这就是为什么它被列为定义的一部分。)我们还可以看到,(12.22)和(12.23)是表达相同要求的等效方式。如果此条件失败,则 \(\beta\) 将不会被识别。条件(12.22)-(12.23)称为相关性条件。

为解决方案 \(\beta\) 提供显式表达式非常有用。最简单的情况是当 \(\ell=k\) 时。那么 (12.22) 意味着 \(\bar{\Gamma}\) 是可逆的,因此结构参数等于 \(\beta=\bar{\Gamma}^{-1} \lambda\)。这是一个独特的解决方案,因为 \(\bar{\Gamma}\)\(\lambda\) 是唯一的,而 \(\bar{\Gamma}\) 是可逆的。

\(\ell>k\) 时,我们可以通过对方程组 \(\lambda=\bar{\Gamma} \beta\) 应用最小二乘法来求解 \(\beta\)。这是带有 \(k\) 未知数且没有错误的 \(\ell\) 方程。最小二乘解是 \(\beta=\left(\bar{\Gamma}^{\prime} \bar{\Gamma}\right)^{-1} \bar{\Gamma}^{\prime} \lambda\)。在 (12.22) 下,矩阵 \(\bar{\Gamma}^{\prime} \bar{\Gamma}\) 是可逆的,因此解是唯一的。

如果 \(\operatorname{rank}(\bar{\Gamma})=k\) 则可识别 \(\beta\),当且仅当 \(\operatorname{rank}\left(\Gamma_{22}\right)=k_{2}\) 为真(通过 \(\bar{\Gamma})\) 的上对角线结构)。因此,识别模型的关键在于 \(\ell_{2} \times k_{2}\) 矩阵 \(\Gamma_{22}\) (12.10) 中。要看到这一点,请回忆一下简化形式的关系 (12.14)-(12.15)。我们可以看到 \(\beta_{2}\) 是从 (12.15) 单独确定的,并且充分必要条件是 \(\operatorname{rank}\left(\Gamma_{22}\right)=k_{2}\)。如果满足则解等于 \(\beta_{2}=\left(\Gamma_{22}^{\prime} \Gamma_{22}\right)^{-1} \Gamma_{22}^{\prime} \lambda_{2} \cdot \beta_{1}\) 从此和 (12.14) 中确定,并具有显式解 \(\beta\)。在刚刚确定的情况 \(\beta\) 中,这些方程简化为 \(\beta\)\(\beta\)

12.9 工具变量估计器

在本节中,我们考虑模型刚刚被识别以便 \(\ell=k\) 的特殊情况。

\(Z\) 是工具变量的假设意味着 \(\mathbb{E}[Z e]=0\)。替换 \(e=Y_{1}-X^{\prime} \beta\) 我们找到 \(\mathbb{E}\left[Z\left(Y_{1}-X^{\prime} \beta\right)\right]=0\)。扩大,

\[ \mathbb{E}\left[Z Y_{1}\right]-\mathbb{E}\left[Z X^{\prime}\right] \beta=0 . \]

这是一个由 \(\ell=k\) 方程和 \(k\) 未知数组成的系统。求解 \(\beta\) 我们发现

\[ \beta=\left(\mathbb{E}\left[Z X^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z Y_{1}\right] . \]

这要求矩阵 \(\mathbb{E}\left[Z X^{\prime}\right]\) 是可逆的,它在 (12.7) 或等效的 (12.23) 下成立。

工具变量 (IV) 估计器 \(\beta\) 用样本矩代替总体。我们发现

\[ \begin{aligned} \widehat{\beta}_{\mathrm{iv}} &=\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i} X_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i} Y_{1 i}\right) \\ &=\left(\sum_{i=1}^{n} Z_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i} Y_{1 i}\right) . \end{aligned} \]

更一般地说,给定任何变量 \(W \in \mathbb{R}^{k}\),通常会引用估计器

\[ \widehat{\beta}_{\mathrm{iv}}=\left(\sum_{i=1}^{n} W_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} W_{i} Y_{1 i}\right) \]

作为使用工具 \(W\)\(\beta\) 的 IV 估计器。

或者,回想一下,当 \(\ell=k\) 时,结构参数可以写为简化形式参数的函数 \(\beta=\bar{\Gamma}^{-1} \lambda\)。将 \(\bar{\Gamma}\)\(\lambda\) 替换为它们的最小二乘估计器 (12.18)-(12.19),我们可以构造所谓的间接最小二乘 (ILS) 估计器。使用矩阵代数表示

\[ \begin{aligned} \widehat{\beta}_{\mathrm{ils}} &=\widehat{\bar{\Gamma}}^{-1} \widehat{\lambda} \\ &=\left(\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1}\left(\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right)\right) \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right) \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right) . \end{aligned} \]

我们看到这等于 IV 估计量 (12.24)。因此 ILS 和 IV 估计器是相同的。

给定 IV 估计器,我们定义残差 \(\widehat{e}_{i}=Y_{1 i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{iv}}\)。它满足

\[ \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}=\boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}-\boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right)=0 \]

由于 \(Z\) 包含截距,这意味着残差总和为零,并且与包含和排除的工具不相关。

为了说明 IV 回归,我们估计了简化形式的方程,将教育视为内生的,并使用大学作为工具变量。表 12.2 的第一列和第二列报告了 log(工资)和教育程度的简化形式方程。表 12.2:简化形式回归

特别令人感兴趣的是内生回归教育的方程,以及排除工具(在本例中为大学)的系数。估计系数等于 \(0.337\),但标准误差较小。这意味着在四年制大学附近长大会使平均受教育程度提高 \(0.3\) 年。这似乎是一个合理的幅度。

由于结构方程是用一个右侧内生变量来识别的,因此教育系数的 ILS/IV 估计值是两个方程中仪器学院系数估计值的比率,例如\(0.045 / 0.337=0.13\),意味着每年的教育回报为\(13 %\)。这远远大于表 12.1 第一列的 \(7 %\) 最小二乘估计值。完整方程的 IV 估计值报告在表 12.1 的第二列中。第一反应是惊讶 IV 估计值大于 OLS 估计值。教育选择的内生性应该会导致 OLS 估计量出现向上偏差,这预测 IV 估计量应该小于 OLS 估计量。可能需要另一种解释。一种可能性是异质教育效应(当教育系数 \(\beta\) 在个体之间异质时)。在 \(12.34\) 节中,我们表明,在这种情况下,IV 估计器会针对人口子集获取这种治疗效果,这可以解释为什么 IV 估计会产生更大的估计系数。

卡德(1995)还指出,如果教育是内生的,那么我们对经验的衡量也是内生的,因为它是通过年龄减去教育程度来计算的。他建议我们可以使用变量age和age \({ }^{2}\)作为经验和经验\({ }^{2}\)的工具。年龄变量是外生的(不是选择变量),但与经验和经验 \({ }^{2}\) 高度相关。请注意,这种方法将经验 \({ }^{2}\) 视为与经验分开的变量。确实,这才是正确的做法。

根据这一建议,我们现在有了三个内生回归量和三个工具。我们在表 12.2 的第三到第五列中提出了三个内生回归量的三个简化形式方程。比较教育和经验的方程式很有趣。除了年龄系数外,这两组系数只是另一组系数的符号变化。事实上,情况一定如此,因为这三个变量是线性相关的。这会给 2SLS 带来问题吗?幸运的是,没有。事实上,年龄系数不仅仅是符号变化,这意味着方程不是线性奇异的。因此不违反假设(12.22)。

使用大学、年龄和年龄 \({ }^{2}\) 这三个工具对内生回归变量教育、经验和经验 \({ }^{2}\) 进行的 IV 估计显示在表 12.1 的第三列中。学校教育回报的估计不受工具集变化的影响,但经验回报的估计曲线趋于平缓(二次效应减弱)。

IV 估计量可以在 Stata 中使用 ivregress 2 sls 命令计算。

12.10 贬低代表

众所周知的线性回归贬义表示(3.18)是否也适用于 IV 估计器?要查看,请以 \(Y_{1}=X^{\prime} \beta+\alpha+e\) 格式编写线性投影方程,其中 \(\alpha\) 是截距,\(X\) 不包含常量。同样,将工具分区为 \((1, Z)\),其中 \(Z\) 不包含常量。我们可以将 \(i^{t h}\) 方程的 IV 估计量写为

\[ Y_{1 i}=X_{i}^{\prime} \widehat{\beta}_{\mathrm{iv}}+\widehat{\alpha}_{\mathrm{iv}}+\widehat{e}_{i} . \]

正交性 (12.25) 意味着二元方程组

\[ \begin{aligned} &\sum_{i=1}^{n}\left(Y_{1 i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{iv}}-\widehat{\alpha}_{\mathrm{iv}}\right)=0 \\ &\sum_{i=1}^{n} Z_{i}\left(Y_{1 i}-X_{i}^{\prime} \widehat{\beta}_{\mathrm{iv}}-\widehat{\alpha}_{\mathrm{iv}}\right)=0 . \end{aligned} \]

第一个方程意味着 \(\widehat{\alpha}_{\mathrm{iv}}=\overline{Y_{1}}-\bar{X}^{\prime} \widehat{\beta}_{\mathrm{iv}}\)。代入第二个方程

\[ \sum_{i=1}^{n} Z_{i}\left(\left(Y_{1 i}-\overline{Y_{1}}\right)-\left(X_{i}-\bar{X}\right)^{\prime} \widehat{\beta}_{\mathrm{iv}}\right) \]

并求解 \(\widehat{\beta}_{\text {iv }}\) 我们发现

\[ \begin{aligned} \widehat{\beta}_{\mathrm{iv}} &=\left(\sum_{i=1}^{n} Z_{i}\left(X_{i}-\bar{X}\right)^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i}\left(Y_{1 i}-\bar{Y}_{1}\right)\right) \\ &=\left(\sum_{i=1}^{n}\left(Z_{i}-\bar{Z}\right)\left(X_{i}-\bar{X}\right)^{\prime}\right)^{-1}\left(\sum_{i=1}^{n}\left(Z_{i}-\bar{Z}\right)\left(Y_{1 i}-\bar{Y}_{1}\right)\right) . \end{aligned} \]

因此,最小二乘的贬义方程会延续到 IV 估计器。系数估计器 \(\widehat{\beta}_{\text {iv }}\) 仅是贬低数据的函数。

12.11 瓦尔德估计器

在许多情况下,包括卡邻近示例,排除的工具是二进制(虚拟)变量。让我们关注这种情况,并假设模型只有一个内生回归量,并且截距之外没有其他回归量。该模型可以写为 \(Y=X \beta+\alpha+e\)\(\mathbb{E}[e \mid Z]=0\)\(Z\) 二进制。分别给出 \(Z=1\)\(Z=0\) 的结构方程的期望。我们获得

\[ \begin{aligned} &\mathbb{E}[Y \mid Z=1]=\mathbb{E}[X \mid Z=1] \beta+\alpha \\ &\mathbb{E}[Y \mid Z=0]=\mathbb{E}[X \mid Z=0] \beta+\alpha . \end{aligned} \]

减去并除以得到斜率系数的表达式

\[ \beta=\frac{\mathbb{E}[Y \mid Z=1]-\mathbb{E}[Y \mid Z=0]}{\mathbb{E}[X \mid Z=1]-\mathbb{E}[X \mid Z=0]} . \]

自然矩估计器用“分组数据”内的平均值替换期望值,其中分别为 \(Z_{i}=1\)\(Z_{i}=0\)。也就是说,定义组意味着

\[ \begin{array}{ll} \bar{Y}_{1}=\frac{\sum_{i=1}^{n} Z_{i} Y_{i}}{\sum_{i=1}^{n} Z_{i}}, & \bar{Y}_{0}=\frac{\sum_{i=1}^{n}\left(1-Z_{i}\right) Y_{i}}{\sum_{i=1}^{n}\left(1-Z_{i}\right)} \\ \bar{X}_{1}=\frac{\sum_{i=1}^{n} Z_{i} X_{i}}{\sum_{i=1}^{n} Z_{i}}, & \bar{X}_{0}=\frac{\sum_{i=1}^{n}\left(1-Z_{i}\right) X_{i}}{\sum_{i=1}^{n}\left(1-Z_{i}\right)} \end{array} \]

和矩估计器

\[ \widehat{\beta}=\frac{\bar{Y}_{1}-\bar{Y}_{0}}{\bar{X}_{1}-\bar{X}_{0}} . \]

这就是 Wald (1940) 的“Wald 估计器”。

这些表述都颇有见地。 (12.27)表明,结构斜率系数是由于改变工具而导致的 \(Y\) 的预期变化除以由于改变工具而导致的 \(X\) 的预期变化。非正式地,它是 \(Y\) 的变化(由于 \(Z\) )相对于 \(X\) 的变化(由于 \(Z\) )。方程(12.28)表明斜率系数可以通过均值差之比来估计。

表达式 (12.28) 可能看起来像是与 IV 估计器 \(\widehat{\beta}_{\text {iv }}\) 不同的估计器,但事实证明它们是相同的。即 \(\widehat{\beta}=\widehat{\beta}_{\mathrm{iv}}\)。要看到这一点,请使用 (12.26) 来查找

\[ \widehat{\beta}_{\mathrm{iv}}=\frac{\sum_{i=1}^{n} Z_{i}\left(Y_{i}-\bar{Y}\right)}{\sum_{i=1}^{n} Z_{i}\left(X_{i}-\bar{X}\right)}=\frac{\bar{Y}_{1}-\bar{Y}}{\bar{X}_{1}-\bar{X}} . \]

然后注意

\[ \bar{Y}_{1}-\bar{Y}=\bar{Y}_{1}-\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i} \bar{Y}_{1}+\frac{1}{n} \sum_{i=1}^{n}\left(1-Z_{i}\right) \bar{Y}_{0}\right)=(1-\bar{Z})\left(\bar{Y}_{1}-\bar{Y}_{0}\right) \]

和类似地

\[ \bar{X}_{1}-\bar{X}=(1-\bar{Z})\left(\bar{X}_{1}-\bar{X}_{0}\right) \]

因此

\[ \widehat{\beta}_{\mathrm{iv}}=\frac{(1-\bar{Z})\left(\bar{Y}_{1}-\bar{Y}_{0}\right)}{(1-\bar{Z})\left(\bar{X}_{1}-\bar{X}_{0}\right)}=\widehat{\beta} \]

如(12.28)中所定义。因此 Wald 估计量等于 IV 估计量。

我们可以使用卡邻近示例进行说明。如果我们估计一个没有协变量的简单 IV 模型,我们将获得估计值 \(\widehat{\beta}_{\text {iv }}=0.19\)。如果我们根据我们发现的仪器大学估计对数工资和教育的群体平均值

near college not near college difference
\(\log (\) wage) \(6.311\) \(6.156\) \(0.155\)
education \(13.527\) \(12.698\) \(0.829\)
ratio \(0.19\)

基于这些估计,斜率系数的 Wald 估计量为 \((6.311-6.156) /(13.527-12.698)=\) \(0.155 / 0.829=0.19\),与 IV 估计量相同。

12.12 两阶段最小二乘法

上一节中描述的 IV 估计器假定 \(\ell=k\)。现在我们允许 \(\ell \geq k\) 的一般情况。检查简化形式的方程(12.13)我们看到

\[ \begin{aligned} Y_{1} &=Z^{\prime} \bar{\Gamma} \beta+u_{1} \\ \mathbb{E}\left[Z u_{1}\right] &=0 . \end{aligned} \]

定义 \(W=\bar{\Gamma}^{\prime} Z\) 我们可以写成

\[ \begin{aligned} Y_{1} &=W^{\prime} \beta+u_{1} \\ \mathbb{E}\left[W u_{1}\right] &=0 . \end{aligned} \]

思考这个问题的一种方法是 \(Z\) 是一组候选工具。工具向量 \(W=\bar{\Gamma}^{\prime} Z\)\(k\) 维线性组合的集合。

假设 \(\bar{\Gamma}\) 已知。然后我们将通过 \(W=\bar{\Gamma}^{\prime} Z\) 上的 \(Y_{1}\) 的最小二乘来估计 \(\beta\)

\[ \widehat{\beta}=\left(\boldsymbol{W}^{\prime} \boldsymbol{W}\right)^{-1}\left(\boldsymbol{W}^{\prime} \boldsymbol{Y}\right)=\left(\bar{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \bar{\Gamma}\right)^{-1}\left(\bar{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right) . \]

虽然这是不可行的,但我们可以从简化形式的回归中估计 \(\bar{\Gamma}\)。将 \(\bar{\Gamma}\) 替换为其估计器 \(\widehat{\Gamma}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\) 我们得到

\[ \begin{aligned} \widehat{\beta}_{2 \text { sls }} &=\left(\widehat{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\Gamma}\right)^{-1}\left(\widehat{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right) \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-\mathbf{1}} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1} \end{aligned} \]

这称为两阶段最小二乘 (2SLS) 估计器。它最初由 Theil (1953) 和 Basmann (1957) 提出,是仪器线性方程的标准估计器。

如果模型是刚刚识别的,那么\(k=\ell\),那么2SLS就简化为上一节的IV估计器。由于矩阵 \(\boldsymbol{X}^{\prime} \boldsymbol{Z}\)\(\boldsymbol{Z}^{\prime} \boldsymbol{X}\) 是方阵,我们可以因式分解

\[ \begin{aligned} \left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\right)^{-1} \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\right)^{-1} \end{aligned} \]

(再一次,这仅在 \(k=\ell\) 时有效。)然后

\[ \begin{aligned} \widehat{\beta}_{2 \text { sls }} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1} \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1} \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1} \\ &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}=\widehat{\beta}_{\mathrm{iv}} \end{aligned} \]

正如所声称的那样。这表明(12.29)中定义的 2SLS 估计器是(12.24)中定义的 IV 估计器的推广。

我们现在描述的 2SLS 估计器有几种替代表示形式。一、定义投影矩阵

\[ \boldsymbol{P}_{\boldsymbol{Z}}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \]

我们可以将 2SLS 估计器写得更紧凑:

\[ \widehat{\beta}_{2 \text { sls }}=\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Y}_{1} . \]

这对于表示和推导很有用,但对于计算没有用,因为当 \(n\) 很大时,\(n \times n\) 矩阵 \(\boldsymbol{P}_{\boldsymbol{Z}}\) 太大而无法计算。

其次,根据简化形式 \(\widehat{\boldsymbol{X}}=\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}=\boldsymbol{Z} \widehat{\Gamma}\) 定义 \(\boldsymbol{X}\) 的拟合值。那么2SLS估计器可以写为

\[ \widehat{\beta}_{2 \text { sls }}=\left(\widehat{\boldsymbol{X}}^{\prime} \boldsymbol{X}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{Y}_{1} \]

这是上一节中定义的 IV 估计器,使用 \(\widehat{X}\) 作为 \(X\) 的工具。

第三,因为 \(\boldsymbol{P}_{Z}\) 是幂等的,我们也可以将 2SLS 估计器写为

\[ \widehat{\beta}_{2 \text { sls }}=\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Y}_{1}=\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{Y}_{1} \]

这是通过对拟合值 \(\widehat{X}\) 进行回归 \(Y_{1}\) 获得的最小二乘估计量。

这是“两阶段”名称的来源,因为它可以按如下方式计算。

  • \(Z\) 上回归 \(X\) 以获得拟合的 \(\widehat{X}: \widehat{\Gamma}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\)\(\widehat{\boldsymbol{X}}=\boldsymbol{Z} \widehat{\Gamma}=\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\)

  • \(\widehat{X}: \widehat{\beta}_{2 s l s}=\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{Y}_{1}\) 上回归 \(Y_{1}\)

仔细检查投影 \(\widehat{\boldsymbol{X}}\) 很有用。回想一下,\(\boldsymbol{X}=\left[\boldsymbol{Z}_{1}, \boldsymbol{Y}_{2}\right]\)\(\boldsymbol{Z}=\left[\boldsymbol{Z}_{1}, \boldsymbol{Z}_{2}\right]\)。注意 \(\widehat{\boldsymbol{X}}_{1}=\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Z}_{1}=\) \(Z_{1}\) 因为 \(Z_{1}\) 位于 \(\boldsymbol{Z}\) 的范围内。然后是\(\widehat{\boldsymbol{X}}=\left[\widehat{\boldsymbol{X}}_{1}, \widehat{\boldsymbol{Y}}_{2}\right]=\left[\boldsymbol{Z}_{1}, \widehat{\boldsymbol{Y}}_{2}\right]\)。这表明在第二阶段我们在 \(\widehat{\boldsymbol{X}}\)\(\widehat{\boldsymbol{X}}\) 上回归 \(Y_{1}\)。这意味着只有内生变量 \(\widehat{\boldsymbol{X}}\) 被其拟合值 \(\widehat{\boldsymbol{X}}\) 替换。

2SLS 的第四种表示可以使用 FWL 定理获得。第三种表示和随后的讨论表明,2SLS 是作为 \(Y_{1}\) 对拟合值 \(\left(Z_{1}, \widehat{Y}_{2}\right)\) 的最小二乘而获得的。因此,内生变量的系数 \(\widehat{\beta}_{2}\) 可以通过残差回归找到。设置 \(\boldsymbol{P}_{1}=\) \(Z_{1}\left(Z_{1}^{\prime} Z_{1}\right)^{-1} Z_{1}^{\prime}\)。应用 FWL 定理我们得到

\[ \begin{aligned} \widehat{\beta}_{2} &=\left(\widehat{\boldsymbol{Y}}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \widehat{\boldsymbol{Y}}_{2}\right)^{-1}\left(\widehat{\boldsymbol{Y}}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{Y}_{1}\right) \\ &=\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Y}_{2}\right)^{-1}\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{Y}_{1}\right) \\ &=\left(\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{Y}_{2}\right)^{-1}\left(\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{Y}_{1}\right) \end{aligned} \]

因为\(\boldsymbol{P}_{Z} \boldsymbol{P}_{1}=\boldsymbol{P}_{1}\)

第五表示可以通过进一步的投影来获得。投影矩阵 \(\boldsymbol{P}_{\boldsymbol{Z}}\) 可以替换为对 \(\left[\boldsymbol{Z}_{1}, \widetilde{\boldsymbol{Z}}_{2}\right.\) ] 上的投影,其中 \(\widetilde{\boldsymbol{Z}}_{2}=\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{Z}_{2}\) 是与 \(\boldsymbol{Z}_{1}\) 正交的 \(\boldsymbol{Z}_{2}\) 投影。由于 \(\boldsymbol{Z}_{1}\)\(\widetilde{\boldsymbol{Z}}_{2}\) 是正交的,因此 \(\boldsymbol{P}_{\boldsymbol{Z}}=\boldsymbol{P}_{1}+\boldsymbol{P}_{2}\) 其中 \(\boldsymbol{P}_{2}=\widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime}\)。因此 \(\boldsymbol{P}_{\boldsymbol{Z}}\)

\[ \begin{aligned} \widehat{\beta}_{2} &=\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{P}_{2} \boldsymbol{Y}_{2}\right)^{-1}\left(\boldsymbol{Y}_{2}^{\prime} \boldsymbol{P}_{2} \boldsymbol{Y}_{1}\right) \\ &=\left(\boldsymbol{Y}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{Y}_{2}\right)^{-1}\left(\boldsymbol{Y}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{Y}_{1}\right) . \end{aligned} \]

给定 2SLS 估计器,我们定义残差 \(\widehat{e}_{i}=Y_{1 i}-X_{i}^{\prime} \widehat{\beta}_{2 s l s}\)。当模型被过度识别时,工具和残差就不正交。即 \(\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} \neq 0\)。不过它确实满足

\[ \begin{aligned} \widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{e}} &=\widehat{\boldsymbol{\Gamma}}^{\prime} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} \\ &=\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} \\ &=\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}-\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X} \widehat{\beta}_{2 \text { sls }}=0 . \end{aligned} \]

回到卡德的大学邻近度例子,假设我们将经验视为外生的,但我们不使用单一工具大学(在四年制大学附近长大),而是使用两种工具(公立、私立)(在公立/私立大学附近长大)分别为四年制大学)。在这种情况下,我们有一个内生变量(教育)和两种工具(公共、私人)。表 12.2 第六列列出了教育的估计简化形式方程。在本规范中,公立大学(在公立四年制大学附近长大)的系数比之前规范中变量大学的系数稍大(第 2 列)。此外,在私立四年制大学附近成长的系数要小得多。这表明邻近性对教育的主要影响是通过公立大学而不是私立大学。

表 12.1 的第四列列出了使用这两种工具获得的 2SLS 估计值。教育系数增加到 \(0.161\),表明一年的教育回报为 \(16 %\)。这大约是第一列中通过最小二乘法获得的估计值的两倍。

此外,如果我们遵循 Card 并将经验视为内生并使用年龄作为工具,我们现在就有三个内生变量(教育、经验、经验 \({ }^{2} / 100\) )和四个工具(公共、私人、年龄、\(a g e^{2}\) )。我们在表 12.1 的第五列中展示了使用该规范的 2SLS 估计值。教育回报的估计值仍为 \(16 %\),而经验回报则趋于平缓。

您可能想知道我们是否可以使用所有三种工具——大学、公立和私立。答案是不。这是因为 College \(=\) public \(+\) private 所以这三个变量是共线的。由于这些工具是线性相关的,因此这三个工具一起将违反满秩条件(12.6)。

2SLS 估计量可以在 Stata 中使用 ivregress 2 sls 命令计算。

12.13 有限信息最大似然

估计结构方程参数的另一种方法是通过最大似然法。 Anderson 和 Rubin (1949) 推导出 \(\vec{Y}=\left(Y_{1}, Y_{2}\right)\) 联合分布的最大似然估计量。该估计量称为有限信息最大似然 (LIML)。

该估计器称为“有限信息”,因为它基于 \(Y\) 的结构方程与 \(X_{2}\) 的简化形式方程相结合。如果最大似然也是基于 \(X_{2}\) 的结构方程导出的,这将导致所谓的全信息最大似然 (FIML)。 LIML 相对于 FIML 的优势在于,前者不需要 \(X_{2}\) 的结构模型,因此允许研究人员专注于感兴趣的结构方程 - \(Y\) 的结构方程。我们不描述 FIML 估计量,因为它在应用计量经济学中并不常用。

虽然 LIML 估计量在经济学家中的使用不如 2SLS 广泛,但它已重新受到计量经济学理论家的关注。

要导出 LIML 估计器,请回忆定义 \(\vec{Y}=\left(Y_{1}, Y_{2}\right)\) 和简化形式 (12.17)

\[ \begin{aligned} \vec{Y} &=\left[\begin{array}{cc} \lambda_{1}^{\prime} & \lambda_{2} \\ \Gamma_{12}^{\prime} & \Gamma_{22}^{\prime} \end{array}\right]\left(\begin{array}{l} Z_{1} \\ Z_{2} \end{array}\right)+u \\ &=\Pi_{1}^{\prime} Z_{1}+\Pi_{2}^{\prime} Z_{2}+u \end{aligned} \]

其中 \(\Pi_{1}=\left[\begin{array}{cc}\lambda_{1} & \Gamma_{12}\end{array}\right]\)\(\Pi_{2}=\left[\begin{array}{cc}\lambda_{2} & \Gamma_{22}\end{array}\right]\)。 LIML 估计量是在 \(u\) 为多元正态分布的假设下导出的。

定义\(\gamma^{\prime}=\left[\begin{array}{ll}1 & -\beta_{2}^{\prime}\end{array}\right]\)。从(12.15)我们发现

\[ \Pi_{2} \gamma=\lambda_{2}-\Gamma_{22} \beta_{2}=0 . \]

因此 (12.33) 中的 \(\ell_{2} \times\left(k_{2}+1\right)\) 系数矩阵 \(\Pi_{2}\) 的秩不足。事实上,它的排名必须是 \(k_{2}\) 因为 \(\Gamma_{22}\) 具有满排名。

这意味着模型 (12.33) 正是 \(11.11 .\) 节的降序回归模型。定理 \(11.7\) 给出了降序参数的最大似然估计量。特别是,\(\gamma\) 的 MLE 是

\[ \widehat{\gamma}=\underset{\gamma}{\operatorname{argmin}} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \]

其中 \(\boldsymbol{M}_{1}=\boldsymbol{I}_{n}-\boldsymbol{Z}_{1}\left(\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1}\right)^{-1} \boldsymbol{Z}_{1}^{\prime}\)\(\boldsymbol{M}_{\boldsymbol{Z}}=\boldsymbol{I}_{n}-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}\)。最小化 (12.34) 有时称为“最小方差比”问题。

最小化问题 (12.34) 对于 \(\gamma\) 的规模是不变的(也就是说,\(\widehat{\gamma} c\) 相当于任何 c 的 argmin),因此需要标准化。一个方便的选择是 \(\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{Z} \overrightarrow{\boldsymbol{Y}} \gamma=1\)。使用这种归一化和最小二次形式理论(A.15 节),\(\widehat{\gamma}\)\(\overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}}\) 相对于与最小广义特征值相关的 \(\overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{Z} \overrightarrow{\boldsymbol{Y}}\) 的广义特征向量。 (有关广义特征值和特征向量的定义,请参阅第 A.14 节。)从计算角度来看,这很简单。例如,在 MATLAB 中,矩阵 \(\boldsymbol{A}\) 相对于 \(\boldsymbol{B}\) 的广义特征值和特征向量可通过命令 eig \((\boldsymbol{A}, \boldsymbol{B})\) 找到。一旦找到这个 \(\gamma\) ,就可以通过重新缩放来获得任何其他标准化。例如,要获取 \(\gamma\) 的 MLE,请对 \(\gamma\) 进行分区并设置 \(\gamma\)

要获得 \(\beta_{1}\) 的 MLE,请回想一下结构方程 \(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)。将 \(\beta_{2}\) 替换为 MLE \(\widehat{\beta}_{2}\) 并应用回归。这产生

\[ \widehat{\beta}_{1}=\left(Z_{1}^{\prime} Z_{1}\right)^{-1} Z_{1}^{\prime}\left(Y_{1}-Y_{2} \widehat{\beta}_{2}\right) . \]

这些解是结构参数 \(\beta_{1}\)\(\beta_{2}\) 的 MLE。

以前的计量经济学教科书没有提供 LIML 估计量的推导,因为 Anderson 和 Rubin (1949) 的原始推导很长而且不是特别有洞察力。相比之下,这里基于降序回归给出的推导很简单。

LIML 估计器有一个替代(和传统)表达式。定义 (12.34) 中获得的最小值

\[ \widehat{\boldsymbol{\kappa}}=\min _{\gamma} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \]

这是 \(\overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}}\) 相对于 \(\overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}}\) 的最小广义特征值。 LIML 估计器可以写为

\[ \widehat{\beta}_{\text {liml }}=\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1}\right) . \]

我们将 (12.37) 的推导推迟到本节末尾。表达式 (12.37) 并没有简化计算(因为 \(\widehat{\kappa}\) 需要解决产生 \(\widehat{\beta}_{2}\) 的相同特征向量问题)。然而(12.37)对于分布理论很重要。它还有助于揭示 LIML、最小二乘法和 2SLS 之间的代数联系。

具有任意 \(\kappa\) 的估计器 (12.37) 被称为 \(\beta\) 的 k 类估计器。 LIML 估计器是通过设置 \(\kappa=\widehat{\kappa}\) 获得的,最小二乘估计器是通过设置 \(\kappa=0\) 获得的,2SLS 是通过设置 \(\kappa=1\) 获得的。值得注意的是,LIML 解决方案满足 \(\widehat{\kappa} \geq 1\)。当模型刚刚被识别时,LIML 估计器与 IV 和 2SLS 估计器相同。它们只是在过度识别的环境中有所不同。 (一个推论是,在正义识别和正常误差下,IV 估计量是 MLE。)

为了进行推理,观察 (12.37) 表明 \(\widehat{\beta}_{\mathrm{liml}}\) 可以写成 IV 估计器

\[ \widehat{\beta}_{\mathrm{liml}}=\left(\widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{X}\right)^{-1}\left(\widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{Y}_{1}\right) \]

使用仪器

\[ \widetilde{\boldsymbol{X}}=\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{X}=\left(\begin{array}{c} \boldsymbol{X}_{1} \\ \boldsymbol{X}_{2}-\widehat{\kappa} \widehat{\boldsymbol{U}}_{2} \end{array}\right) \]

其中 \(\widehat{\boldsymbol{U}}_{2}=\boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\) 是仪器 \(Z\) 上内生回归变量 \(Y_{2}\) 多元回归的简化残差。使用此 IV 公式表达 LIML 对于方差估计非常有用。

LIML 估计量具有与 2SLS 相同的渐近分布。然而,它们在有限样本中的行为却截然不同。有大量证据表明,当有许多仪器或简化形式很弱时,LIML 估计器相对于 2 SLS 减少了有限样本偏差。 (我们将在以下部分回顾这些案例。)然而,另一方面,LIML 具有更广泛的有限样本离散度。

现在我们推导出表达式(12.37)。使用归一化 \(\gamma^{\prime}=\left[\begin{array}{ll}1 & -\beta_{2}^{\prime}\end{array}\right]\) 将 (12.34) 写为

\[ \widehat{\beta}_{2}=\underset{\beta_{2}}{\operatorname{argmin}} \frac{\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \beta_{2}\right)^{\prime} \boldsymbol{M}_{1}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \beta_{2}\right)}{\left(\boldsymbol{Y}_{1}-\boldsymbol{Y} \beta_{2}\right)^{\prime} \boldsymbol{M}_{\boldsymbol{Z}}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \beta_{2}\right)} . \]

最小化的一阶条件是 \(2 /\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)^{\prime} \boldsymbol{M}_{\boldsymbol{Z}}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)\)

\[ \begin{aligned} 0 &=\boldsymbol{Y}_{2}^{\prime} \boldsymbol{M}_{1}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)-\frac{\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)^{\prime} \boldsymbol{M}_{1}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)}{\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)^{\prime} \boldsymbol{M}_{\boldsymbol{Z}}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)} \boldsymbol{X}_{2}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right) \\ &=\boldsymbol{Y}_{2}^{\prime} \boldsymbol{M}_{1}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)-\widehat{\kappa} \boldsymbol{X}_{2}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right) \end{aligned} \]

使用定义(12.36)。重写,

\[ \boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{M}_{1}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{X}_{2} \widehat{\beta}_{2}=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{M}_{1}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1} . \]

方程(12.37)与二元方程组相同

\[ \begin{aligned} \boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1} \widehat{\beta}_{1}+\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Y}_{2} \widehat{\beta}_{2} &=\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Y}_{1} \\ \boldsymbol{Y}_{2}^{\prime} \boldsymbol{Z}_{1} \widehat{\beta}_{1}+\left(\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{2}\right) \widehat{\beta}_{2} &=\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1} . \end{aligned} \]

第一个方程是(12.35)。使用 (12.35),第二个是

\[ \boldsymbol{Y}_{2}^{\prime} \boldsymbol{Z}_{1}\left(\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1}\right)^{-1} \boldsymbol{Z}_{1}^{\prime}\left(\boldsymbol{Y}_{1}-\boldsymbol{Y}_{2} \widehat{\beta}_{2}\right)+\left(\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{2}\right) \widehat{\beta}_{2}=\boldsymbol{Y}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1} \]

重新排列后为 (12.38)。因此,我们证明 (12.37) 等价于 (12.35) 和 (12.38),因此是 LIML 估计器的有效表达式。

回到卡学院邻近示例,我们现在使用两种工具(公共、私人)呈现方程的 LIML 估计。它们在表 12.1 的最后一栏中报告。它们与 2SLS 估计非常相似。

LIML 估计量可以在 Stata 中使用 ivregress liml 命令进行计算。

Theodore Anderson
Theodore (Ted) Anderson (1918-2016) was a American statistician and econo-
metrician, who made fundamental contributions to multivariate statistical the-
ory. Important contributions include the Anderson-Darling distribution test, the
Anderson-Rubin statistic, the method of reduced rank regression, and his most
famous econometrics contribution - the LIML estimator. He continued working
throughout his long life, even publishing theoretical work at the age of 97 !

12.14 分割样本 IV 和 JIVE

估计 \(\beta\) 的理想工具是 \(W=\Gamma^{\prime} Z\)。我们可以将理想的 IV 估计量写为

\[ \widehat{\beta}_{\text {ideal }}=\left(\sum_{i=1}^{n} W_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} W_{i} Y_{i}\right) . \]

该估计器不可行,因为 \(\Gamma\) 未知。 2SLS 估计器将 \(\Gamma\) 替换为多元最小二乘估计器 \(\widehat{\Gamma}\),并将 \(W_{i}\) 替换为 \(\widehat{W}_{i}=\widehat{\Gamma}^{\prime} Z_{i}\),从而得到以下 2SLS 表示

\[ \widehat{\beta}_{2 \text { sls }}=\left(\sum_{i=1}^{n} \widehat{W}_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i} Y_{i}\right) . \]

由于 \(\widehat{\Gamma}\) 是在包括观察 \(i\) 在内的完整样本上估计的,因此它是简化形式误差 \(u\) 的函数,而 \(u\) 与结构误差 \(e\) 相关。由此可见,\(\widehat{W}\)\(e\) 是相关的,这意味着 \(\widehat{\beta}_{2 s l s}\) 偏向于 \(\beta\)。这种相关性和偏差逐渐消失,但在应用中可能很重要。

此问题的一个可能的解决方案是将 \(\widehat{W}\) 替换为与错误 \(e\) 不相关的预测值。一种方法是 Angrist 和 Krueger (1995) 的分割样本 IV (SSIV) 估计器。将样本随机分为两个独立的两半 \(A\)\(B\)。使用 \(A\) 估计简化形式,使用 \(B\) 估计结构系数。具体来说,使用样本 \(A\) 构建 \(\widehat{\Gamma}_{A}=\left(\boldsymbol{Z}_{A}^{\prime} \boldsymbol{Z}_{A}\right)^{-1}\left(\boldsymbol{Z}_{A}^{\prime} \boldsymbol{X}_{A}\right)\)。将此与样本 \(B\) 结合起来创建预测值 \(\widehat{W}\)。 SSIV 估计器是 \(\widehat{W}\) \(\widehat{W}\)。这比 \(\widehat{W}\) 具有更低的偏差

SSIV 的局限性在于结果对样本分割很敏感。一次分裂将产生一个估计器;另一次分裂将产生不同的估计量。任何特定的分割都是任意的,因此估计器取决于样本 \(A\)\(B\) 中观测值的特定随机排序。 SSIV 的第二个限制是,当样本量 \(n\) 较小时,它不太可能发挥良好作用。

通过 \(\Gamma\) 的留一估计器可以获得更好的解决方案。具体来说,让

\[ \widehat{\Gamma}_{(-i)}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}-Z_{i} Z_{i}^{\prime}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}-Z_{i} X_{i}^{\prime}\right) \]

是简化形式矩阵 \(\Gamma\) 的最小二乘留一估计,并让 \(\widehat{W}_{i}=\widehat{\Gamma}_{(-i)}^{\prime} Z_{i}\) 是简化形式预测值。使用 \(\widehat{W}_{i}=\widehat{\Gamma}_{(-i)}^{\prime} Z_{i}\) 作为工具,我们获得了估计器

\[ \widehat{\beta}_{\mathrm{jive1}}=\left(\sum_{i=1}^{n} \widehat{W}_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i} Y_{i}\right)=\left(\sum_{i=1}^{n} \widehat{\Gamma}_{(-i)}^{\prime} Z_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{\Gamma}_{(-i)}^{\prime} Z_{i} Y_{i}\right) . \]

Angrist、Imbens 和 Krueger (1999) 将其称为折刀工具变量 (JIVE1) 估计器。它首次出现在《菲利普斯与黑尔》(Phillips and Hale,1977)中。

Angrist、Imbens 和 Krueger (1999) 指出,稍微简单一些的调整也可以消除相关性和偏差。定义估计器和预测值

\[ \begin{aligned} \widetilde{\Gamma}_{(-i)} &=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}-Z_{i} X_{i}^{\prime}\right) \\ \widetilde{W}_{i} &=\widetilde{\Gamma}_{(-i)}^{\prime} Z_{i} \end{aligned} \]

它仅调整 \(\boldsymbol{Z}^{\prime} \boldsymbol{X}\) 组件。他们的 JIVE2 估计器是

\[ \widehat{\beta}_{\mathrm{jive} 2}=\left(\sum_{i=1}^{n} \widetilde{W}_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widetilde{W}_{i} Y_{i}\right)=\left(\sum_{i=1}^{n} \widetilde{\Gamma}_{(-i)}^{\prime} Z_{i} X_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widetilde{\Gamma}_{(-i)}^{\prime} Z_{i} Y_{i}\right) . \]

使用留一法估计器的公式(定理 3.7),JIVE1 和 JIVE2 估计器使用两个线性运算:第一个用于创建预测值 \(\widehat{W}_{i}\)\(\widetilde{W}_{i}\),第二个用于计算 IV 估计器。因此,估计器不需要比 2SLS 更多的计算量。

JIVE1 和 JIVE2 的渐近分布理论由 Chao、Swanson、Hausman、Newey 和 Woutersen (2012) 开发。

JIVE1 和 JIVE2 估计量可以在 Stata 中使用 \(j\) ive 命令进行计算。它不是标准包的一部分,但可以轻松添加。

12.15 2SLS的一致性

我们现在证明结构参数的 2SLS 估计器的一致性。以下是一组正则条件。

假设 $12.1

  1. 变量 \(\left(Y_{1 i}, X_{i}, Z_{i}\right), i=1, \ldots, n\) 是独立且同分布的。

2.\(\mathbb{E}\left[Y_{1}^{2}\right]<\infty\)

3.\(\mathbb{E}\|X\|^{2}<\infty\)

4.\(\mathbb{E}\|Z\|^{2}<\infty\)

  1. \(\mathbb{E}\left[Z Z^{\prime}\right]\) 是正定的。

  2. \(\mathbb{E}\left[Z X^{\prime}\right]\) 具有满级 \(k\)

7.\(\mathbb{E}[Z e]=0\)

假设 12.1.2-4 表明所有变量都具有有限方差。假设 12.1.5 指出工具向量具有可逆设计矩阵,这与线性回归模型中回归量的核心假设相同。这不包括线性冗余仪器。假设12.1.6和12.1.7是工具变量的关键识别条件。假设 12.1.6 指出工具和回归器具有满秩交叉矩矩阵。这通常称为相关性条件。假设 12.1.7 表明工具变量和结构误差不相关。假设 12.1.5-7 与定义 12.1 相同。

定理 12.1 在假设 12.1 下,\(\widehat{\beta}_{2 s l s} \underset{p}{\longrightarrow} \beta\)\(n \rightarrow \infty\) 相同。

下面提供该定理的证明。

该定理表明,在与最小二乘估计器相似的矩条件下,2SLS 估计器对于结构系数 \(\beta\) 是一致的。主要区别在于工具变量假设 \(\mathbb{E}[Z e]=0\) 和相关条件 \(\operatorname{rank}\left(\mathbb{E}\left[Z X^{\prime}\right]\right)=k\)

结果包括 IV 估计器(当 \(\ell=k\) 时)作为特例。

这种一致性结果的证明与最小二乘的证明类似。采用矩阵格式的结构方程 \(\boldsymbol{Y}=\boldsymbol{X} \beta+\boldsymbol{e}\) 并将其代入估计器的表达式中。我们获得

\[ \begin{aligned} \widehat{\beta}_{2 \text { sls }} &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}(\boldsymbol{X} \beta+\boldsymbol{e}) \\ &=\beta+\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{e} . \end{aligned} \]

这分离出了随机成分。重写并应用 WLLN 和 CMT

\[ \begin{aligned} \widehat{\beta}_{2 s l s}-\beta &=\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1} \\ & \times\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \\ \underset{p}{\rightarrow}\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1} \boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \mathbb{E}[Z e]=0 \end{aligned} \]

在哪里

\[ \begin{aligned} &\boldsymbol{Q}_{X Z}=\mathbb{E}\left[X Z^{\prime}\right] \\ &\boldsymbol{Q}_{Z Z}=\mathbb{E}\left[Z Z^{\prime}\right] \\ &\boldsymbol{Q}_{Z X}=\mathbb{E}\left[Z X^{\prime}\right] . \end{aligned} \]

WLLN 在假设 12.1.1 和 12.1.2-4 下成立。如果矩阵 \(\boldsymbol{Q}_{Z Z}\)\(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\) 可逆,则连续映射定理适用,这在假设 12.1.5 和 12.1.6 下成立。最终的等式使用假设 12.1.7。

12.16 2SLS 的渐近分布

现在我们证明 2SLS 估计器满足中心极限定理。我们首先陈述一组充分的正则性条件。假设 12.2 除假设 12.1 外,

1.\(\mathbb{E}\left[Y_{1}^{4}\right]<\infty\)

2.\(\mathbb{E}\|X\|^{4}<\infty\)

3.\(\mathbb{E}\|Z\|^{4}<\infty\)

  1. \(\Omega=\mathbb{E}\left[Z Z^{\prime} e^{2}\right]\) 是正定的。

假设 \(12.2\) 通过要求因变量和工具具有有限的四阶矩来强化假设 \(12.1\)。这用于建立中心极限定理。

定理 12.2 根据假设 12.2,作为 \(n \rightarrow \infty\)

\[ \sqrt{n}\left(\widehat{\beta}_{2 \text { sls }}-\beta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{\beta}\right) \]

在哪里

\[ \boldsymbol{V}_{\beta}=\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1}\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \Omega \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1} \]

这表明 2 SLS 估计器以 \(\sqrt{n}\) 速率收敛到正态随机向量。它还显示了协方差矩阵的形式。后者采用比最小二乘估计器更为复杂的形式。

与最小二乘估计的情况一样,渐近方差在条件同方差条件下得到简化。对于 2SLS,当 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 时会进行简化。当 \(Z\)\(e\) 独立时,这成立。在某些情况下,认为错误 \(e\) 与排除的工具 \(Z_{2}\) 无关可能是合理的,因为假设 \(Z_{2}\)\(Y\) 的影响仅通过 \(X\) 产生,但没有理由期望 \(e\) 独立于包含的外生变量 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\)。因此,在 2SLS 和最小二乘回归中应该同样预期异方差性。然而,在同方差下,我们有 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\)\(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 的简化。

渐近分布的推导建立在一致性证明的基础上。使用方程(12.39)我们有

\[ \sqrt{n}\left(\widehat{\beta}_{2 \mathrm{sls}}-\beta\right)=\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \text {. } \]

我们将 WLLN 和 CMT 应用于涉及 \(X\)\(\boldsymbol{Z}\) 的矩矩阵,与一致性证明中的相同。此外,由 CLT 进行 i.i.d.观察

\[ \frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}=\frac{1}{\sqrt{n}} \sum_{i=1}^{n} Z_{i} e_{i} \underset{d}{\longrightarrow} \mathrm{N}(0, \Omega) \]

因为向量 \(Z_{i} e_{i}\) 是独立同分布的。在假设 12.1.1 和 12.1.7 下均值为零,并且具有有限二阶矩,正如我们在下面验证的那样。我们获得

\[ \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{2 \text { sls }}-\beta\right) &=\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \\ & \underset{d}{\rightarrow}\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1} \boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \mathrm{~N}(0, \Omega)=\mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \end{aligned} \]

就像声明的那样。

为了完成证明,我们证明 \(Z e\) 在假设 12.2 下具有有限二阶矩。要了解这一点,请注意 Minkowski 不等式 (B.34)

\[ \left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 4}=\left(\mathbb{E}\left[\left(Y_{1}-X^{\prime} \beta\right)^{4}\right]\right)^{1 / 4} \leq\left(\mathbb{E}\left[Y_{1}^{4}\right]\right)^{1 / 4}+\|\beta\|\left(\mathbb{E}\|X\|^{4}\right)^{1 / 4}<\infty \]

根据假设 12.2.1 和 12.2.2。然后由 Cauchy-Schwarz 不等式 (B.32)

\[ \mathbb{E}\|Z e\|^{2} \leq\left(\mathbb{E}\|Z\|^{4}\right)^{1 / 2}\left(\mathbb{E}\left[e^{4}\right]\right)^{1 / 2}<\infty \]

使用假设 12.2.3。

12.17 2 SLS 方差的决定因素

检查 2SLS 估计量的渐近方差有助于了解决定估计量精度(或缺乏精度)的因素。与最小二乘情况一样,在同方差假设下检查方差更加透明。在这种情况下,渐近方差的形式为

\[ \begin{aligned} \boldsymbol{V}_{\beta}^{0} &=\left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1} \sigma^{2} \\ &=\left(\mathbb{E}\left[X Z^{\prime}\right]\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z X^{\prime}\right]\right)^{-1} \mathbb{E}\left[e^{2}\right] . \end{aligned} \]

在最小二乘情况下,我们可以看到 \(\widehat{\beta}_{2 \text { sls }}\) 的方差在误差 \(e\) 的方差中增加,而 \(X\) 的方差在减少。不同之处在于 \(X\)\(Z\) 之间(矩阵值)相关性的方差正在减小。

观察方差表达式不受 \(Z\) 方差结构的影响也很有用。事实上,\(\boldsymbol{V}_{\beta}^{0}\) 对于 \(Z\) 的旋转是不变的(如果将 \(Z\) 替换为 \(\boldsymbol{C Z}\),以实现可逆的 \(\boldsymbol{C}\),则表达式不会改变)。这意味着方差表达式不受 \(Z\) 缩放的影响,也不受 \(Z\) 之间相关性的直接影响。

我们还可以使用这个表达式来检查增加工具集的影响。假设我们对 \(Z=\left(Z_{a}, Z_{b}\right)\)\(\operatorname{dim}\left(Z_{a}\right) \geq k\) 进行分区,这样我们就可以单独使用 \(Z_{a}\) 构建一个 2SLS 估计器。让 \(\widehat{\beta}_{a}\)\(\widehat{\beta}\) 分别表示使用工具集 \(Z_{a}\)\(\left(Z_{a}, Z_{b}\right)\) 构建的 2SLS 估计器。不失一般性,我们可以假设 \(Z_{a}\)\(Z_{b}\) 不相关(如果不相关,则将 \(Z=\left(Z_{a}, Z_{b}\right)\) 替换为投影到 \(Z=\left(Z_{a}, Z_{b}\right)\) 后的投影误差)。在这种情况下 \(Z=\left(Z_{a}, Z_{b}\right)\)\(Z=\left(Z_{a}, Z_{b}\right)\) 都是块对角线所以

\[ \begin{aligned} \operatorname{avar}[\widehat{\beta}] &=\left(\mathbb{E}\left[X Z^{\prime}\right]\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z X^{\prime}\right]\right)^{-1} \sigma^{2} \\ &=\left(\mathbb{E}\left[X Z_{a}^{\prime}\right]\left(\mathbb{E}\left[Z_{a} Z_{a}^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z_{a} X^{\prime}\right]+\mathbb{E}\left[X Z_{b}^{\prime}\right]\left(\mathbb{E}\left[Z_{b} Z_{b}^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z_{b} X^{\prime}\right]\right)^{-1} \sigma^{2} \\ & \leq\left(\mathbb{E}\left[X Z_{a}^{\prime}\right]\left(\mathbb{E}\left[Z_{a} Z_{a}^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z_{a} X^{\prime}\right]\right)^{-1} \sigma^{2} \\ &=\operatorname{avar}\left[\widehat{\beta}_{a}\right] \end{aligned} \]

严格不等式 if \(\mathbb{E}\left[X Z_{b}^{\prime}\right] \neq 0\)。因此,具有完整工具集的 2SLS 估计器比具有较小工具集的估计器具有更小的渐近方差。

我们已经证明,2SLS 估计量的渐近方差随着仪器数量的增加而减小。从渐近效率的角度来看,这意味着最好使用更多的工具(当它们可用并且都已知是有效的工具时)。

不幸的是,有一个问题。事实证明,2SLS 估计器的有限样本偏差(无法精确计算,但可以使用渐近展开式进行近似)通常随着仪器数量的增加而线性增加。我们将在 12.37 节中看到一些说明这种现象的计算。因此,实践中工具的选择会导致偏差和方差之间的权衡。

12.18 协方差矩阵估计

渐近协方差矩阵 \(\boldsymbol{V}_{\beta}\) 的估计是使用与最小二乘估计类似的技术来完成的。估计量是通过用样本对应矩阵替换总体矩矩阵来构建的。因此

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\widehat{\mathbf{Q}}_{X Z} \widehat{\mathbf{Q}}_{Z Z}^{-1} \widehat{\mathbf{Q}}_{Z X}\right)^{-1}\left(\widehat{\mathbf{Q}}_{X Z} \widehat{\mathbf{Q}}_{Z Z}^{-1} \widehat{\Omega} \widehat{\mathbf{Q}}_{Z Z}^{-1} \widehat{\mathbf{Q}}_{Z X}\right)\left(\widehat{\mathbf{Q}}_{X Z} \widehat{\mathbf{Q}}_{Z Z}^{-1} \widehat{\mathbf{Q}}_{Z X}\right)^{-1} \]

在哪里

\[ \begin{aligned} \widehat{\boldsymbol{Q}}_{Z Z} &=\frac{1}{n} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime}=\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \\ \widehat{\boldsymbol{Q}}_{X Z} &=\frac{1}{n} \sum_{i=1}^{n} X_{i} Z_{i}^{\prime}=\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \\ \widehat{\Omega} &=\frac{1}{n} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widehat{e}_{i}^{2} \\ \widehat{e}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{2 s l s} \end{aligned} \]

同方差协方差矩阵可以通过以下方式估计

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\beta}^{0} &=\left(\widehat{\boldsymbol{Q}}_{X Z} \widehat{\boldsymbol{Q}}_{Z Z}^{-1} \widehat{\boldsymbol{Q}}_{Z X}\right)^{-1} \widehat{\sigma}^{2} \\ \widehat{\sigma}^{2} &=\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i}^{2} \end{aligned} \]

系数的标准误差通过 \(n^{-1} \widehat{\boldsymbol{V}}_{\beta}\) 对角线元素的平方根获得。置信区间、t 检验和 Wald 检验都可以按照与最小二乘回归完全相同的系数和协方差矩阵估计来构建。

在 Stata 中,ivregress 命令默认使用同方差协方差矩阵计算协方差矩阵估计量。要使用稳健估计器 \(\widehat{\boldsymbol{V}}_{\beta}\) 获得协方差矩阵估计和标准误差,请使用“,r”选项。

定理12.3 在假设12.2 下,如\(n \rightarrow \infty, \widehat{\boldsymbol{V}}_{\beta}^{0}{\underset{p}{\longrightarrow}}^{\boldsymbol{V}_{\beta}^{0}}\)\(\widehat{\boldsymbol{V}}_{\beta} \vec{p}^{\boldsymbol{V}_{\beta}}\) 证明定理\(12.3\) 的关键是要证明\(\widehat{\Omega} \vec{p} \Omega\) 与一致性证明中其他收敛结果一样。我们将其推迟到练习 12.6。

使用正确的残差公式 \(\widehat{e}_{i}=Y_{i}-\) \(X_{i}^{\prime} \widehat{\beta}_{2 \text { sls }}\) 构建协方差矩阵非常重要。这与使用“两阶段”计算方法所获得的结果不同。为了了解这一点,让我们逐步了解一下两阶段方法。首先,我们估计简化形式 \(X_{i}=\widehat{\Gamma}^{\prime} Z_{i}+\widehat{u}_{i}\) 以获得预测值 \(\widehat{X}_{i}=\widehat{\Gamma}^{\prime} Z_{i}\)。其次,我们在 \(\widehat{X}\) 上回归 \(Y\) 以获得 2SLS 估计器 \(\widehat{\beta}_{2 \text { sls }}\)。后一个回归采用以下形式

\[ Y_{i}=\widehat{X}_{i}^{\prime} \widehat{\beta}_{2 \mathrm{sls}}+\widehat{v}_{i} \]

其中 \(\widehat{v}_{i}\) 是最小二乘残差。此回归报告的协方差矩阵(和标准误差)是使用残差 \(\widehat{v}_{i}\) 构建的。例如,同方差公式为

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\beta} &=\left(\frac{1}{n} \widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\sigma}_{v}^{2}=\left(\widehat{\boldsymbol{Q}}_{X Z} \widehat{\boldsymbol{Q}}_{Z Z}^{-1} \widehat{\mathbf{Q}}_{Z X}\right)^{-1} \widehat{\sigma}_{v}^{2} \\ \widehat{\sigma}_{v}^{2} &=\frac{1}{n} \sum_{i=1}^{n} \widehat{v}_{i}^{2} \end{aligned} \]

它与方差估计器 \(\widehat{\sigma}_{v}^{2}\) 成正比,而不是与 \(\widehat{\sigma}^{2}\) 成正比。这很重要,因为残差 \(\widehat{v}\)\(\widehat{e}\) 不同。我们可以看到这一点,因为回归 (12.41) 使用回归器 \(\widehat{X}\) 而不是 \(X\)。确实,我们计算出

\[ \widehat{v}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{2 \mathrm{sls}}+\left(X_{i}-\widehat{X}_{i}\right)^{\prime} \widehat{\beta}_{2 \mathrm{sls}}=\widehat{e}_{i}+\widehat{u}_{i}^{\prime} \widehat{\beta}_{2 \mathrm{sls}} \neq \widehat{e}_{i} \text {. } \]

这意味着回归报告的标准误差 (12.41) 将不正确。

如果直接构造 2SLS 估计器并使用正确的公式计算标准误差而不是采取“两步”捷径,则可以避免此问题。

12.19 LIML 渐近分布

在本节中,我们将证明 LIML 估计器渐近等价于 2SLS 估计器。然而,我们建议使用基于 IV 表示的不同协方差矩阵估计器。

我们首先推导渐近分布。回想一下,LIML 估计器有多种表示形式,包括

\[ \widehat{\beta}_{\mathrm{liml}}=\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\kappa} \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1}\right) \]

在哪里

\[ \widehat{\boldsymbol{\kappa}}=\min _{\gamma} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \]

\(\gamma=\left(1,-\beta_{2}^{\prime}\right)^{\prime}\)。对于分布理论,将斜率系数重写为

\[ \widehat{\beta}_{\mathrm{liml}}=\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{X}-\widehat{\mu} \boldsymbol{X}^{\prime} \boldsymbol{M}_{Z} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Y}_{1}-\widehat{\mu} \boldsymbol{X}^{\prime} \boldsymbol{M}_{Z} \boldsymbol{Y}_{1}\right) \]

在哪里

\[ \widehat{\mu}=\widehat{\kappa}-1=\min _{\gamma} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\left(\boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right)^{-1} \boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \text {. } \]

第二个等式成立,因为 \(\boldsymbol{Z}=\left[\boldsymbol{Z}_{1}, \boldsymbol{Z}_{2}\right]\) 的跨度等于 \(\left[\boldsymbol{Z}_{1}, \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right]\) 的跨度。这意味着

\[ \boldsymbol{P}_{\boldsymbol{Z}}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}=\boldsymbol{Z}_{1}\left(\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1}\right)^{-1} \boldsymbol{Z}_{1}^{\prime}+\boldsymbol{M}_{1} \boldsymbol{Z}_{2}\left(\boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right)^{-1} \boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \]

我们现在证明\(n \widehat{\mu}=O_{p}(1)\)。简化形式 (12.33) 意味着

\[ \boldsymbol{Y}=\boldsymbol{Z}_{1} \Pi_{1}+\boldsymbol{Z}_{2} \Pi_{2}+\boldsymbol{e} . \]

值得注意的是

\[ \Pi_{2}=\left[\lambda_{2}, \Gamma_{22}\right]=\left[\Gamma_{22} \beta_{2}, \Gamma_{22}\right] \]

使用(12.15)。由此可知\(\Pi_{2} \gamma=0\)。注意\(\boldsymbol{U} \gamma=\boldsymbol{e}\)。然后是 \(\boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{Y} \gamma=\boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{e}\)\(\boldsymbol{M}_{1} \boldsymbol{Y} \gamma=\boldsymbol{M}_{1} \boldsymbol{e}\)。因此

\[ \begin{aligned} n \widehat{\mu} &=\min _{\gamma} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\left(\boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right)^{-1} \boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \frac{1}{n} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \\ & \leq \frac{\left(\frac{1}{\sqrt{n}} \boldsymbol{e}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right)\left(\frac{1}{n} \boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{Z}_{2}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{e}\right)}{\frac{1}{n} \boldsymbol{e}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{e}} \\ &=O_{p}(1) . \end{aligned} \]

它遵循

\[ \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{\mathrm{liml}}-\beta\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{X}-\widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{e}-\sqrt{n} \widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{Z} \boldsymbol{e}\right) \\ &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{X}-o_{p}(1)\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{e}-o_{p}(1)\right) \\ &=\sqrt{n}\left(\widehat{\beta}_{2 \mathrm{sls}}-\beta\right)+o_{p}(1) \end{aligned} \]

这意味着 LIML 和 2SLS 具有相同的渐近分布。这在与 2SLS 相同的假设下成立。

因此,获得 LIML 渐近有效协方差估计量的一种方法是使用 2SLS 公式。然而,这并不是最好的选择。相反,考虑 LIML 的 IV 表示

\[ \widehat{\beta}_{\mathrm{liml}}=\left(\widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{X}\right)^{-1}\left(\widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{Y}_{1}\right) \]

在哪里

\[ \widetilde{\boldsymbol{X}}=\left(\begin{array}{c} \boldsymbol{X}_{1} \\ \boldsymbol{X}_{2}-\widehat{\boldsymbol{K}}_{2} \end{array}\right) \]

\(\widehat{\boldsymbol{U}}_{2}=\boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\)。 IV 估计量的渐近协方差矩阵公式为

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\frac{1}{n} \widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{X}\right)^{-1} \widehat{\Omega}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \tilde{\boldsymbol{X}}\right)^{-1} \]

在哪里

\[ \begin{aligned} \widehat{\Omega} &=\frac{1}{n} \sum_{i=1}^{n} \widetilde{X}_{i} \widetilde{X}_{i} \widehat{e}_{i}^{2} \\ \widehat{e}_{i} &=Y_{1 i}-X_{i}^{\prime} \widehat{\beta}_{\text {liml }} . \end{aligned} \]

\(\widehat{\kappa}=1\) 时,这简化为 2SLS 公式,但在其他方面有所不同。对于协方差矩阵估计,估计器 (12.42) 是比 2SLS 公式更好的选择,因为它利用了 LIML 估计器结构。

12.20 参数功能

给定定理 \(12.2\)\(12.3\) 中的分布理论,可以直接导出系数估计量的平滑非线性函数的渐近分布。

具体来说,给定函数 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\),我们定义参数 \(\theta=r(\beta)\)。给定 \(\widehat{\beta}_{2 \text { sls }}\)\(\theta\) 的自然估计量是 \(\widehat{\theta}_{2 \text { sls }}=r\left(\widehat{\beta}_{2 \text { sls }}\right)\)

一致性来自定理 \(12.1\) 和连续映射定理。

定理 12.4 在假设 \(12.1\) 和 7.3 下,作为 \(n \rightarrow \infty, \widehat{\theta}_{2 s l s} \underset{p}{\longrightarrow} \theta\)

如果 \(r(\beta)\) 可微,则 \(\widehat{\theta}_{2 \text { sls }}\) 的渐近协方差矩阵的估计量为

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\theta} &=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta} \widehat{\boldsymbol{R}} \\ \widehat{\boldsymbol{R}} &=\frac{\partial}{\partial \beta} r\left(\widehat{\beta}_{2 s l s}\right)^{\prime} . \end{aligned} \]

我们类似地将同方差方差估计器定义为 \(\widehat{\boldsymbol{V}}_{\theta}^{0}=\widehat{\boldsymbol{R}}^{\prime} \widehat{\boldsymbol{V}}_{\beta}^{0} \widehat{\boldsymbol{R}}\)

渐近分布理论源自定理 \(12.2\)\(12.3\) 以及 delta 方法。

定理 12.5 在假设 \(12.2\)\(7.3\) 下,作为 \(n \rightarrow \infty\)

\[ \sqrt{n}\left(\widehat{\theta}_{2 s l s}-\theta\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\theta}\right) \]

\(\widehat{\boldsymbol{V}}_{\theta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\theta}\) 其中 \(\boldsymbol{V}_{\theta}=\boldsymbol{R}^{\prime} \boldsymbol{V}_{\beta} \boldsymbol{R}\)\(\boldsymbol{R}=\frac{\partial}{\partial \beta} \boldsymbol{r}(\beta)^{\prime}\)

\(q=1\) 时,\(\widehat{\theta}_{2 \text { sls }}\) 的标准错误是 \(s\left(\widehat{\theta}_{2 \text { sls }}\right)=\sqrt{n^{-1} \widehat{\boldsymbol{V}}_{\theta}}\)

例如,我们采用表 12.1 第五列中的参数估计值,它们是具有三个内生回归变量和四个排除工具的 2SLS 估计值。假设我们对回归经验感兴趣,这取决于经验的水平。经验 \(=10\) 的估计回报为 \(0.047-0.032 \times 2 \times 10 / 100=0.041\),其标准误差为 \(0.003\)。这意味着每年经验的工资会增加 \(4 %\),并且是经过精确估计的。或者假设我们对函数最大化的经验水平感兴趣。估计是 \(50 \times 0.047 / 0.032=73\)。标准误差为 249 。较大的标准误差意味着该估计(73 年的经验)不精确,因此缺乏信息。

12.21 假设检验

与上一节一样,对于给定函数 \(r(\beta): \mathbb{R}^{k} \rightarrow \Theta \subset \mathbb{R}^{q}\),我们定义参数 \(\theta=r(\beta)\) 并考虑 \(\mathbb{M}_{0}: \theta=\theta_{0}\)\(\mathbb{H}_{1}: \theta \neq \theta_{0}\) 形式的假设检验。 \(\mathbb{M}_{0}\) 的 Wald 统计量为

\[ W=n\left(\widehat{\theta}-\theta_{0}\right)^{\prime} \widehat{\boldsymbol{V}}_{\widehat{\theta}}^{-1}\left(\widehat{\theta}-\theta_{0}\right) . \]

从定理 \(12.5\) 我们推断 \(W\) 是渐近卡方分布的。让 \(G_{q}(u)\) 表示 \(\chi_{q}^{2}\) 分布函数。

定理 12.6 根据假设 12.2、假设 7.3 和 \(\mathbb{H}_{0}\),则为 \(n \rightarrow\) \(\infty, W \underset{d}{\rightarrow} \chi_{q}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{q}(c), \mathbb{P}\left[W>c \mid \mathbb{M}_{0}\right] \longrightarrow \alpha\),因此测试“Reject \(\mathbb{M}_{0}\) if \(W>c\)”具有渐近大小 \(\alpha\)

在线性回归中,我们经常报告 Wald 统计量的 \(F\) 版本(通过除以自由度)并使用 \(F\) 分布进行推理,因为这在正态抽样模型中是合理的。然而,对于 2SLS 估计,不会这样做,因为 Wald 统计量的 \(F\) 版本没有有限样本 \(F\) 理由。

为了说明这一点,我们再次从表 \(12.1\) 的第五列中获取参数估计值,并再次考虑由经验和经验 \(^{2} / 100\) 的系数确定的经验回报。这两个系数在 \(5 %\) 水平上都不具有统计显着性,并且尚不清楚总体效果是否具有统计显着性。我们可以通过检验两个系数均为零的联合假设来评估这一点。该假设的 Wald 统计量为 \(W=244\),它非常显着,渐近 p 值为 \(0.0000\)。因此,通过检查联合测试与单独测试的对比,可以很清楚地看出,经验具有非零效应。

12.22 有限样本理论

在第五章中,我们回顾了在正态创新假设下可用于线性回归模型的丰富的精确分布。 IV、2SLS 和 LIML 估计量的计量经济学文献也同样丰富。 Peter Phillips (1983) 对主要在 20 世纪 70 年代和 1980 年代初发展起来的理论进行了精彩的回顾。

该理论是在结构误差向量 \(e\) 和简化形式误差 \(u_{2}\) 呈多元正态分布的假设下发展起来的。即使误差是正态的,IV 型估计量也是这些误差的非线性函数,因此是非正态分布的。精确分布的公式已经导出,但不幸的是,它们是模型参数的函数,因此不能直接用于有限样本推断。

该文献的一个重要含义是,即使在精确正态创新的最佳背景下,IV 估计量的有限样本分布也是非正态的,并且检验统计量的有限样本分布也不是卡方的。正态近似和卡方近似渐近成立,但没有理由期望这些近似在有限样本中是准确的。

第二个重要结果是,在正态误差的假设下,大多数估计器在任何有限样本中都不具有有限矩。 Kinal (1980) 在联合正态性的情况下获得了关于 2SLS 估计器矩存在性的明确声明。令 \(\widehat{\beta}_{2 s l s, 2}\) 为内生回归量系数的 2SLS 估计量。

定理 \(12.7\) 如果 \((Y, X, Z)\) 是联合正规的,则对于任何 \(r, \mathbb{E}\left\|\widehat{\beta}_{2 s l s, 2}\right\|^{r}<\infty\) 当且仅当 \(r<\ell_{2}-k_{2}+1\)。该结果表明,在刚刚确定的情况下,IV 估计器不具有任何有限阶整数矩。在过度识别的情况下,有限矩的数量对应于过度识别限制 \(\left(\ell_{2}-k_{2}\right)\) 的数量。因此,如果存在一个过度识别限制,则 2SLS 具有有限期望,如果存在两个过度识别限制,则 2SLS 估计量具有有限方差。

LIML 估计器具有更严重的矩问题,因为它没有有限整数矩(Mariano,1982),无论过度识别限制的数量如何。由于缺乏矩,Fuller (1977) 提出了 LIML 的以下修改。他的估计量是

\[ \begin{aligned} \widehat{\beta}_{\text {Fuller }} &=\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-K \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime}\left(\boldsymbol{I}_{n}-K \boldsymbol{M}_{\boldsymbol{Z}}\right) \boldsymbol{Y}_{1}\right) \\ K &=\widehat{\kappa}-\frac{C}{n-k} \end{aligned} \]

对于一些 \(C \geq 1\)。富勒表明,他的估计量在适当的条件下具有有限的所有矩。

Hausman、Newey、Woutersen、Chao 和 Swanson(2012)提出了一种称为 HFUL 的估计器,它结合了 JIVE 和 Fuller 的思想,具有出色的有限样本属性。

12.23 2SLS 的引导程序

IV、2SLS 和 GMM 的标准引导算法通过独立采样三元组 \(\left(Y_{1 i}^{*}, X_{i}^{*}, Z_{i}^{*}\right)\) 并替换原始样本 \(\left\{\left(Y_{1 i}, X_{i}, Z_{i}\right): i=\right.\) \(1, \ldots, n\}\) 来生成引导样本。对 \(n\) 这样的观测值进行采样并堆叠到观测矩阵 \(\left(\boldsymbol{Y}_{1}^{*}, \boldsymbol{X}^{*}, \boldsymbol{Z}^{*}\right)\) 中,bootstrap 2SLS 估计器为

\[ \widehat{\beta}_{2 \mathrm{sls}}^{*}=\left(\boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)^{-1} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \boldsymbol{Z}^{* \prime} \boldsymbol{Y}_{1}^{*} \]

重复 \(B\) 次以创建 \(B\) 引导绘制的样本。鉴于这些抽签,可以计算自举统计数据。这包括方差、标准误差和置信区间的引导估计,包括百分位数、\(\mathrm{BC}\) 百分位数、\(\mathrm{BC}_{a}\) 和百分位数-t。

我们现在证明自举估计量具有与样本估计量相同的渐近分布。对于过度识别的情况,此演示需要额外小心。 Hahn (1996) 首先表明了这一点。

样本观测值满足模型 \(Y_{1}=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\)。总体中 \(\beta\) 的真实值可以写为

\[ \beta=\left(\mathbb{E}\left[X Z^{\prime}\right] \mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z X^{\prime}\right]\right)^{-1} \mathbb{E}\left[X Z^{\prime}\right] \mathbb{E}\left[Z Z^{\prime}\right]^{-1} \mathbb{E}\left[Z Y_{1}\right] \]

Bootstrap宇宙中的真实值是通过用样本矩替换总体矩得到的,它等于2SLS估计器

\[ \begin{aligned} &\left(\mathbb{E}^{*}\left[X^{*} Z^{* \prime}\right] \mathbb{E}^{*}\left[Z^{*} Z^{* \prime}\right]^{-1} \mathbb{E}^{*}\left[Z^{*} X^{* \prime}\right]\right)^{-1} \mathbb{E}^{*}\left[X^{*} Z^{* \prime}\right] \mathbb{E}^{*}\left[Z^{*} Z^{* \prime}\right]^{-1} \mathbb{E}^{*}\left[Z^{*} Y_{1}^{*}\right] \\ &=\left(\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left[\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Y}_{1}\right] \\ &=\widehat{\beta}_{2 \text { sls }} . \end{aligned} \]

因此,自举观测值满足方程 \(Y_{1 i}^{*}=X_{i}^{* \prime} \widehat{\beta}_{2 s l s}+e_{i}^{*}\)。在样本的矩阵表示法中,这是

\[ \boldsymbol{Y}_{1}^{*}=\boldsymbol{X}^{* \prime} \widehat{\beta}_{2 \mathrm{sls}}+\boldsymbol{e}^{*} . \]

给定一个引导三元组 \(\left(Y_{1 i}^{*}, X_{i}^{*}, Z_{i}^{*}\right)=\left(Y_{1 j}, X_{j}, Z_{j}\right)\) 对于某些观察 \(j\) ,真正的引导错误是

\[ e_{i}^{*}=Y_{1 j}-X_{j}^{\prime} \widehat{\beta}_{2 s l s}=\widehat{e}_{j} . \]

它遵循

\[ \mathbb{E}^{*}\left[Z^{*} e^{*}\right]=n^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} . \]

在过度识别的情况下,这通常不等于零。

这是一个重要的并发症。在过度识别模型中,真实观测值满足总体条件 \(\mathbb{E}[Z e]=0\),但在引导样本 \(\mathbb{E}^{*}\left[Z^{*} e^{*}\right] \neq 0\) 中。这意味着要将中心极限定理应用于自举估计器,我们首先必须重新调整矩条件。也就是说,(12.44) 和 bootstrap CLT 意味着

\[ \frac{1}{\sqrt{n}}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{e}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right)=\frac{1}{\sqrt{n}} \sum_{i=1}^{n}\left(Z_{i}^{*} e_{i}^{*}-\mathbb{E}^{*}\left[Z^{*} e^{*}\right]\right) \underset{d^{*}}{\longrightarrow} \mathrm{N}(0, \Omega) \]

在哪里

\[ \Omega=\mathbb{E}\left[Z Z^{\prime} e^{2}\right] . \]

使用(12.43)我们可以将自举估计量归一化为

\[ \begin{aligned} \sqrt{n}\left(\widehat{\boldsymbol{\beta}}_{2 \mathrm{sls}}^{*}-\widehat{\boldsymbol{\beta}}_{2 \mathrm{sls}}\right) &=\sqrt{n}\left(\boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)^{-1} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \boldsymbol{Z}^{* \prime} \boldsymbol{e}^{*} \\ &=\left(\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\right)\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)\right)^{-1} \\ & \times\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\right)\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \frac{1}{\sqrt{n}}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{e}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right) \\ &+\left(\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\right)\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)\right)^{-1} \\ & \times\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\right)\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right) . \end{aligned} \]

使用引导 WLLN,

\[ \begin{aligned} \frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*} &=\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}+o_{p}(1) \\ \frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*} &=\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}+o_{p}(1) . \end{aligned} \]

这意味着 (12.47) 等于

\[ \sqrt{n}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}+o_{p}(1)=0+o_{p}(1) \]

该等式成立是因为 2SLS 一阶条件意味着 \(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}=0\)。此外,结合(12.45)我们看到(12.46)在引导分布中收敛为

\[ \left(\boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \boldsymbol{Q}_{Z X}\right)^{-1} \boldsymbol{Q}_{X Z} \boldsymbol{Q}_{Z Z}^{-1} \mathrm{~N}(0, \Omega)=\mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \]

其中 \(\boldsymbol{V}_{\beta}\) 是定理 12.2 的 2SLS 渐近方差。这是 \(\sqrt{n}\left(\widehat{\beta}_{2 s l s}^{*}-\widehat{\beta}_{2 s l s}\right)\) 的渐近分布

通过标准计算,我们还可以证明自举 t 比率是渐近正态的。定理 12.8 在假设 12.2 下,如 \(n \rightarrow \infty\)

\[ \sqrt{n}\left(\widehat{\beta}_{2 s l s}^{*}-\widehat{\beta}_{2 s l s}\right) \underset{d^{*}}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right) \]

其中 \(\boldsymbol{V}_{\beta}\) 是定理 12.2 的 \(2 \mathrm{SLS}\) 渐近方差。此外,

\[ T^{*}=\frac{\sqrt{n}\left(\widehat{\beta}_{2 s l s}^{*}-\widehat{\beta}_{2 s l s}\right)}{s\left(\widehat{\beta}_{2 \text { sls }}^{*}\right)} \underset{d^{*}}{\longrightarrow} \mathrm{N}(0,1) . \]

这表明百分位数类型和百分位数 t 置信区间是渐近有效的。

人们可能期望渐近求精参数扩展到 \(\mathrm{BC}_{a}\) 和percentile-t 方法,但事实似乎并非如此。虽然 \(\sqrt{n}\left(\widehat{\beta}_{2 \text { sls }}^{*}-\widehat{\beta}_{2 s l s}\right)\)\(\sqrt{n}\left(\widehat{\beta}_{2 s l s}-\beta\right)\) 具有相同的渐近分布,但它们在有限样本中的差异在于 \(O_{p}\left(n^{-1 / 2}\right)\) 项。这意味着它们具有独特的埃奇沃斯展开式。因此,未经调整的引导方法将无法实现渐近细化。

Hall 和 Horowitz (1996) 提出的另一种选择是使 bootstrap 2SLS 估计器居中,使其满足正确的正交条件。定义

\[ \widehat{\beta}_{2 \text { sls }}^{* *}=\left(\boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)^{-1} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Y}_{1}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right) . \]

我们可以看到

\[ \begin{aligned} \sqrt{n}\left(\widehat{\beta}_{2 \text { sls }}^{* *}-\widehat{\beta}_{2 \mathrm{sls}}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{X}^{*}\right)^{-1} \\ & \times\left(\frac{1}{n} \boldsymbol{X}^{* \prime} \boldsymbol{Z}^{*}\right)\left(\frac{1}{n} \boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^{n}\left(Z_{i}^{*} e_{i}^{*}-\mathbb{E}^{*}\left[Z^{*} e^{*}\right]\right)\right) \end{aligned} \]

无需特殊处理即可收敛到 \(\mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 分布。 Hall 和 Horowitz (1996) 表明,应用于 \(\widehat{\beta}_{2 \text { sls }}^{* *}\) 的百分位数 t 方法实现了渐近细化,因此优于未调整的引导估计器。

然而,这个重新定位的估计器并不是实证实践中使用的 2SLS 引导程序的标准实现。

12.24 Bootstrap 2SLS 标准错误的危险

使用 bootstrap 算法来估计 2SLS 估计器的方差矩阵和标准误差是很诱人的。事实上,这是当前计量经济学实践中引导方法最常见的用途之一。不幸的是,这是一个不合理且考虑不周的想法,不应该这样做。在有限样本中,2SLS 估计器可能没有有限的二阶矩,这意味着自举方差估计不稳定且不可靠。

定理 \(12.7\) 表明,在联合正态性下,当且仅当过度识别限制的数量为 2 或更大时,2SLS 估计器才会具有有限方差。因此,对于刚刚识别的 IV 和具有一定程度过度识别的 2SLS,有限样本方差是无限的。引导程序将尝试估计这个值 - 无穷大 - 并会产生无意义的答案。当观测值不共同正态时,就不存在有限样本理论(因此有限样本方差实际上可能是有限的),但这是未知且无法验证的。在过度识别设置中,当过度识别限制的数量为两个或更大时,可以应用引导程序进行标准误差估计。然而,这并不是 IV 方法在计量经济学实践中最常见的应用,因此应被视为例外而不是常态。

要了解发生的情况,请考虑刚刚识别的模型的最简单情况,该模型具有单个内生回归变量且不包含外生回归变量。在这种情况下,估计量可以写成均值之比

\[ \widehat{\beta}_{\mathrm{iv}}-\beta=\frac{\sum_{i=1}^{n} Z_{i} e_{i}}{\sum_{i=1}^{n} Z_{i} X_{i}} . \]

\((e, X)\) 的联合正态性下,它具有类柯西分布,不具有任何有限整数矩。问题在于分母可以是正数,也可以是负数,并且可以任意接近于零。这意味着该比率可以取任意大的值。

为了说明这一点,让我们回到表 \(12.1\) 第 2 列中的基本 Card IV 工资回归,该回归使用大学作为教育工具。我们针对具有 \(n=703\) 观测值的黑人子样本估计该方程,并重点关注教育回报系数。表 12.3 报告了系数估计值,以及渐近误差、折刀误差和两个自举标准误差,每个标准误差均通过 10,000 次自举重复计算得出。

表 12.3:黑人男性教育回报工具变量

Estimate \(0.11\)
Asymptotic s.e. \((0.11)\)
Jackknife s.e. \((0.11)\)
Bootstrap s.e. (standard) \((1.42)\)
Bootstrap s.e. (repeat) \((4.79)\)

引导程序标准误差比渐近标准误差大一个数量级,并且尽管使用了 10,000 次引导程序复制,但在引导程序运行过程中差异很大。这表明引导程序标准错误的瞬时故障和不可靠性。

这是一个强烈的信息,即不应为 IV 估计器计算自举标准误差。相反,报告百分位数类型的置信区间。

12.25 集群依赖

\(4.21\) 节中,我们引入了集群依赖。我们还可以使用聚类依赖的方法进行 2SLS 估计。回想一下,\(g^{t h}\) 集群具有观测值 \(\boldsymbol{Y}_{g}=\left(Y_{1 g}, \ldots, Y_{n_{g} g}\right)^{\prime}, \boldsymbol{X}_{g}=\)\(\left(X_{1 g}, \ldots, X_{n_{g} g}\right)^{\prime}\)\(Z_{g}=\left(Z_{1 g}, \ldots, Z_{n_{g} g}\right)^{\prime}\)\(g^{t h}\) 簇的结构方程可以写为矩阵系统 \(\boldsymbol{Y}_{g}=\boldsymbol{X}_{g} \beta+\boldsymbol{e}_{g}\)。使用这种表示法,中心 2SLS 估计器可以写为

\[ \begin{aligned} \widehat{\beta}_{2 \text { sls }}-\beta &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{e} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\sum_{g=1}^{G} \boldsymbol{Z}_{g}^{\prime} \boldsymbol{e}_{g}\right) \end{aligned} \]

\(\widehat{\beta}_{2 s l s}\) 的集群鲁棒协方差矩阵估计器采用以下形式

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \widehat{\boldsymbol{S}}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \]

\[ \widehat{\boldsymbol{S}}=\sum_{g=1}^{G} \boldsymbol{Z}_{g}^{\prime} \widehat{\boldsymbol{e}}_{g} \widehat{\boldsymbol{e}}_{g}^{\prime} \boldsymbol{Z}_{g} \]

和聚类残差 \(\widehat{\boldsymbol{e}}_{g}=\boldsymbol{Y}_{g}-\boldsymbol{X}_{g} \widehat{\beta}_{2 \text { sls }}\)

异方差鲁棒估计器和集群鲁棒估计器之间的区别在于协方差估计器 \(\widehat{\boldsymbol{S}}\)

12.26 生成的回归器

2SLS 估计器的“两阶段”形式是所谓“使用生成的回归器进行估计”的示例。如果回归量是理想化回归量的估计或者是估计参数的函数,我们就说它是生成的。通常,生成的回归量 \(\widehat{W}\) 是对未观察到的理想回归量 \(W\) 的估计。作为估计,\(\widehat{W}_{i}\) 是整个样本的函数,而不仅仅是观察 \(i\)。因此它不是“i.i.d”。因为它依赖于观察结果,这使得传统的回归假设无效。因此,回归估计的抽样分布会受到影响。除非将其纳入我们的推理方法,否则协方差矩阵估计和标准误差将是不正确的。

生成回归量的计量经济学理论是由 Pagan (1984) 针对线性模型开发的,并由 Pagan (1986) 扩展到非线性模型和更一般的两步估计量。 Murphy 和 Topel (1985) 独立地获得了类似的结果。这里我们重点关注线性模型:

\[ \begin{aligned} Y &=W^{\prime} \beta+v \\ W &=\boldsymbol{A}^{\prime} Z \\ \mathbb{E}[Z v] &=0 . \end{aligned} \]

可观察量为 \((Y, Z)\)。我们还对 \(\boldsymbol{A}\) 进行了 \(\widehat{\boldsymbol{A}}\) 的估计。

给定 \(\widehat{A}\),我们构造 \(W_{i}\) 的估计 \(\widehat{W}_{i}=\widehat{A}^{\prime} Z_{i}\),将 (12.48) 中的 \(W_{i}\) 替换为 \(\widehat{W}_{i}\),然后通过最小二乘估计 \(\beta\),得到估计器

\[ \widehat{\beta}=\left(\sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i} Y_{i}\right) \]

回归量 \(\widehat{W}_{i}\) 称为生成回归量。 \(\widehat{\beta}\) 的属性与独立同分布的最小二乘法不同。观察,因为生成的回归量本身就是估计值。

该框架包括 2SLS 以及其他常见估计器。通过查看带有 \(W=\Gamma^{\prime} Z, A=\Gamma\)\(\widehat{A}=\widehat{\Gamma}\) 的简化形式方程 (12.13),2SLS 模型可以写为 (12.48)。

Pagan (1984) 以及 Murphy 和 Topel (1985) 的例子来自宏观经济学文献,特别是 Barro (1977) 的著作,该著作研究了通货膨胀预期和预期误差对经济产出的影响。让 \(\pi\) 表示已实现的通货膨胀,\(Z\) 是经济主体可用的变量。通胀预期模型设置 \(W=\mathbb{E}[\pi \mid Z]=\gamma^{\prime} Z\),预期误差模型设置 \(W=\pi-\mathbb{E}[\pi \mid Z]=\pi-\gamma^{\prime} Z\)。由于没有观察到期望和误差,它们在应用程序中被替换为拟合值 \(\widehat{W}_{i}=\widehat{\gamma}^{\prime} Z_{i}\) 和残差 \(\widehat{W}_{i}=\pi_{i}-\widehat{\gamma}^{\prime} Z_{i}\),其中 \(\widehat{\gamma}\)\(\pi\)\(Z\) 回归的系数。

生成的回归器框架包括所有这些示例。

目标是获得 \(\widehat{\beta}\) 的分布近似值,以便构建标准误差、置信区间和检验。首先将方程(12.48)代入(12.49)。我们获得

\[ \widehat{\beta}=\left(\sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i}\left(W_{i}^{\prime} \beta+v_{i}\right)\right) . \]

接下来,替换 \(W_{i}^{\prime} \beta=\widehat{W}_{i}^{\prime} \beta+\left(W_{i}-\widehat{W}_{i}\right)^{\prime} \beta\)。我们获得

\[ \widehat{\beta}-\beta=\left(\sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i}\left(\left(W_{i}-\widehat{W}_{i}\right)^{\prime} \beta+v_{i}\right)\right) . \]

实际上,这表明 \(\widehat{\beta}-\beta\) 的分布具有两个随机分量,一个是由于传统的回归分量,第二个是由于生成的回归量。传统的方差估计器不考虑第二个组成部分,因此会有偏差。

有趣的是,在“生成的回归项”\(\left(W_{i}-\widehat{W}_{i}\right)^{\prime} \beta\) 消失的特殊情况下,(12.50) 中的分布极大地简化了。当生成的回归量的斜率系数为零时,就会发生这种情况。具体来说,对 \(W_{i}=\left(W_{1 i}, W_{2 i}\right), \widehat{W}_{i}=\left(W_{1 i}, \widehat{W}_{2 i}\right)\)\(\beta=\left(\beta_{1}, \beta_{2}\right)\) 进行分区,以便 \(W_{1 i}\) 是常规观察到的回归量,\(\widehat{W}_{2 i}\) 是生成的回归量。然后\(\left(W_{i}-\widehat{W}_{i}\right)^{\prime} \beta=\) \(\left(W_{2 i}-\widehat{W}_{2 i}\right)^{\prime} \beta_{2}\)。因此,如果 \(\beta_{2}=0\) 该术语消失。在这种情况下 (12.50) 等于

\[ \widehat{\beta}-\widehat{\beta}=\left(\sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{W}_{i} v_{i}\right) . \]

这是一个戏剧性的简化。

此外,由于 \(\widehat{W}_{i}=\widehat{A}^{\prime} Z_{i}\) 我们可以将估计器编写为样本矩的函数:

\[ \sqrt{n}(\widehat{\beta}-\beta)=\left(\widehat{\boldsymbol{A}}^{\prime}\left(\frac{1}{n} \sum_{i=1}^{n} Z_{i} Z_{i}^{\prime}\right) \widehat{\boldsymbol{A}}\right)^{-1} \widehat{\boldsymbol{A}}^{\prime}\left(\frac{1}{\sqrt{n}} \sum_{i=1}^{n} Z_{i} v_{i}\right) \]

如果 \(\widehat{\boldsymbol{A}} \underset{p}{\longrightarrow} \boldsymbol{A}\) 我们从标准操作中发现 \(\sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\) 其中

\[ \boldsymbol{V}_{\boldsymbol{\beta}}=\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1}\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime} v^{2}\right] \boldsymbol{A}\right)\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} . \]

\(\widehat{\beta}\) 的传统渐近协方差矩阵估计量采用以下形式

\[ \widehat{\boldsymbol{V}}_{\beta}=\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime} \widehat{v}_{i}^{2}\right)\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime}\right)^{-1} \]

其中 \(\widehat{v}_{i}=Y_{i}-\widehat{W}_{i}^{\prime} \widehat{\beta}\).在给定的假设下,\(\widehat{\boldsymbol{V}}_{\beta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)。因此,使用 \(\widehat{\boldsymbol{V}}_{\beta}\) 进行的推理是渐近有效的。当我们对 \(\beta_{2}=0\) 的测试感兴趣时,这很有用。这通常是应用程序中最感兴趣的。

为了测试 \(\mathbb{M}_{0}: \beta_{2}=0\),我们对 \(\widehat{\beta}=\left(\widehat{\beta}_{1}, \widehat{\beta}_{2}\right)\) 进行分区并构建传统的 Wald 统计量

\[ W=n \widehat{\beta}_{2}^{\prime}\left(\left[\widehat{\boldsymbol{V}}_{\beta}\right]_{22}\right)^{-1} \widehat{\beta}_{2} . \]

定理 12.9 使用 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)\(0, \widehat{\boldsymbol{A}} \underset{p}{\longrightarrow} \boldsymbol{A}\)\(\widehat{W}_{i}=\left(W_{1 i}, \widehat{W}_{2 i}\right)\) 建立模型 (12.48)。在 \(\mathbb{H}_{0}: \beta_{2}=0\) 下,作为 \(n \rightarrow \infty, \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow}\) \(\mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\),其中 \(\boldsymbol{V}_{\beta}\) 在 (12.51) 中给出。对于 (12.52) 中给出的 \(\widehat{\boldsymbol{V}}_{\beta}\)\(\widehat{\boldsymbol{V}}_{\beta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)。此外,\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\) 其中\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)。对于 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\) 满足 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\),因此测试“Reject \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\) if \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)”具有渐近大小 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)。在 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\)\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>\) 的特殊情况下,存在先前结果的有限样本版本。令 \(0, \widehat{\boldsymbol{A}} \underset{p}{\longrightarrow} \boldsymbol{A}\) 为使用同方差协方差矩阵估计器构造的 Wald 统计量,并令

\[ F=W / q \]

\(F\) 统计量,其中 \(q=\operatorname{dim}\left(\beta_{2}\right)\)

定理 12.10 使用 \(\widehat{\boldsymbol{A}}=\boldsymbol{A}(\boldsymbol{X}, \boldsymbol{Z}), v \mid X, Z \sim \mathrm{N}\left(0, \sigma^{2}\right)\)\(\widehat{W}=\left(W_{1}, \widehat{W}_{2}\right)\) 建立模型 (12.48)。在 \(\mathbb{M}_{0}: \beta_{2}=0\) 下,t 统计量具有精确的 \(\mathrm{N}(0,1)\) 分布,\(F\) 统计量 (12.53) 具有精确的 \(F_{q, n-k}\) 分布,其中 \(q=\operatorname{dim}\left(\beta_{2}\right)\)\(k=\operatorname{dim}(\beta)\)

总而言之,在模型 \(Y=W_{1}^{\prime} \beta_{1}+W_{2}^{\prime} \beta_{2}+v\) 中,未观察到 \(W_{2}\),而是用估计值 \(\widehat{W}_{2}\) 代替,\(\mathbb{M}_{0}: \beta_{2}=0\) 的传统显着性检验在不进行调整的情况下渐近有效。

虽然该理论允许对 \(\mathbb{M}_{0}: \beta_{2}=0\) 进行测试,但不幸的是它并不能证明传统的标准误差或置信区间是合理的。为此,我们需要在不进行简化 \(\beta_{2}=0\) 的情况下计算出分布。这通常需要根据具体情况进行计算,或者使用基于第 13 章中介绍的广义矩方法的方法。然而,在一组重要的示例中,计算渐近分布是很简单的。

在本节的其余部分中,我们将检查估计器 \(\widehat{A}\) 采用最小二乘形式的设置,因此对于某些 \(\boldsymbol{X}\) 可以写为 \(\widehat{\boldsymbol{A}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\)。这种估计量对应于多元投影模型

\[ \begin{aligned} X &=\boldsymbol{A}^{\prime} Z+u \\ \mathbb{E}\left[Z u^{\prime}\right] &=0 . \end{aligned} \]

此类估计器包括 2SLS 和上述期望模型。我们可以将生成的回归量矩阵写为 \(\widehat{W}=Z \widehat{A}\) ,然后将 (12.50) 写为

\[ \begin{aligned} \widehat{\beta}-\beta &=\left(\widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1}\left(\widehat{\boldsymbol{W}}^{\prime}((\boldsymbol{W}-\widehat{\boldsymbol{W}}) \beta+\boldsymbol{v})\right) \\ &=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1}\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime}\left(-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{U}\right) \beta+\boldsymbol{v}\right)\right) \\ &=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1}\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime}(-\boldsymbol{U} \beta+\boldsymbol{v})\right) \\ &=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1}\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \end{aligned} \]

在哪里

\[ e=v-u^{\prime} \beta=Y-X^{\prime} \beta . \]

该估计量具有渐近分布 \(\sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\longrightarrow} \mathrm{N}\left(0, V_{\beta}\right)\) 其中

\[ \boldsymbol{V}_{\beta}=\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1}\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime} e^{2}\right] \boldsymbol{A}\right)\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} . \]

在条件同方差下,协方差矩阵简化为

\[ \boldsymbol{V}_{\boldsymbol{\beta}}=\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} \mathbb{E}\left[e^{2}\right] . \]

\(\boldsymbol{V}_{\beta}\) 的适当估计量是

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\beta} &=\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime} \widehat{e}_{i}^{2}\right)\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1} \\ \widehat{e}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta} \end{aligned} \]

在条件同方差的假设下,这可以像平常一样简化。

这似乎是通常的协方差矩阵估计器,但这并不是因为最小二乘残差 \(\widehat{v}_{i}=Y_{i}-\widehat{W_{i}^{\prime}} \widehat{\beta}\) 已替换为 \(\widehat{e}_{i}\)。这正是 2SLS 协方差矩阵公式所做的代入。事实上,协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\beta}\) 精确等于 (12.40)。

定理 12.11 使用 \(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty\)\(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}>0\)\(\widehat{\boldsymbol{A}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\) 建立模型 (12.48) 和 (12.54)。如 \(n \rightarrow \infty, \sqrt{n}(\widehat{\beta}-\beta) \underset{d}{\rightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\beta}\right)\),其中 \(\boldsymbol{V}_{\beta}\) 在 (12.56) 中给出,\(e\) 在 (12.55) 中定义。对于 (12.57) 中给出的 \(\widehat{\boldsymbol{V}}_{\beta}\)\(\widehat{\boldsymbol{V}}_{\beta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)

由于参数估计量是渐近正态的,并且协方差矩阵是一致估计的,因此从 \(\widehat{\boldsymbol{V}}_{\beta}\) 构建的标准误差和检验统计量对于传统解释来说是渐近有效的。

我们现在总结本节的结果。一般来说,在使用生成的回归量估计模型时需要小心。作为一般规则,生成的回归量和两步估计会影响采样分布和方差矩阵。对于生成的回归量具有零斜率的测试,出现了一个重要的简化。在这种情况下,常规检验具有渐近分布和有限样本的常规分布。当生成的回归量是最小二乘拟合值时,会出现另一个重要的特殊情况。在这种情况下,渐近分布采用传统形式,但传统残差需要用预测变量构造的残差替换。通过这一修改,使用生成的回归量进行渐近推理是传统的。

12.27 带有期望误差的回归

在本节中,我们检查生成的回归模型,其中包括回归中的期望误差。这是一类重要的生成回归模型,并且相对容易描述。模型是

\[ \begin{aligned} Y &=X^{\prime} \beta+u^{\prime} \alpha+v \\ W &=\boldsymbol{A}^{\prime} Z \\ X &=W+u \\ \mathbb{E}[Z v] &=0 \\ \mathbb{E}[u v] &=0 \\ \mathbb{E}\left[Z u^{\prime}\right] &=0 . \end{aligned} \]

可观察量为 \((Y, X, Z)\)。该模型指出 \(W\)\(X\) 的期望(或者更一般地说,\(X\)\(Z\) 上的投影),而 \(u\) 是其期望误差。该模型允许使用标准 IV 模型中的外生回归量(如果它们列在 \(W, X\)\(Z\) 中)。例如,该模型用于分解期望误差与期望的影响。在某些情况下,需要仅包含期望误差 \(u\),而不是期望 \((Y, X, Z)\)。这不会改变此处描述的结果。

该模型估计如下。首先,\(\boldsymbol{A}\) 通过 \(X\)\(Z\)\(\widehat{\boldsymbol{A}}=\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\) 上的多元最小二乘法进行估计,生成拟合值 \(\widehat{W}_{i}=\widehat{\boldsymbol{A}}^{\prime} Z_{i}\) 和残差 \(\widehat{u}_{i}=\widehat{X}_{i}-\widehat{W}_{i}\) 作为副产品。其次,通过 \(Y\) 对拟合值 \(\widehat{W}\) 和残差 \(\widehat{u}\) 的最小二乘来估计系数

\[ Y_{i}=\widehat{W}_{i}^{\prime} \widehat{\beta}+\widehat{u}_{i}^{\prime} \widehat{\alpha}+\widehat{v}_{i} . \]

我们现在检查这些估计量的渐近分布。

通过第一步回归\(\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{U}}=0, \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{U}}=0\)\(\boldsymbol{W}^{\prime} \widehat{\boldsymbol{U}}=0\)。这意味着 \(\widehat{\beta}\)\(\widehat{\alpha}\) 可以单独计算。请注意

\[ \widehat{\beta}=\left(\widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1} \widehat{\boldsymbol{W}}^{\prime} \boldsymbol{Y} \]

\[ \boldsymbol{Y}=\widehat{\boldsymbol{W}} \beta+\boldsymbol{U} \alpha+(\boldsymbol{W}-\widehat{\boldsymbol{W}}) \beta+\boldsymbol{v} . \]

替换,使用 \(\widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{U}}=0\)\(\boldsymbol{W}-\widehat{\boldsymbol{W}}=-\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{U}\) 我们发现

\[ \begin{aligned} \widehat{\beta}-\beta &=\left(\widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1} \widehat{\boldsymbol{W}}^{\prime}(\boldsymbol{U} \alpha+(\boldsymbol{W}-\widehat{\boldsymbol{W}}) \beta+\boldsymbol{v}) \\ &=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1} \widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime}(\boldsymbol{U} \alpha-\boldsymbol{U} \beta+\boldsymbol{v}) \\ &=\left(\widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \widehat{\boldsymbol{A}}\right)^{-1} \widehat{\boldsymbol{A}}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{e} \end{aligned} \]

在哪里

\[ e_{i}=v_{i}+u_{i}^{\prime}(\alpha-\beta)=Y_{i}-X_{i}^{\prime} \beta . \]

我们还发现

\[ \widehat{\alpha}=\left(\widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1} \widehat{\boldsymbol{U}}^{\prime} \boldsymbol{Y} . \]

由于 \(\widehat{\boldsymbol{U}}^{\prime} \boldsymbol{W}=0, \boldsymbol{U}-\widehat{\boldsymbol{U}}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{U}\)\(\widehat{\boldsymbol{U}}^{\prime} \boldsymbol{Z}=0\) 那么

\[ \begin{aligned} \widehat{\alpha}-\alpha &=\left(\widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1} \widehat{\boldsymbol{U}}^{\prime}(\boldsymbol{W} \beta+(\boldsymbol{U}-\widehat{\boldsymbol{U}}) \alpha+\boldsymbol{v}) \\ &=\left(\widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1} \widehat{\boldsymbol{U}}^{\prime} \boldsymbol{v} \end{aligned} \]

我们一起建立以下分布结果。定理 12.12 对于本节中描述的模型和估计量,\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, \mathbb{E}\|X\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] A>0\)\(\mathbb{E}\left[u u^{\prime}\right]>0\)\(n \rightarrow \infty\)

\[ \sqrt{n}\left(\begin{array}{c} \widehat{\beta}-\beta \\ \widehat{\alpha}-\alpha \end{array}\right) \underset{d}{\longrightarrow} \mathrm{N}(0, \boldsymbol{V}) \]

在哪里

\[ \boldsymbol{V}=\left(\begin{array}{ll} \boldsymbol{V}_{\beta \beta} & \boldsymbol{V}_{\beta \alpha} \\ \boldsymbol{V}_{\alpha \beta} & \boldsymbol{V}_{\alpha \alpha} \end{array}\right) \]

\[ \begin{aligned} \boldsymbol{V}_{\beta \beta} &=\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1}\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime} e^{2}\right] \boldsymbol{A}\right)\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} \\ \boldsymbol{V}_{\alpha \beta} &=\left(\mathbb{E}\left[u u^{\prime}\right]\right)^{-1}\left(\mathbb{E}\left[u Z^{\prime} e v\right] \boldsymbol{A}\right)\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} \\ \boldsymbol{V}_{\alpha \alpha} &=\left(\mathbb{E}\left[u u^{\prime}\right]\right)^{-1} \mathbb{E}\left[u u^{\prime} v^{2}\right]\left(\mathbb{E}\left[u u^{\prime}\right]\right)^{-1} \end{aligned} \]

渐近协方差矩阵估计为

\[ \begin{aligned} &\widehat{\boldsymbol{V}}_{\beta \beta}=\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{W}_{i} \widehat{W}_{i}^{\prime} \widehat{e}_{i}^{2}\right)\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{\alpha \beta}=\left(\frac{1}{n} \widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{u}_{i} \widehat{W}_{i}^{\prime} \widehat{e}_{i} \widehat{v}_{i}\right)\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1} \\ &\widehat{\boldsymbol{V}}_{\alpha \alpha}=\left(\frac{1}{n} \widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{U}_{i} \widehat{U}_{i}^{\prime} \widehat{v}_{i}^{2}\right)\left(\frac{1}{n} \widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1} \end{aligned} \]

在哪里

\[ \begin{aligned} \widehat{W}_{i} &=\widehat{A}^{\prime} Z_{i} \\ \widehat{u}_{i} &=\widehat{X}_{i}-\widehat{W}_{i} \\ \widehat{e}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta} \\ \widehat{v}_{i} &=Y_{i}-\widehat{W}_{i}^{\prime} \widehat{\beta}-\widehat{u}_{i}^{\prime} \widehat{\alpha} . \end{aligned} \]

在条件同方差下,具体来说

\[ \mathbb{E}\left[\left(\begin{array}{cc} e_{i}^{2} & e_{i} v_{i} \\ e_{i} v_{i} & v_{i}^{2} \end{array}\right) \mid Z_{i}\right]=\boldsymbol{C} \]

那么 \(\boldsymbol{V}_{\alpha \beta}=0\) 和系数估计值 \(\widehat{\beta}\)\(\widehat{\alpha}\) 是渐近独立的。方差分量也简化为

\[ \begin{aligned} \boldsymbol{V}_{\beta \beta} &=\left(\boldsymbol{A}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \boldsymbol{A}\right)^{-1} \mathbb{E}\left[e_{i}^{2}\right] \\ \boldsymbol{V}_{\alpha \alpha} &=\left(\mathbb{E}\left[u u^{\prime}\right]\right)^{-1} \mathbb{E}\left[v^{2}\right] . \end{aligned} \]

在这种情况下,我们有协方差矩阵估计器

\[ \begin{aligned} &\widehat{\boldsymbol{V}}_{\beta \beta}^{0}=\left(\frac{1}{n} \widehat{\boldsymbol{W}}^{\prime} \widehat{\boldsymbol{W}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{e}_{i}^{2}\right) \\ &\widehat{\boldsymbol{V}}_{\alpha \alpha}^{0}=\left(\frac{1}{n} \widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} \widehat{v}_{i}^{2}\right) \end{aligned} \]

\(\widehat{\boldsymbol{V}}_{\alpha \beta}^{0}=0\)

12.28 控制函数回归

在本节中,我们提出了一种通过最小二乘法计算 2SLS 估计量的替代方法。它在非线性环境中非常有用,在线性模型中构建内生性检验也很有用。

标准 IV 模型的结构方程和简化形式方程为

\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+e \\ X_{2} &=\Gamma_{12}^{\prime} Z_{1}+\Gamma_{22}^{\prime} Z_{2}+u_{2} . \end{aligned} \]

由于工具变量假设指定 \(\mathbb{E}[Z e]=0, X_{2}\) 是内生的(如果 \(u_{2}\)\(e\) 相关,则与 \(e)\) 相关。因此,我们可以考虑 \(e\)\(u_{2}\) 上的线性投影

\[ \begin{aligned} e &=u_{2}^{\prime} \alpha+v \\ \alpha &=\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \mathbb{E}\left[u_{2} e\right] \\ \mathbb{E}\left[u_{2} v\right] &=0 . \end{aligned} \]

将其代入我们发现的结构形式方程

\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+u_{2}^{\prime} \alpha+v \\ \mathbb{E}\left[X_{1} v\right] &=0 \\ \mathbb{E}\left[X_{2} v\right] &=0 \\ \mathbb{E}\left[u_{2} v\right] &=0 . \end{aligned} \]

请注意,\(X_{2}\)\(v\) 不相关。这是因为 \(X_{2}\) 仅通过 \(u_{2}\)\(e\) 相关,而 \(v\)\(e\) 正交投影到 \(u_{2}\) 后的误差。

如果观察到 \(u_{2}\),我们就可以通过最小二乘法估计 (12.59)。由于没有观察到它,我们通过简化形式的残差 \(\widehat{u}_{2 i}=X_{2 i}-\widehat{\Gamma}_{12}^{\prime} Z_{1 i}-\widehat{\Gamma}_{22}^{\prime} Z_{2 i}\) 来估计它。然后可以通过 \(Y\)\(\left(X_{1}, X_{2}, \widehat{u}_{2}\right)\) 上的最小二乘来估计系数 \(\left(\beta_{1}, \beta_{2}, \alpha\right)\)。我们可以把它写成

\[ Y_{i}=X_{i}^{\prime} \widehat{\beta}+\widehat{u}_{2 i}^{\prime} \widehat{\alpha}+\widehat{v}_{i} \]

或用矩阵表示法表示为

\[ \boldsymbol{Y}=\boldsymbol{X} \widehat{\beta}+\widehat{\boldsymbol{U}}_{2} \widehat{\alpha}+\widehat{\boldsymbol{v}} . \]

事实证明,这是 2SLS 估计器的替代代数表达式。

事实上,我们现在表明\(\widehat{\beta}=\widehat{\beta}_{2 s l s}\)。首先,请注意,简化形式的残差可以写为

\[ \widehat{\boldsymbol{U}}_{2}=\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{\boldsymbol{Z}}\right) \boldsymbol{X}_{2} \]

其中 \(\boldsymbol{P}_{\boldsymbol{Z}}\) 在 (12.30) 中定义。由FWL表示

\[ \widehat{\beta}=\left(\widetilde{\boldsymbol{X}}^{\prime} \widetilde{\boldsymbol{X}}\right)^{-1}\left(\widetilde{\boldsymbol{X}}^{\prime} \boldsymbol{Y}\right) \]

其中 \(\widetilde{\boldsymbol{X}}=\left[\widetilde{\boldsymbol{X}}_{1}, \widetilde{\boldsymbol{X}}_{2}\right]\)

\[ \widetilde{\boldsymbol{X}}_{1}=\boldsymbol{X}_{1}-\widehat{\boldsymbol{U}}_{2}\left(\widehat{\boldsymbol{U}}_{2}^{\prime} \widehat{\boldsymbol{U}}_{2}\right)^{-1} \widehat{\boldsymbol{U}}_{2}^{\prime} \boldsymbol{X}_{1}=\boldsymbol{X}_{1} \]

(因为 \(\left.\widehat{\boldsymbol{U}}_{2}^{\prime} \boldsymbol{X}_{1}=0\right)\)

\[ \begin{aligned} \widetilde{\boldsymbol{X}}_{2} &=\boldsymbol{X}_{2}-\widehat{\boldsymbol{U}}_{2}\left(\widehat{\boldsymbol{U}}_{2}^{\prime} \widehat{\boldsymbol{U}}_{2}\right)^{-1} \widehat{\boldsymbol{U}}_{2}^{\prime} \boldsymbol{X}_{2} \\ &=\boldsymbol{X}_{2}-\widehat{\boldsymbol{U}}_{2}\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{\boldsymbol{Z}}\right) \boldsymbol{X}_{2}\right)^{-1} \boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{\boldsymbol{Z}}\right) \boldsymbol{X}_{2} \\ &=\boldsymbol{X}_{2}-\widehat{\boldsymbol{U}}_{2} \\ &=\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2} . \end{aligned} \]

因此\(\tilde{\boldsymbol{X}}=\left[\boldsymbol{X}_{1}, \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\right]=\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\)。代入(12.61)我们发现

\[ \widehat{\beta}=\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Y}\right)=\widehat{\beta}_{2 \text { sls }} \]

正如所声称的那样,这是(12.31)。

同样,我们发现方程 (12.60) 的 OLS 估计在代数上产生 2SLS 估计器 \(\widehat{\beta}_{2 \text { sls }}\)

我们现在考虑控制函数估计器 \((\widehat{\beta}, \widehat{\alpha})\) 的分布。它是一个生成的回归模型,事实上,经过轻微的重新参数化后,它被 \(12.27\) 节中检查的模型所覆盖。让 \(W=\bar{\Gamma}^{\prime} Z\).注意\(u=X-W\)。那么主方程(12.59)可以写成\(Y=W^{\prime} \beta+u_{2}^{\prime} \gamma+v\),其中\(\gamma=\alpha+\beta_{2}\)。这是第 12.27 节中的模型。

设置 \(\widehat{\gamma}=\widehat{\alpha}+\widehat{\beta}_{2}\)。从 (12.58) 可以看出,作为 \(n \rightarrow \infty\),我们有联合分布

\[ \sqrt{n}\left(\begin{array}{c} \widehat{\beta}_{2}-\beta_{2} \\ \widehat{\gamma}-\gamma \end{array}\right) \vec{d} \mathrm{~N}(0, \boldsymbol{V}) \]

在哪里

\[ \begin{aligned} \boldsymbol{V}=\left(\begin{array}{ll} \boldsymbol{V}_{22} & \boldsymbol{V}_{2 \gamma} \\ \boldsymbol{V}_{\gamma 2} & \boldsymbol{V}_{\gamma \gamma} \end{array}\right) \\ \boldsymbol{V}_{22} &=\left[\left(\bar{\Gamma}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \bar{\Gamma}\right)^{-1} \bar{\Gamma}^{\prime} \mathbb{E}\left[Z Z^{\prime} e^{2}\right] \bar{\Gamma}\left(\bar{\Gamma}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \bar{\Gamma}\right)^{-1}\right]_{22} \\ \boldsymbol{V}_{\gamma 2} &=\left[\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \mathbb{E}\left[u Z^{\prime} e v\right] \bar{\Gamma}\left(\bar{\Gamma}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \bar{\Gamma}\right)^{-1}\right]_{\cdot 2} \\ \boldsymbol{V}_{\gamma \gamma} &=\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \mathbb{E}\left[u_{2} u_{2}^{\prime} v^{2}\right]\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \\ e &=Y-X^{\prime} \beta . \end{aligned} \]

可以推导出 \(\widehat{\gamma}=\widehat{\alpha}-\widehat{\beta}_{2}\) 的渐近分布。

定理12.13 如果\(\mathbb{E}\left[Y^{4}\right]<\infty, \mathbb{E}\|Z\|^{4}<\infty, \mathbb{E}\|X\|^{4}<\infty, A^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] A>0\)\(\mathbb{E}\left[u u^{\prime}\right]>0\),作为\(n \rightarrow \infty\)

\[ \sqrt{n}(\widehat{\alpha}-\alpha) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\alpha}\right) \]

在哪里

\[ \boldsymbol{V}_{\alpha}=\boldsymbol{V}_{22}+\boldsymbol{V}_{\gamma \gamma}-\boldsymbol{V}_{\gamma 2}-\boldsymbol{V}_{\gamma 2}^{\prime} . \]

在条件同方差下,我们有重要的简化

\[ \begin{aligned} \boldsymbol{V}_{22} &=\left[\left(\bar{\Gamma}^{\prime} \mathbb{E}\left[Z Z^{\prime}\right] \bar{\Gamma}\right)^{-1}\right]_{22} \mathbb{E}\left[e^{2}\right] \\ \boldsymbol{V}_{\gamma \gamma} &=\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \mathbb{E}\left[v^{2}\right] \\ \boldsymbol{V}_{\gamma 2} &=0 \\ \boldsymbol{V}_{\alpha} &=\boldsymbol{V}_{22}+\boldsymbol{V}_{\gamma \gamma} . \end{aligned} \]

一般情况下 \(\boldsymbol{V}_{\alpha}\) 的估计量是

\[ \widehat{\boldsymbol{V}}_{\alpha}=\widehat{\boldsymbol{V}}_{22}+\widehat{\boldsymbol{V}}_{\gamma \gamma}-\widehat{\boldsymbol{V}}_{\gamma 2}-\widehat{\boldsymbol{V}}_{\gamma 2}^{\prime} \]

在哪里

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{22} &=\left[\frac{1}{n}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\sum_{i=1}^{n} Z_{i} Z_{i}^{\prime} \widehat{e}_{i}^{2}\right)\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\right]_{22} \\ \widehat{\boldsymbol{V}}_{\gamma 2} &=\left[\frac{1}{n}\left(\widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{u}_{i} \widehat{W}_{i}^{\prime} \widehat{e}_{i} \widehat{v}_{i}\right)\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\right]_{-2} \\ \widehat{e}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta} \\ \widehat{v}_{i} &=Y_{i}-X_{i}^{\prime} \widehat{\beta}-\widehat{u}_{2 i}^{\prime} \widehat{\gamma} \end{aligned} \]

在条件同方差的假设下,我们有估计量

\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\alpha}^{0} &=\widehat{\boldsymbol{V}}_{\beta \beta}^{0}+\widehat{\boldsymbol{V}}_{\gamma \gamma}^{0} \\ \widehat{\boldsymbol{V}}_{\beta \beta} &=\left[\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\right]_{22}\left(\sum_{i=1}^{n} \widehat{e}_{i}^{2}\right) \\ \widehat{\boldsymbol{V}}_{\gamma \gamma} &=\left(\widehat{\boldsymbol{U}}^{\prime} \widehat{\boldsymbol{U}}\right)^{-1}\left(\sum_{i=1}^{n} \widehat{v}_{i}^{2}\right) . \end{aligned} \]

12.29 内生性检验

2SLS 估计器允许回归量 \(X_{2}\) 是内生的,这意味着 \(X_{2}\) 与结构误差 \(e\) 相关。如果这种相关性为零,则 \(X_{2}\) 是外生的,结构方程可以通过最小二乘法估计。这是一个可测试的限制。实际上,原假设是

\[ \mathbb{H}_{0}: \mathbb{E}\left[X_{2} e\right]=0 \]

与替代方案

\[ \mathbb{M}_{1}: \mathbb{E}\left[X_{2} e\right] \neq 0 . \]

维持的假设是\(\mathbb{E}[Z e]=0\)。由于 \(X_{1}\)\(Z\) 的组成部分,这意味着 \(\mathbb{E}\left[X_{1} e\right]=0\)。因此,我们也可以将 null 写为 \(\mathbb{H}_{0}: \mathbb{E}[X e]=0\) (有些作者这样做)。

回想一下控制函数回归(12.59)

\[ \begin{aligned} &Y=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+u_{2}^{\prime} \alpha+v \\ &\alpha=\left(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\right)^{-1} \mathbb{E}\left[u_{2} e\right] \end{aligned} \]

请注意,\(\mathbb{E}\left[X_{2} e\right]=0\) 当且仅当 \(\mathbb{E}\left[u_{2} e\right]=0\),因此假设可以根据 \(\mathbb{H}_{1}: \alpha \neq 0\) 重新表述为 \(\mathbb{H}_{0}: \alpha=0\)。因此,自然检验基于控制函数回归 (12.28) 中 \(\alpha=0\) 的 Wald 统计量 \(W\)。根据定理 12.9,定理 \(12.10\)\(\mathbb{M}_{0}, W\)\(k_{2}\) 自由度渐近卡方。此外,在正态回归假设下, \(\mathbb{E}\left[X_{2} e\right]=0\) 统计量具有精确的 \(\mathbb{E}\left[X_{2} e\right]=0\) (\(\mathbb{E}\left[X_{2} e\right]=0\) ) 分布。如果 \(\mathbb{E}\left[X_{2} e\right]=0\)(或 F)小于临界值,我们接受原假设:\(\mathbb{E}\left[X_{2} e\right]=0\) 是外生的;如果统计量大于临界值,我们拒绝 \(\mathbb{E}\left[X_{2} e\right]=0\) 是内生的假设。

具体来说,通过最小二乘估计简化形式

\[ X_{2 i}=\widehat{\Gamma}_{12}^{\prime} Z_{1 i}+\widehat{\Gamma}_{22}^{\prime} Z_{2 i}+\widehat{u}_{2 i} \]

以获得残差。然后通过最小二乘估计控制函数

\[ Y_{i}=X_{i}^{\prime} \widehat{\beta}+\widehat{u}_{2 i}^{\prime} \widehat{\alpha}+\widehat{v}_{i} . \]

\(W, W^{0}\)\(F=W^{0} / k_{2}\) 表示 \(\alpha=0\) 的 Wald、同方差 Wald 和 \(F\) 统计量。

定理 12.14 在 \(\mathbb{M}_{0}, W \underset{d}{\longrightarrow} \chi_{k_{2}}^{2}\) 下。让\(c_{1-\alpha}\) 求解\(\mathbb{P}\left[\chi_{k_{2}}^{2} \leq c_{1-\alpha}\right]=1-\alpha\)。测试“如果 \(W>c_{1-\alpha}\) 则拒绝 \(\mathbb{M}_{0}\)”具有渐近大小 \(\alpha\)

定理 12.15 假设 \(e \mid X, Z \sim \mathrm{N}\left(0, \sigma^{2}\right)\)。在 \(\mathbb{H}_{0}, \mathrm{~F} \sim F\left(k_{2}, n-k_{1}-2 k_{2}\right)\) 下。让\(c_{1-\alpha}\) 求解\(\mathbb{P}\left[F\left(k_{2}, n-k_{1}-2 k_{2}\right) \leq c_{1-\alpha}\right]=1-\alpha\)。测试“Reject \(\mathbb{H}_{0}\) if \(\mathrm{F}>\) \(c_{1-\alpha}\)”具有精确的大小\(\alpha\)

由于一般来说我们不想强加同方差,因此这些结果表明最合适的检验是使用稳健的异方差协方差矩阵构建的 Wald 统计量。当 ivregress 使用鲁棒协方差选项时,可以在 Stata 中使用命令 estat endogenous 在 ivregress 后计算。 Stata 以 \(F\) 形式报告 Wald 统计量(因此使用 \(F\) 分布来计算 p 值)作为“稳健回归 F”。使用 \(F\) 而不是 \(\chi^{2}\) 在形式上没有合理性,但却是合理的有限样本调整。如果在 ivregress 之后应用命令 estat endogenous,而没有稳健的协方差选项,Stata 会将 \(F\) 统计量报告为“Wu-Hausman F”。

有另一种(传统的)方法来导出内生性检验。在 \(\mathbb{M}_{0}\) 下,OLS 和 2 SLS 都是一致估计量。但在 \(\mathbb{M}_{1}\) 下,它们收敛到不同的值。因此,OLS 和 2SLS 估计量之间的差异是内生性的有效检验统计量。它还衡量了我们最关心的事情——内生性对参数估计的影响。该文献是在条件同方差的假设下开发的(这对于这些结果很重要),因此我们假设这个条件来开发统计数据。

\(\widehat{\beta}=\left(\widehat{\beta}_{1}, \widehat{\beta}_{2}\right)\) 为 OLS 估计器,令 \(\widetilde{\beta}=\left(\widetilde{\beta}_{1}, \widetilde{\beta}_{2}\right)\) 为 2SLS 估计器。在 \(\mathbb{H}_{0}\) 和同方差下,OLS 估计器是高斯-马尔可夫有效的,因此通过豪斯曼方程

\[ \begin{aligned} \operatorname{var}\left[\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right] &=\operatorname{var}\left[\widetilde{\beta}_{2}\right]-\operatorname{var}\left[\widehat{\beta}_{2}\right] \\ &=\left(\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)^{-1}-\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{X}_{2}\right)^{-1}\right) \sigma^{2} \end{aligned} \]

其中 \(\boldsymbol{P}_{\boldsymbol{Z}}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}, \boldsymbol{P}_{1}=\boldsymbol{X}_{1}\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime}\)\(\boldsymbol{M}_{1}=\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\)。因此 \(\mathbb{H}_{0}\) 的有效检验统计量是

\[ T=\frac{\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)^{-1}-\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{X}_{2}\right)^{-1}\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)}{\widehat{\sigma}^{2}} \]

对于 \(\sigma^{2}\) 的某个估计器 \(\widehat{\sigma}^{2}\)。 Durbin (1954) 首先提出 \(T\) 作为 IV 估计背景下的内生性检验,将 \(\widehat{\sigma}^{2}\) 设置为 \(\sigma^{2}\) 的最小二乘估计量。 Wu (1973) 提出 \(T\) 作为 2SLS 估计背景下内生性的检验,考虑一组可能的估计量 \(\widehat{\sigma}^{2}\) ,包括来自 (12.63) 的回归估计量。 Hausman (1978) 基于完全对比 \(\widehat{\beta}-\widetilde{\beta}\) 提出了 \(T\) 的版本,并观察到它等于前面描述的回归 Wald 统计量 \(\widehat{\sigma}^{2}\)。事实上,当 \(\widehat{\sigma}^{2}\) 是 (12.63) 的回归估计量时,统计量 (12.64) 在代数上等于 \(\widehat{\sigma}^{2}\) 和基于完整对比 \(\widehat{\sigma}^{2}\) 的 (12.64) 版本。我们在下面展示这些等式。因此,除了 \(\widehat{\sigma}^{2}\) 的选择可能存在差异之外,这三种方法产生完全相同的统计数据。由于前面描述的回归 \(\widehat{\sigma}^{2}\) 测试在正态抽样模型中具有精确的 \(\widehat{\sigma}^{2}\) 分布,因此可以精确控制测试大小,因此这是测试的首选版本。一般的测试类别称为 Durbin-Wu-Hausman 测试、Wu-Hausman 测试或 Hausman 测试,具体取决于作者。

\(k_{2}=1\) (有一个右侧内生变量)(在应用中很常见)时,内生性检验可以等效地表示为估计控制函数中 \(\widehat{\alpha}\) 的 t 统计量。因此,估计控制函数回归并检查 \(\widehat{\alpha}\) 的 t 统计量就足够了。如果 \(|\widehat{\alpha}|>2\) 那么我们可以拒绝 \(X_{2}\) 对于 \(\beta\) 是外生的假设。

我们使用公共和私有两种工具来说明卡邻近示例。我们首先估计教育的简化形式,获得残差,然后估计控制函数回归。残差的系数为 \(-0.088\),标准误差为 \(0.037\),t 统计量为 2.4。由于后者超过了 \(5 %\) 临界值(其 p 值为 \(0.017\) ),我们拒绝外生性。这意味着 2SLS 估计在统计上与结构方程的最小二乘估计不同,并且支持我们将教育视为内生变量的决定。 (或者,\(F\) 统计量是具有相同 p 值的 \(2.4^{2}=5.7\))。

我们现在展示各种统计数据的平等性。

我们首先证明,如果基于完全对比 \(\widehat{\beta}-\widetilde{\beta}\),统计量 (12.64) 不会改变。事实上,\(\widehat{\beta}_{1}-\widetilde{\beta}_{1}\)\(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\) 的线性函数,因此完全对比中没有额外的信息。要看到这一点,请观察给定 \(\widehat{\beta}_{2}\),我们可以通过最小二乘法求解来找到

\[ \widehat{\beta}_{1}=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1}\left(\boldsymbol{X}_{1}^{\prime}\left(\boldsymbol{Y}-\boldsymbol{X}_{2} \widehat{\beta}_{2}\right)\right) \]

和类似地

\[ \widetilde{\beta}_{1}=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1}\left(\boldsymbol{X}_{1}^{\prime}\left(\boldsymbol{Y}-\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2} \widetilde{\beta}\right)\right)=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1}\left(\boldsymbol{X}_{1}^{\prime}\left(\boldsymbol{Y}-\boldsymbol{X}_{2} \widetilde{\beta}\right)\right) \]

第二个等式是因为 \(\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{1}=\boldsymbol{X}_{1}\)。因此

\[ \begin{aligned} \widehat{\beta}_{1}-\widetilde{\beta}_{1} &=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime}\left(\boldsymbol{Y}-\boldsymbol{X}_{2} \widehat{\beta}_{2}\right)-\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime}\left(\boldsymbol{Y}-\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2} \widetilde{\beta}\right) \\ &=\left(\boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{1}\right)^{-1} \boldsymbol{X}_{1}^{\prime} \boldsymbol{X}_{2}\left(\widetilde{\beta}_{2}-\widehat{\beta}_{2}\right) \end{aligned} \]

正如所声称的那样。

接下来我们证明 (12.64) 中的 \(T\) 等于回归 (12.63) 中 \(\widehat{\alpha}\) 的同方差 Wald 统计量 \(W^{0}\)。考虑后面的回归。由于 \(\boldsymbol{X}_{2}\) 包含在 \(\boldsymbol{X}\) 中,因此系数估计 \(\widehat{\alpha}\) 对于用 \(-\widehat{\boldsymbol{X}}_{2}=-\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\) 替换 \(\widehat{\boldsymbol{U}}_{2}=\boldsymbol{X}_{2}-\widehat{\boldsymbol{X}}_{2}\) 是不变的。通过 FWL 表示,设置 \(\boldsymbol{M}_{\boldsymbol{X}}=\) \(T\)

\[ \widehat{\alpha}=-\left(\widehat{\boldsymbol{X}}_{2}^{\prime} \boldsymbol{M}_{\boldsymbol{X}} \widehat{\boldsymbol{X}}_{2}\right)^{-1} \widehat{\boldsymbol{X}}_{2}^{\prime} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{Y}=-\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\right)^{-1} \boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{Y} \]

它遵循

\[ W^{0}=\frac{\boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\right)^{-1} \boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{Y}}{\widehat{\sigma}^{2}} . \]

我们的目标是证明\(T=W^{0}\)。定义 \(\widetilde{\boldsymbol{X}}_{2}=\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\)\(\widehat{\beta}_{2}=\left(\widetilde{\boldsymbol{X}}_{2}^{\prime} \widetilde{\boldsymbol{X}}_{2}\right)^{-1} \widetilde{\boldsymbol{X}}_{2}^{\prime} \boldsymbol{Y}\)。然后使用 \(\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right)\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right)=\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right)\) 并定义 \(\boldsymbol{Q}=\widetilde{\boldsymbol{X}}_{2}\left(\widetilde{\boldsymbol{X}}_{2}^{\prime} \tilde{\boldsymbol{X}}_{2}\right)^{-1} \widetilde{\boldsymbol{X}}_{2}^{\prime}\) 我们发现

\[ \begin{aligned} &\boldsymbol{\Delta} \stackrel{\text { def }}{=}\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)\left(\widetilde{\beta}_{2}-\widehat{\beta}_{2}\right) \\ &=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{Y}-\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)\left(\widetilde{\boldsymbol{X}}_{2}^{\prime} \widetilde{\boldsymbol{X}}_{2}\right)^{-1} \widetilde{\boldsymbol{X}}_{2}^{\prime} \boldsymbol{Y} \\ &=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right)\left(\boldsymbol{I}_{n}-\boldsymbol{Q}\right) \boldsymbol{Y} \\ &=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}-\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Q}\right) \boldsymbol{Y} \\ &=\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}}\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}-\boldsymbol{Q}\right) \boldsymbol{Y} \\ &=\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{Y} . \end{aligned} \]

倒数第三个等式是 \(\boldsymbol{P}_{1} \boldsymbol{Q}=0\),最后一个等式使用 \(\boldsymbol{M}_{\boldsymbol{X}}=\boldsymbol{I}_{n}-\boldsymbol{P}_{1}-\boldsymbol{Q}\)。我们还计算出

\[ \begin{aligned} &\boldsymbol{Q}^{*} \stackrel{\text { def }}{=}\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)\left(\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right)^{-1}-\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{M}_{1} \boldsymbol{X}_{2}\right)^{-1}\right)\left(\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{X}_{2}\right) \\ &=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}-\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right) \boldsymbol{Q}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}\right)\right) \boldsymbol{X}_{2} \\ &=\boldsymbol{X}_{2}^{\prime}\left(\boldsymbol{P}_{\boldsymbol{Z}}-\boldsymbol{P}_{1}-\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{Q} \boldsymbol{P}_{\boldsymbol{Z}}\right) \boldsymbol{X}_{2} \\ &=\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2} . \end{aligned} \]

因此

\[ \begin{aligned} T &=\frac{\boldsymbol{\Delta}^{\prime} \boldsymbol{Q}^{*-1} \boldsymbol{\Delta}}{\widehat{\sigma}^{2}} \\ &=\frac{\boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\left(\boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}_{2}\right)^{-1} \boldsymbol{X}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{M}_{\boldsymbol{X}} \boldsymbol{Y}}{\widehat{\sigma}^{2}} \\ &=W^{0} \end{aligned} \]

正如所声称的那样。

12.30 子集内生性检验

在某些情况下,我们可能只想测试变量子集的内生性。在卡片邻近性示例中,我们可能希望将教育的外生性与经验及其平方分开来测试。要执行子集内生性检验,将回归量分为三组很有用,以便结构模型

\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+X_{3}^{\prime} \beta_{3}+e \\ \mathbb{E}[Z e] &=0 . \end{aligned} \]

和之前一样,工具向量 \(Z\) 包含 \(X_{1}\)。向量 \(X_{3}\) 被视为内生向量,\(X_{2}\) 被视为潜在内生向量。要测试的假设是 \(X_{2}\) 是外生的,或者 \(\mathbb{H}_{0}: \mathbb{E}\left[X_{2} e\right]=0\) 相对于 \(\mathbb{H}_{1}: \mathbb{E}\left[X_{2} e\right] \neq 0\)

在同方差下,可以通过 Durbin-Wu-Hausman 原理构建直接检验。在 \(\mathbb{M}_{0}\) 下,适当的估计器是使用工具 \(\left(Z, X_{2}\right)\)\(2 \mathrm{SLS}\)。让 \(\beta_{2}\) 的估计器表示为 \(\widehat{\beta}_{2}\)。在 \(\mathbb{H}_{1}\) 下,适当的估计器是使用较小工具集 \(Z\) 的 2SLS。让 \(\beta_{2}\) 的估计器表示为 \(\widetilde{\beta}_{2}\)\(\mathbb{M}_{0}\) 相对于 \(\mathbb{M}_{0}\) 的 Durbin-Wu-Hausman 统计量为

\[ T=\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right) . \]

\(\mathbb{H}_{0}\) 下的渐近分布是 \(\chi_{k_{2}}^{2}\),其中 \(k_{2}=\operatorname{dim}\left(X_{2}\right)\),因此我们拒绝这样的假设:如果 \(T\) 超过 \(\chi_{k_{2}}^{2}\) 分布的上临界值,则变量 \(X_{2}\) 是外生的。

除了使用 Wald 统计量之外,还可以使用 \(F\) 版本的检验,除以 \(k_{2}\) 并使用 \(F\) 分布来获取临界值。然而,这种修改没有有限样本的理由,因为 \(X_{3}\) 在零假设下是内生的。

在 Stata 中,在没有稳健协方差选项的 ivregress 后,命令 estat endogenous(添加变量名称以指定要测试外生性的变量)会将此统计数据的 \(F\) 版本报告为“Wu-Hausman F”。例如,在使用公共、私人、年龄和 \(a g e^{2}\) 四种工具的卡片邻近度示例中,如果我们使用非鲁棒协方差矩阵通过 2SLS 估计方程,然后计算教育的内生性检验,我们会发现 \(F=272\) p 值为 \(0.0000\),但如果我们计算经验检验及其平方,我们会发现 \(F=2.98\) 的 p 值为 \(0.051\)。在该模型中,教育方面拒绝具有同质系数的外生性假设,但经验结果尚不清楚。

由于协方差矩阵不采用简单的形式,因此无法通过 Durbin-Wu-Hausman 方法轻松构建异方差性或聚类鲁棒性检验。为了允许非同方差误差,建议使用 GMM 估计。参见第 13.24 节。

12.31 过度识别测试

\(\ell>k\) 时,模型被过度识别,这意味着力矩多于自由参数。这是一个限制并且是可测试的。此类测试称为过度识别测试。

工具变量模型指定\(\mathbb{E}[Z e]=0\)。等价地,由于 \(e=Y-X^{\prime} \beta\) 这是

\[ \mathbb{E}[Z Y]-\mathbb{E}\left[Z X^{\prime}\right] \beta=0 . \]

这是对矩矩阵 \(\mathbb{E}[Z Y]\)\(\mathbb{E}\left[Z X^{\prime}\right]\) 进行限制的 \(\ell \times 1\) 向量。然而,由于 \(\beta\) 的维度 \(k\) 小于 \(\ell\),因此不确定这样的 \(\beta\) 是否确实存在。

为了让事情更具体一些,假设有一个内生回归器 \(X_{2}\),没有 \(X_{1}\),以及两个工具 \(Z_{1}\)\(Z_{2}\)。然后模型指定

\[ \mathbb{E}\left(\left[Z_{1} Y\right]=\mathbb{E}\left[Z_{1} X_{2}\right] \beta\right. \]

\[ \mathbb{E}\left[Z_{2} Y\right]=\mathbb{E}\left[Z_{2} X_{2}\right] \beta . \]

因此 \(\beta\) 求解两个方程。这是比较特别的。

另一种思考方式是我们可以使用一个方程或另一个方程求解 \(\beta\)。就估计而言,这相当于仅使用工具 \(Z_{1}\) 或仅使用工具 \(Z_{2}\) 通过 IV 进行估计。这两个估计量(在有限样本中)是不同的。如果过度识别假设正确,则两者都估计相同的参数,并且对于 \(\beta\) 来说两者都是一致的。相反,如果过度识别假设为假,则两个估计量将收敛到不同的概率极限,并且不清楚任一概率极限是否有趣。

例如,以表 \(12.1\) 第四列中的 2SLS 估计为例,该估计使用公共和私人作为教育工具。假设我们只使用 public 作为工具通过 IV 进行估计,然后使用 private 重复。第一种情况下教育的 IV 系数为 \(0.16\),第二种情况下为 0.27。这些似乎完全不同。然而,第二个估计值具有较大的标准误差 (0.16),因此差异可能是抽样变异。过度识别测试解决了这个问题。

对于一般的过度识别测试,原假设和替代假设是 \(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\)\(\mathbb{H}_{1}: \mathbb{E}[Z e] \neq 0\)。我们还将添加条件同方差假设

\[ \mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2} . \]

为了避免 (12.65),最好采用 GMM 方法,我们将其推迟到第 \(13 .\)

要实施 \(\mathbb{M}_{0}\) 测试,请考虑在仪器 \(Z\) 上对误差 \(e\) 进行线性回归

\[ e=Z^{\prime} \alpha+v \]

\(\alpha=\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1} \mathbb{E}[Z e]\)。我们可以将 \(\mathbb{H}_{0}\) 重写为 \(\alpha=0\)。虽然没有观察到 \(e\),我们可以用 2SLS 残差 \(\widehat{e}_{i}\) 替换它,并通过最小二乘回归估计 \(\alpha\),例如\(\widehat{\alpha}=\left(Z^{\prime} \boldsymbol{Z}\right)^{-1} Z^{\prime} \widehat{\boldsymbol{e}}\)。 Sargan (1958) 提出通过分数测试来测试 \(\mathbb{M}_{0}\),这等于

\[ S=\widehat{\alpha}^{\prime}(\widehat{\operatorname{var}}[\widehat{\alpha}])^{-} \widehat{\alpha}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} . \]

其中 \(\widehat{\sigma}^{2}=\frac{1}{n} \widehat{\boldsymbol{e}} \widehat{\boldsymbol{e}}\). Basmann (1960) 独立提出了 \(\mathbb{H}_{0}\) 的 Wald 统计量,即 \(S\),其中 \(\widehat{\sigma}^{2}\) 替换为 \(\widetilde{\sigma}^{2}=n^{-1} \widehat{\boldsymbol{v}} ' \widehat{\boldsymbol{v}}\),其中 \(\widehat{\boldsymbol{v}}=\widehat{\boldsymbol{e}}-\boldsymbol{Z} \widehat{\alpha}\)。根据同方差得分和 Wald 检验的等价性(参见第 9.16 节),Basmann 统计量是 Sargan 统计量的单调函数,因此它们产生等效检验。萨根的版本被更广泛地报道。

如果 \(S>c\) 达到某个临界值 \(c\),则 Sargan 测试会拒绝 \(\mathbb{H}_{0}\),而支持 \(\mathbb{M}_{1}\)。渐近检验将 \(c\) 设置为 \(\chi_{\ell-k}^{2}\) 分布的 \(1-\alpha\) 分位数。我们现在推导的 \(S\) 的渐近零分布证明了这一点。

定理 12.16 假设 \(12.2\)\(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\),则为 \(n \rightarrow \infty\)\(S \underset{d}{\longrightarrow} \chi_{\ell-k}^{2}\)。对于 \(c\) 满足 \(\alpha=1-G_{\ell-k}(c), \mathbb{P}\left[S>c \mid \mathbb{H}_{0}\right] \rightarrow \alpha\),因此测试“拒绝”

\(\mathbb{M}_{0}\) if \(S>c\) ” 具有渐近大小 \(\alpha\)

我们证明下面的定理 \(12.16\)

Sargan 统计量 \(S\) 是在条件同方差假设下对过度识别限制的渐近检验。它有一些限制。首先,它是渐近检验,并且没有有限样本(例如 F)对应项。模拟证据表明,在小样本和中等样本中,测试可能会过大(过于频繁地拒绝)。因此,应谨慎解释 p 值。其次,条件同方差的假设在应用中是不现实的。推广 Sargan 统计量以允许异方差性的最佳方法是使用 GMM 过度识别统计量 - 我们将在第 13 章中对其进行研究。对于 2SLS,Wooldrige (1995) 建议采用稳健的分数检验,但 Baum、Schaffer 和 Stillman (2003) 则指出发现它在数值上等价于 GMM 过度识别统计量。因此,底线似乎是为了允许异方差或聚类,最好使用 GMM 方法。

在过度识别的应用程序中,报告过度识别测试始终是谨慎的做法。如果检验不显着,则意味着过度识别限制未被拒绝,支持估计模型。如果过度识别检验统计量非常显着(如果 p 值非常小),则表明过度识别限制被违反。在这种情况下,我们应该担心模型指定错误,并且应该谨慎解释参数估计。

在报告过度识别测试的结果时,关注非常小的显着性水平(例如 \(1 %\))似乎是合理的。这意味着,如果 Sargan p 值非常小,例如,我们应该仅将模型视为“拒绝”。小于 \(0.01\)。之所以关注非常小的显着性水平,是因为很难解释“模型被拒绝”的结果。退一步来说,任何过度识别的模型实际上都是真实的,这似乎并不可信。相反,似乎潜在可信的是,过度识别的模型是合理的近似值。当我们真正想知道“是否有证据表明该模型是一个糟糕的近似值”的答案时,测试会问“是否有证据表明该模型不正确”。因此,需要强有力的证据来得出“让我们拒绝这个模型”的结论似乎是合理的。建议将轻度拒绝(\(\mathrm{p}\)-值在 \(1 %\) 和 5% 之间)视为轻度令人担忧,但不是反对模型的关键证据。在做出强有力的决定之前,过度识别测试的结果应与其他信息相结合。

我们用卡学院邻近示例来说明这些方法。我们在表 12.1 的第 4 和第 5 列中通过 2SLS 估计了两个过度识别的模型。在每种情况下,过度识别限制的数量都是 1 。我们在表中报告 Sargan 统计量及其渐近 \(p\) 值(使用 \(\chi_{1}^{2}\) 分布计算)。两个 p 值(0.37 和 \(0.47)\) 都不显着,表明没有证据表明模型指定错误。

现在我们证明定理12.16。统计量 \(S\) 对于 \(\boldsymbol{Z}\) 的旋转是不变的(用 \(\boldsymbol{Z} \boldsymbol{C}\) 替换 \(\boldsymbol{Z}\) ),因此不失一般性,我们假设 \(\mathbb{E}\left[Z Z^{\prime}\right]=\boldsymbol{I}_{\ell}\) 。作为 \(n \rightarrow \infty, n^{-1 / 2} \boldsymbol{Z}^{\prime} \boldsymbol{e} \underset{d}{\rightarrow} Z\) 其中 \(Z \sim \mathrm{N}\left(0, \boldsymbol{I}_{\ell}\right)\)。比如说,还有 \(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \underset{p}{\longrightarrow} \boldsymbol{I}_{\ell}\)\(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X} \underset{p}{\longrightarrow} \boldsymbol{Q}\)。然后

\[ \begin{aligned} n^{-1 / 2} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}} &=\left(\boldsymbol{I}_{\ell}-\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\right) n^{-1 / 2} \boldsymbol{Z}^{\prime} \boldsymbol{e} \\ & \underset{d}{\rightarrow} \sigma\left(\boldsymbol{I}_{\ell}-\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime}\right) Z \end{aligned} \]

由于 \(\widehat{\sigma}^{2} \underset{p}{\rightarrow} \sigma^{2}\) ,因此

\[ S \underset{d}{\rightarrow} Z^{\prime}\left(\boldsymbol{I}_{\ell}-\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime}\right) \mathrm{Z} \sim \chi_{\ell-k}^{2} . \]

分布为 \(\chi_{\ell-k}^{2}\),因为 \(\boldsymbol{I}_{\ell}-\boldsymbol{Q}\left(\boldsymbol{Q}^{\prime} \boldsymbol{Q}\right)^{-1} \boldsymbol{Q}^{\prime}\) 具有幂等性,等级为 \(\ell-k\)

如果指定了标准(非鲁棒)协方差矩阵(即,没有 ‘, r’ 选项),则可以在 Stata 中使用命令 estat overid 在 ivregress 2sls 或 ivregres liml 后实现 Sargan 统计检验,否则通过命令estat overid,forcenonrobust。

12.32 子集过度识别测试

\(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\) 的测试通常被解释为模型规范的测试。另一种方法 \(\mathbb{H}_{1}\) : \(\mathbb{E}[Z e] \neq 0\) 意味着 \(Z\) 中的至少一个元素与错误 \(e\) 相关,因此是无效的工具变量。在某些情况下,仅测试瞬间条件的子集可能是合理的。

与上一节一样,我们将注意力限制在同方差情况 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 上。

分区 \(Z=\left(Z_{a}, Z_{b}\right)\) 分别具有维度 \(\ell_{a}\)\(\ell_{b}\),其中 \(Z_{a}\) 包含被认为与 \(e\) 不相关的工具,\(Z_{b}\) 包含可能与 \(e\) 相关的工具。必须选择此分区,以便 \(\ell_{a}>k\) 或等效的 \(\ell_{b}<\ell-k\)。这意味着仅包含工具 \(Z=\left(Z_{a}, Z_{b}\right)\) 的模型被过度识别,或者 \(Z=\left(Z_{a}, Z_{b}\right)\) 小于过度识别限制的数量。 (如果 \(Z=\left(Z_{a}, Z_{b}\right)\) 则存在此处描述的测试,但简化为 Sargan 测试,因此并不有趣。)因此,测试要求 \(Z=\left(Z_{a}, Z_{b}\right)\),即过度识别限制的数量超过 1。

给定这个分区,维持的假设是 \(\mathbb{E}\left[Z_{a} e\right]=0\)。原假设和备择假设是 \(\mathbb{H}_{0}: \mathbb{E}\left[Z_{b} e\right]=0\)\(\mathbb{H}_{1}: \mathbb{E}\left[Z_{b} e\right] \neq 0\)。也就是说,零假设是整套矩条件有效,而备择假设是工具子集 \(Z_{b}\)\(e\) 相关,因此是无效工具。然后,拒绝 \(\mathbb{H}_{0}\) 而支持 \(\mathbb{M}_{1}\) 会被解释为 \(Z_{b}\) 被错误指定为工具的证据。

基于与上一节中描述的相同推理,为了测试 \(\mathbb{H}_{0}\)\(\mathbb{H}_{1}\),我们考虑回归的分区版本 (12.66)

\[ e=Z_{a}^{\prime} \alpha_{a}+Z_{b}^{\prime} \alpha_{b}+v \]

但现在关注系数 \(\alpha_{b}\)。给定 \(\mathbb{E}\left[Z_{a} e\right]=0, \mathbb{H}_{0}\) 等价于 \(\alpha_{b}=0\)。该方程通过最小二乘法估计,用 2 SLS 残差 \(\widehat{e}_{i}\) 替换未观察到的 \(e_{i}\)\(\alpha_{b}\) 的估计是

\[ \widehat{\alpha}_{b}=\left(\boldsymbol{Z}_{b}^{\prime} \boldsymbol{M}_{a} \boldsymbol{Z}_{b}\right)^{-1} \boldsymbol{Z}_{b}^{\prime} \boldsymbol{M}_{a} \widehat{\boldsymbol{e}} \]

其中 \(\boldsymbol{M}_{a}=\boldsymbol{I}_{n}-\boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime}\). Newey (1985) 表明,\(\mathbb{M}_{0}\) 相对于 \(\mathbb{M}_{1}\) 的最佳(渐近最强大)检验是拒绝较大的分数统计值

\[ N=\widehat{\alpha}_{b}^{\prime}\left(\widehat{\operatorname{var}}\left[\widehat{\alpha}_{b}\right]\right)^{-} \widehat{\alpha}_{b}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}-\boldsymbol{R}^{\prime} \widehat{\boldsymbol{X}}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]

其中 \(\widehat{\boldsymbol{X}}=\boldsymbol{P} \boldsymbol{X}, \boldsymbol{P}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}, \boldsymbol{R}=\boldsymbol{M}_{a} \boldsymbol{Z}_{b}\)\(\widehat{\sigma}^{2}=\frac{1}{n} \widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}\)

独立于 Newey (1985),Eichenbaum、L. Hansen 和 Singleton (1988) 提出了一种基于 Sargan 统计差异的检验。令 \(S\) 为基于完整工具集的 Sargan 检验统计量 (12.67),\(S_{a}\) 为基于工具集 \(Z_{a}\) 的 Sargan 统计量。 Sargan 差异统计量为 \(C=S-S_{a}\)。具体来说,令 \(\widetilde{\beta}_{2 \text { sls }}\) 为仅使用工具 \(Z_{a}\) 的 2SLS 估计器,设置 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}_{2 s l s}\) 并设置 \(\widetilde{\sigma}^{2}=\frac{1}{n} \widetilde{\boldsymbol{e}}^{\prime} \widetilde{\boldsymbol{e}}\)。然后

\[ S_{a}=\frac{\widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime} \widetilde{\boldsymbol{e}}}{\widetilde{\sigma}^{2}} \]

\(C\) 统计量的一个优点是从标准回归输出计算起来非常简单。

此时,反思我们声明的 \(\ell_{a}>k\) 要求是有用的。事实上,如果 \(\ell_{a}<k\)\(Z_{a}\) 不符合识别顺序条件,并且 \(\widetilde{\beta}_{2 \text { sls }}\) 无法计算。因此,\(\ell_{a} \geq k\) 是计算 \(S_{a}\) 以及 \(S\) 所必需的。此外,如果 \(\ell_{a}=k\) 则刚刚识别出模型 \(a\),因此虽然可以计算 \(\ell_{a}>k\),但可以计算 \(\ell_{a}>k\) 的统计数据,因此可以计算 \(\ell_{a}>k\)。因此,当 \(\ell_{a}>k\) 时,子集测试等于完整的过度识别测试,因此考虑子集测试不会带来任何好处。

\(C\) 统计量 \(S_{a}\) 渐近相当于用 \(\widehat{\sigma}^{2}\) 替换 \(S_{a}\) 中的 \(\widetilde{\sigma}^{2}\),得到统计量

\[ C^{*}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}}-\frac{\widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime} \widetilde{\boldsymbol{e}}}{\widehat{\sigma}^{2}} . \]

事实证明,这是纽维的统计量\(N\)。这些检验具有卡方渐近分布。

\(c\)满足\(\alpha=1-G_{\ell_{b}}(c)\)

定理 12.17 代数上,\(N=C^{*}\)。假设 \(12.2\)\(\mathbb{E}\left[e^{2} \mid Z\right]=\) \(\sigma^{2}\)\(n \rightarrow \infty, N \underset{d}{\longrightarrow} \chi_{\ell_{b}}^{2}\)\(C \underset{d}{\longrightarrow} \chi_{\ell_{b}}^{2}\)。因此测试“Reject \(\mathbb{H}_{0}\) if \(N>c\)”和

“如果 \(C>c\) 则拒绝 \(\mathbb{H}_{0}\)”是渐近等价的并且具有渐近大小 \(\alpha\)

定理 \(12.17\) 表明 \(N\)\(C^{*}\) 相同,并且几乎等于方便的统计量 C。适当的渐近分布是 \(\chi_{\ell_{b}}^{2}\)。在计算上,实现子集过度识别测试的最简单方法是通过 2SLS 两次估计模型,第一次使用完整工具集 \(Z\),第二次使用部分工具集 \(Z_{a}\)。计算 2SLS 回归的 Sargan 统计数据,并计算 \(C\) 作为 Sargan 统计数据的差异。例如,在 Stata 中,只需几行代码即可轻松实现。

我们使用卡学院邻近示例进行说明。我们报告的 2SLS 估计值有 \(\ell-k=1\),因此子集过度识别测试没有作用。 (回想一下,过度识别限制的数量必须超过 1 个。)为了说明这一点,我们在表 \(12.1\) 第 5 列的估计中添加了额外的工具(2SLS 估计使用公共、私人、年龄和年龄 \({ }^{2}\) 作为教育工具、经验和经验\(\left.{ }^{2} / 100\right)\)。我们添加了两个工具:工人父亲和母亲的受教育年限。这些变量在早期的劳动经济学文献中已被用作工具,但卡德没有。(他使用了它们)使用父母教育作为工具的动机是假设父母教育影响孩子的受教育程度,但不直接影响他们的能力。更现代的劳动经济学文献对此观点提出了质疑,认为孩子是受教育的部分是在家里,因此父母的教育对孩子的技能获得有直接影响(而不仅仅是通过教育程度产生间接影响)。旧的观点认为父母的教育是有效的工具,现代的观点则认为它是无效的。我们可以使用过度识别子集测试来测试此争议。

为此,我们使用公共、私人、年龄、年龄 \(^{2}\)、父亲和 \(^{2}\) 母亲作为教育、经验和经验 \(\left.{ }^{2} / 100\right)\) 的工具,通过 2SLS 估计工资方程。我们在这里不报告参数估计,但观察到该模型存在 3 个过度识别限制。我们计算萨根过度识别统计数据。它是 \(7.9\),渐近 p 值(使用 \(\chi_{3}^{2}\) 计算)为 \(0.048\)。这是对正确规范的零假设的温和拒绝。正如我们在上一节中所讨论的,这本身并不是拒绝该模型的理由。现在我们考虑子集过度识别测试。我们感兴趣的是测试“father”和“mother”这两个工具的有效性,而不是测试“public”、“private”、“age”、“\(a g e^{2}\)”工具的有效性。为了检验这两种工具与结构误差不相关的假设,我们计算 Sargan 统计量 \(C=7.9-0.5=7.4\) 中的差异,该统计量的 p 值为 \(^{2}\)(使用 \(\chi_{2}^{2}\) 计算)。这在统计上具有边际显着性,这意味着有证据表明父亲和母亲不是工资方程的有效工具。由于 \(^{2}\) 值不小于 \(^{2}\),这不是压倒性的证据,但它仍然支持卡德不使用父母教育作为工资方程工具的决定。现在我们证明定理 12.17 中的结果。

我们首先证明\(N=C^{*}\)。定义 \(\boldsymbol{P}_{a}=\boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime}\)\(\boldsymbol{P}_{\boldsymbol{R}}=\boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime}\)。由于 \(\left[\boldsymbol{Z}_{a}, \boldsymbol{R}\right]\) 跨越 \(\boldsymbol{Z}\),我们找到 \(\boldsymbol{P}=\boldsymbol{P}_{\boldsymbol{R}}+\boldsymbol{P}_{a}\)\(\boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{P}_{a}=0\)。注意到这一点会很有用

\[ \begin{aligned} \boldsymbol{P}_{R} \widehat{\boldsymbol{X}} &=\boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{P} \boldsymbol{X}=\boldsymbol{P}_{\boldsymbol{R}} \boldsymbol{X} \\ \widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}-\widehat{\boldsymbol{X}}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{X}} &=\boldsymbol{X}^{\prime}\left(\boldsymbol{P}-\boldsymbol{P}_{\boldsymbol{R}}\right) \boldsymbol{X}=\boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \boldsymbol{X} \end{aligned} \]

事实上 \(\boldsymbol{X}^{\prime} \boldsymbol{P} \widehat{\boldsymbol{e}}=\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{e}}=0\) 意味着 \(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{e}}=-\boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \widehat{\boldsymbol{e}}\)。最后,从 \(\boldsymbol{Y}=\boldsymbol{X} \widehat{\boldsymbol{\beta}}+\widehat{\boldsymbol{e}}\) 开始,

\[ \widetilde{\boldsymbol{e}}=\left(\boldsymbol{I}_{n}-\boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{P}_{a}\right) \widehat{\boldsymbol{e}} \]

所以

\[ \widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{a} \widetilde{\boldsymbol{e}}=\widehat{\boldsymbol{e}}^{\prime}\left(\boldsymbol{P}_{a}-\boldsymbol{P}_{a} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{P}_{a}\right) \widehat{\boldsymbol{e}} . \]

将 Woodbury 矩阵等式应用于 \(N\) 的定义和上述代数关系,

\[ \begin{aligned} N &=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{e}}+\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{X}}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}-\widehat{\boldsymbol{X}}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{P}_{\boldsymbol{R}} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \\ &=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P} \widehat{\boldsymbol{e}}-\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{a} \widehat{\boldsymbol{e}}+\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{a} \boldsymbol{X}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{P}_{a} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \\ &=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{P} \widehat{\boldsymbol{e}}-\widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{P}_{a} \widetilde{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \\ &=C^{*} \end{aligned} \]

正如所声称的那样。

接下来我们建立渐近分布。由于\(\boldsymbol{Z}_{a}\)\(\boldsymbol{Z}, \boldsymbol{P}_{a}=\boldsymbol{M}_{a} \boldsymbol{P}\)的子集,因此\(\boldsymbol{P} \boldsymbol{R}=\boldsymbol{R}\)\(\boldsymbol{R}^{\prime} \boldsymbol{X}=\boldsymbol{R}^{\prime} \widehat{\boldsymbol{X}}\)。最后

\[ \begin{aligned} \frac{1}{\sqrt{n}} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{e}} &=\frac{1}{\sqrt{n}} \boldsymbol{R}^{\prime}(\boldsymbol{Y}-\boldsymbol{X} \widehat{\boldsymbol{\beta}}) \\ &=\frac{1}{\sqrt{n}} \boldsymbol{R}^{\prime}\left(\boldsymbol{I}_{n}-\boldsymbol{X}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime}\right) \boldsymbol{e} \\ &=\frac{1}{\sqrt{n}} \boldsymbol{R}^{\prime}\left(\boldsymbol{I}_{n}-\widehat{\boldsymbol{X}}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime}\right) \boldsymbol{e} \\ & \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{2}\right) \end{aligned} \]

在哪里

\[ \boldsymbol{V}_{2}=\operatorname{plim}_{n \rightarrow \infty}\left(\frac{1}{n} \boldsymbol{R}^{\prime} \boldsymbol{R}-\frac{1}{n} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{X}}\left(\frac{1}{n} \widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \frac{1}{n} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{R}\right) . \]

由此可知 \(N=C^{*} \underset{d}{\longrightarrow} \chi_{\ell_{b}}^{2}\) 正如所声称的那样。由于 \(C=C^{*}+o_{p}(1)\) 它具有相同的极限分布。

12.33 Bootstrap 过度识别测试

在小到中等样本量中,渐近卡方分布不能很好地近似过度识别检验。为了提高准确性,建议使用引导临界值。 2SLS 的引导程序(第 12.23 节)可用于此目的,但必须调整过度识别统计的引导程序版本。这是因为在引导宇宙中,过度识别的矩条件不满足。一种解决方案是将时刻条件居中。对于 2SLS 估计器,标准过度识别测试基于 Sargan 统计量

\[ \begin{aligned} &S=n \frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}} \\ &\widehat{\boldsymbol{e}}=\boldsymbol{Y}-\boldsymbol{X} \widehat{\beta}_{2 s l s} \end{aligned} \]

居中引导程序模拟是

\[ \begin{aligned} S^{* *} &=n \frac{\left(\widehat{\boldsymbol{e}}^{* \prime} \boldsymbol{Z}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right)\left(\boldsymbol{Z}^{* \prime} \boldsymbol{Z}^{*}\right)^{-1}\left(\boldsymbol{Z}^{* \prime} \widehat{\boldsymbol{e}}^{*}-\boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}\right)}{\widehat{\boldsymbol{e}}^{*} \widehat{\boldsymbol{e}}^{*}} \\ \widehat{\boldsymbol{e}}^{*} &=\boldsymbol{Y}^{*}-\boldsymbol{X}^{*} \widehat{\beta}_{2 \mathrm{sls}}^{*} \end{aligned} \]

在每个引导样本上计算并存储 \(S^{* *}(b)\)。自举 p 值为

\[ p^{*}=\frac{1}{B} \sum_{b=1}^{B} \mathbb{1}\left\{S^{* *}(b)>S\right\} . \]

此引导 \(\mathrm{p}\) 值有效,因为统计量 \(S^{* *}\) 满足过度识别的矩条件。

12.34 当地平均治疗效果

在两篇有影响力的论文中,Imbens 和 Angrist (1994) 以及 Angrist、Imbens 和 Rubin (1996) 使用第 2.30 节中介绍的潜在结果模型提出了工具变量估计量的新解释。

我们将限制注意力集中于内生回归量 \(X\) 和排除工具 \(Z\) 是二元变量的情况。我们将模型编写为一对潜在结果函数。因变量 \(Y\) 是回归量和不可观测向量 \(U, Y=h(X, U)\) 的函数,内生回归量 \(X\) 是工具 \(Z\)\(U, X=g(Z, U)\) 的函数。通过将 \(U\) 指定为向量,让两个方程都依赖于 \(U\) 并不会失去通用性。

在此框架中,结果由随机向量 \(U\) 和外生工具 \(Z\) 决定。这决定了\(X\),而\(X\)又决定了\(Y\)。为了将其放在大学邻近示例的背景下,变量 \(U\) 是关于个人的所有具体信息。鉴于与大学的距离 \(Z\),此人决定是否上大学。该人的工资由个人属性 \(U\) 以及大学入学率 \(X\) 决定,但不受大学邻近度 \(Z\) 的直接影响。

我们可以从符号中省略随机变量 \(U\) ,如下所示。一个人有一个实现 \(U\)。然后我们设置 \(Y(x)=h(x, U)\)\(X(z)=g(z, U)\)。另外,给定一个实现 \(Z\),可观察量是 \(X=X(Z)\)\(Y=Y(X)\)

在此模型中,大学对个人的因果效应为 \(C=Y(1)-Y(0)\)。正如 \(2.30\) 节中所讨论的,这是个体特定的和随机的。

我们想了解因果效应的分布,或者至少是分布的特征。令人感兴趣的一个共同特征是平均治疗效果 (ATE)

\[ \operatorname{ATE}=\mathbb{E}[C]=\mathbb{E}[Y(1)-Y(0)] . \]

然而,如果没有强有力的假设(例如因果效应 \(C\) 在个体之间是恒定的),通常不可能估计内生 \(X\)。治疗效果文献探讨了可以估计 \(C\) 分布的哪些特征。 Imbens 和 Angrist (1994) 强调的一个特别令人感兴趣的特征是局部平均治疗效果 (LATE)。粗略地说,这是受工具变量影响的平均效应。要理解 LATE,请考虑大学邻近的例子。在潜在结果框架中,每个人都完全由其个人不可观察的 \(U\) 表征。给定 \(U\),他们上大学的决定是邻近指标 \(Z\) 的函数。对于一些学生来说,距离远近对他们的决定没有影响。对于其他学生来说,它在特定意义上有影响,即给定 \(Z=1\),他们选择上大学,而如果给定 \(Z=0\),他们选择不上大学。我们可以用下面的图表总结可能性,该图表基于 Angrist、Imbens 和 Rubin (1996) 开发的标签。

\[ \begin{array}{ccc} & X(0)=0 & X(0)=1 \\ X(1)=0 & \text { Never Takers } & \text { Defiers } \\ X(1)=1 & \text { Compliers } & \text { Always Takers } \end{array} \]

这些列表示给定 \(Z=0\)(不接近大学)的大学入学决策。这些行表示给定 \(Z=1\)(接近大学)的大学入学决策。这四个条目是基于这些决定的四类个人的标签。左上角的条目是不上大学的个人,无论 \(Z\) 是多少。他们被称为“永不接受者”。右下角的条目是相反上大学的人,无论 \(Z\) 是多少。他们被称为“永远的接受者”。左下角是那些只有住得很近才上大学的人。他们被称为“Compliers”。右上角的条目有点挑战。这些人只有在住得不近的情况下才会上大学。他们被称为“Dediers”。 Imbens 和 Angrist 发现,为了识别感兴趣的参数,我们需要假设不存在 Dediers,或者等效地假设 \(X(1) \geq X(0)\)。他们称之为“单调性”条件 - 增加工具不会减少任何个人的 \(X\)

再举一个例子,假设我们对病毒大流行期间戴口罩 \(X\) 对健康 \(Y\) 的影响感兴趣。戴口罩是个人的选择,因此应被视为内生的。对于工具 \(Z\),请考虑一项要求在公共场合佩戴口罩的政府政策。 “遵守者”是指在有政策的情况下戴口罩但在其他情况下不戴口罩的人。 “否认者”是那些持相反观点的人。也就是说,这些人可能会根据大流行的证据戴上口罩,但会反抗政府的政策。再次强调,认同要求没有否认者。

我们可以通过\(X(1)-X(0)\)的相对值来区分表中的类型。对于从不接受者和总是接受者 \(X(1)-X(0)=0\),而对于遵守者 \(X(1)-X(0)=1\)

我们感兴趣的是大学对工资的因果效应 \(C=h(1, U)-h(0, U)\)。平均因果效应(ACE)是其期望\(\mathbb{E}[Y(1)-Y(0)]\)。为了估计 ACE,我们需要观察 \(Y(0)\)\(Y\) (1),这意味着我们需要观察一些上大学的人和一些没有上大学的人。考虑一下“永不接受者”群体。他们从未上过大学,所以我们只观察 \(Y(0)\)。因此不可能估计该群体的大学 ACE。同样考虑“永远接受者”群体。他们总是上大学,所以我们只观察 \(Y(1)\),并且我们无法估计该群体的大学 ACE。我们可以估计 ACE 的群体是“Compliers”。该组的 ACE 是

\[ \text { LATE }=\mathbb{E}[Y(1)-Y(0) \mid X(1)>X(0)] . \]

Imbens 和 Angrist 将其称为局部平均治疗效果 (LATE),因为它是内源回归量受仪器影响的子群体的平均治疗效果。检查这个定义,LATE 是当(且仅当)住得接近大学时选择上大学的个人子样本的大学入学率对工资的平均因果效应。

有趣的是,我们在下面展示了

\[ \text { LATE }=\frac{\mathbb{E}[Y \mid Z=1]-\mathbb{E}[Y \mid Z=0]}{\mathbb{E}[X \mid Z=1]-\mathbb{E}[X \mid Z=0]} . \]

也就是说,LATE 等于 IV 回归模型中斜率系数的 Wald 表达式 (12.27)。这意味着标准 IV 估计器是 LATE 的估计器。因此,当治疗效果可能存在异质性时,我们可以将 IV 解释为 LATE 的估计量。等式 (12.68) 在以下条件下出现。

假设 12.3 \(U\)\(Z\) 独立且 \(\mathbb{P}[X(1)-X(0)<0]=0 .\)

LATE 的一个有趣特征是,它的值可能取决于工具 \(Z\) 和人群中因果效应 \(C\) 的分布。为了具体说明这一点,假设我们考虑使用一种基于当地大学就读财务成本的工具,而不是卡邻近工具。可以合理地预期,虽然受这两种工具影响的学生群体相似,但这两组学生不会相同。也就是说,一些学生可能对邻近性有反应,但对财务状况没有反应,反之亦然。如果因果效应 \(C\) 在这两组学生中具有不同的平均值,那么使用这两种工具计算时 LATE 将会不同。因此,LATE 可能因仪器的选择而异。

怎么可能?明确定义的参数如何取决于仪器的选择?这不是与基本的IV回归模型相矛盾吗?答案是基本 IV 回归模型具有限制性 - 它指定因果效应 \(\beta\) 在所有个体中都是常见的。无论选择何种特定工具,其值都是相同的(只要它满足工具变量假设)。相比之下,潜在结果框架更为通用,允许因果效应因人而异。该分析向我们表明,在这种情况下,LATE 系数很可能会因乐器而异。当因果效应不同时就会发生这种情况。

LATE 框架的含义之一是 IV 估计值应被解释为仅对遵守者群体的因果影响。解释应侧重于潜在遵守者的人群,并且应谨慎扩展到其他人群。例如,在卡邻近模型中,表 \(12.1\) 中呈现的对学校教育因果回报的 IV 估计应解释为适用于因所在县内大学的存在而受到激励去上大学的学生群体。这些估计不应应用于其他学生。

正式而言,本节的分析检查了二元工具和内生回归量的情况。这如何概括?假设回归量 \(X\) 是离散的,采用 \(J+1\) 离散值。然后我们可以将模型重写为具有 \(J\) 二元内生回归量的模型。如果我们有 \(J\) 二进制工具,我们就回到了 Imbens-Angrist 框架(假设这些工具对内生回归量具有单调影响)。一个好处是,通过使用更多的工具,人口中的合规者群体可能会扩大。

我们通过在假设 12.3 下显示 (12.68) 来结束本节。 \(X\) 的实现值可以写为

\[ X=(1-Z) X(0)+Z X(1)=X(0)+Z(X(1)-X(0)) \]

相似地

\[ Y=Y(0)+X(Y(1)-Y(0))=Y(0)+X C . \]

结合起来,

\[ Y=Y(0)+X(0) C+Z(X(1)-Y(0)) C . \]

\(u\)\(Z\) 的独立性意味着 \((Y(0), Y(1), X(0), X(1), C)\)\(Z\) 的独立性。因此

\[ \mathbb{E}[Y \mid Z=1]=\mathbb{E}[Y(0)]+\mathbb{E}[X(0) C]+\mathbb{E}[(X(1)-X(0)) C] \]

\[ \mathbb{E}[Y \mid Z=0]=\mathbb{E}[Y(0)]+\mathbb{E}[X(0) C] . \]

减去我们得到

\[ \begin{aligned} \mathbb{E}[Y \mid Z=1]-\mathbb{E}[Y \mid Z=0] &=\mathbb{E}[(X(1)-X(0)) C] \\ &=1 \times \mathbb{E}[C \mid X(1)-X(0)=1] \mathbb{P}[X(1)-X(0)=1] \\ &+0 \times \mathbb{E}[C \mid X(1)-X(0)=0] \mathbb{P}[X(1)-X(0)=0] \\ &+(-1) \times \mathbb{E}[C \mid X(1)-X(0)=-1] \mathbb{P}[X(1)-X(0)=-1] \\ &=\mathbb{E}[C \mid X(1)-X(0)=1](\mathbb{E}[X \mid X=1]-\mathbb{E}[X \mid Z=0]) \end{aligned} \]

其中最终的等式使用 \(\mathbb{P}[X(1)-X(0)<0]=0\)

\[ \mathbb{P}[X(1)-X(0)=1]=\mathbb{E}[X(1)-X(0)]=\mathbb{E}[X \mid Z=1]-\mathbb{E}[X \mid Z=0] . \]

重新排列

\[ \mathrm{LATE}=\mathbb{E}[C \mid X(1)-X(0)=1]=\frac{\mathbb{E}[Y \mid Z=1]-\mathbb{E}[Y \mid Z=0]}{\mathbb{E}[X \mid Z=1]-\mathbb{E}[X \mid Z=0]} \]

正如所声称的那样。

12.35 识别失败

回忆一下简化形式的方程

\[ X_{2}=\Gamma_{12}^{\prime} Z_{1}+\Gamma_{22}^{\prime} Z_{2}+u_{2} . \]

如果 \(\Gamma_{22}\) 的秩不足,则无法识别参数 \(\beta\)。推理识别失败的后果是相当严重的。

以最简单的情况为例,其中 \(k_{1}=0\)\(k_{2}=\ell_{2}=1\)。那么模型可以写成

\[ \begin{aligned} &Y=X \beta+e \\ &X=Z \gamma+u \end{aligned} \]

\(\Gamma_{22}=\gamma=\mathbb{E}[Z X] / \mathbb{E}\left[Z^{2}\right]\)。我们看到当且仅当 \(\gamma \neq 0\)\(\beta\) 才被识别,这在 \(\mathbb{E}[X Z] \neq 0\) 时发生。因此,识别取决于排除的外生变量和纳入的内生变量之间是否存在相关性。

假设这个条件不成立。在本例中为 \(\gamma=0\)\(\mathbb{E}[X Z]=0\)。我们现在分析 \(\beta\) 的最小二乘和 IV 估计量的分布。为简单起见,我们假设条件同方差并将 \(e, u\)\(Z\) 的方差标准化为统一。因此

\[ \operatorname{var}\left[\left(\begin{array}{c} e \\ u \end{array}\right) \mid Z\right]=\left(\begin{array}{ll} 1 & \rho \\ \rho & 1 \end{array}\right) . \]

当变量是内生的时,误差具有非零相关性 \(\rho \neq 0\)

通过 CLT 我们有联合收敛

\[ \frac{1}{\sqrt{n}} \sum_{i=1}^{n}\left(\begin{array}{c} Z_{i} e_{i} \\ Z_{i} u_{i} \end{array}\right) \underset{d}{ }\left(\begin{array}{l} \xi_{1} \\ \xi_{2} \end{array}\right) \sim \mathrm{N}\left(0,\left(\begin{array}{cc} 1 & \rho \\ \rho & 1 \end{array}\right)\right) . \]

定义 \(\xi_{0}=\xi_{1}-\rho \xi_{2}\) 是很方便的,它是正常的并且独立于 \(\xi_{2}\)。作为基准,观察 \(\beta\) 的最小二乘估计量满足

\[ \widehat{\beta}_{\mathrm{ols}}-\beta=\frac{n^{-1} \sum_{i=1}^{n} u_{i} e_{i}}{n^{-1} \sum_{i=1}^{n} u_{i}^{2}} \underset{p}{\longrightarrow} \rho \neq 0 \]

因此内生性导致 \(\widehat{\beta}_{\text {ols }}\)\(\beta\) 不一致。

在识别失败 \(\gamma=0\) 下,IV 估计量的渐近分布为

\[ \widehat{\beta}_{\mathrm{iv}}-\beta=\frac{\frac{1}{\sqrt{n}} \sum_{i=1}^{n} Z_{i} e_{i}}{\frac{1}{\sqrt{n}} \sum_{i=1}^{n} Z_{i} X_{i}} \underset{\mathrm{d}}{\xi_{2}}=\rho+\frac{\xi_{0}}{\xi_{2}} . \]

此渐近收敛结果使用了连续映射定理,该定理适用于函数 \(\xi_{1} / \xi_{2}\) 在除 \(\xi_{2}=0\) 以外的任何地方都是连续的,而 \(\xi_{2}=0\) 发生的概率为零。

这种限制分布有几个显着的特征。

首先,\(\widehat{\beta}_{\mathrm{iv}}\) 不会在概率上收敛到极限,而是在分布上收敛到随机变量。因此 IV 估计量是不一致的。事实上,不可能一致地估计未识别的参数,并且当 \(\gamma=0\)\(\beta\) 未被识别。

其次,比率 \(\xi_{0} / \xi_{2}\) 大约为零对称分布,因此 \(\widehat{\beta}_{\text {iv }}\) 的极限分布的中位数是 \(\beta+\rho\)。这意味着 IV 估计量在内生性下存在中值偏差。因此,在识别失败的情况下,IV 估计器不会纠正最小二乘的中心(中值偏差)。

第三,两个独立正态随机变量的比率 \(\xi_{0} / \xi_{2}\) 服从柯西分布。这尤其令人讨厌,因为柯西分布没有有限均值。该分布具有厚尾,这意味着极值出现的频率高于正态值。基于正态分布的推论可能非常不正确。

总之,这些结果表明 \(\gamma=0\) 使 IV 估计量的表现特别糟糕 - 它不一致、中值有偏差且非正态分布。

我们还可以检查 t 统计量的行为。为简单起见,请考虑经典(同方差)t 统计量。误差方差估计具有渐近分布

\[ \begin{aligned} & \widehat{\sigma}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-X_{i} \widehat{\beta}_{\mathrm{iv}}\right)^{2} \\ & =\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}-\frac{2}{n} \sum_{i=1}^{n} e_{i} X_{i}\left(\widehat{\beta}_{\mathrm{iv}}-\beta\right)+\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}\left(\widehat{\beta}_{\mathrm{iv}}-\beta\right)^{2} \\ & \underset{d}{\longrightarrow} 1-2 \rho \frac{\xi_{1}}{\xi_{2}}+\left(\frac{\xi_{1}}{\xi_{2}}\right)^{2} \text {. } \end{aligned} \]

因此 t 统计量具有渐近分布

极限分布是非正态的,这意味着使用正态分布的推理将(相当)不正确。该分布取决于相关性 \(\rho\)\(\rho\) 中的失真度正在增加。事实上,作为 \(\rho \rightarrow 1\),我们有 \(\xi_{1} / \xi_{2} \rightarrow p 1\) 和意外的发现 \(\widehat{\sigma}^{2} \rightarrow{ }_{p} 0\)。后者意味着 \(\widehat{\beta}_{\text {iv }}\) 的传统标准误差 \(s\left(\widehat{\beta}_{\text {iv }}\right)\) 也概率收敛到零。这意味着 t 统计量在 \(|T| \rightarrow p \infty\) 意义上存在分歧。在这种情况下,用户可能会错误地将估计值解释为精确的,尽管它们非常不精确。

12.36 弱仪器

在上一节中,我们研究了完全识别失败的极端后果。当识别能力较弱时,会出现类似的问题,即简化形式系数的幅度较小。在本节中,我们推导当简化形式系数被视为弱时 OLS、2SLS 和 LIML 估计量的渐近分布。我们表明估计量不一致,并且 2SLS 和 LIML 估计量在大样本中保持随机性。

为了简化说明,我们假设不包含外生变量(没有 \(X_{1}\) ),因此我们将 \(X_{2}, Z_{2}\)\(\beta_{2}\) 简单地写为 \(X, Z\)\(\beta\) 。模型是

\[ \begin{aligned} &Y=X^{\prime} \beta+e \\ &X=\Gamma^{\prime} Z+u_{2} . \end{aligned} \]

回想一下简化形式的误差向量 \(u=\left(u_{1}, u_{2}\right)\) 及其协方差矩阵

\[ \mathbb{E}\left[u u^{\prime}\right]=\Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right] . \]

回想一下,结构误差是 \(e=u_{1}-\beta^{\prime} u_{2}=\gamma^{\prime} u\),其中 \(\gamma=(1,-\beta)\) 具有方差 \(\mathbb{E}\left[e^{2} \mid Z\right]=\) \(\gamma^{\prime} \Sigma \gamma\)。还定义协方差 \(\Sigma_{2 e}=\mathbb{E}\left[u_{2} e \mid Z\right]=\Sigma_{21}-\Sigma_{22} \beta\)

\(12.35\) 节中,我们假设 \(\Gamma=0\) 的意义上完全识别失败。我们现在假设识别并没有完全失败,但在 \(\Gamma\) 很小的意义上很弱。通过将 \(\Gamma\) 建模为“局部到零”,开发了丰富的渐近分布理论来理解这种设置。开创性的贡献是 Staiger 和 Stock (1997)。 Stock 和 Wright (2000)将该理论扩展到非线性 GMM 估计。

Staiger和Stock(1997)引入的技术装置是假设简化形式参数是局部到零的,具体来说

\[ \Gamma=n^{-1 / 2} \boldsymbol{C} \]

其中 \(\boldsymbol{C}\) 是自由矩阵。选择 \(n^{-1 / 2}\) 缩放比例是因为它提供了适当的平衡以允许有用的分布理论。局部到零假设 (12.71) 并不意味着从字面上理解,而是意味着一个有用的分布近似。参数\(\boldsymbol{C}\)表示识别程度。 \(\|\boldsymbol{C}\|\) 越大意味着识别能力越强; \(\|\boldsymbol{C}\|\) 越小意味着识别能力越弱。

现在,我们在局部统一假设 (12.71) 下导出最小二乘、2SLS 和 LIML 估计量的渐近分布。

最小二乘估计满足

\[ \begin{aligned} \widehat{\beta}_{\mathrm{ols}}-\beta &=\left(n^{-1} \boldsymbol{X}^{\prime} \boldsymbol{X}\right)^{-1}\left(n^{-1} \boldsymbol{X}^{\prime} \boldsymbol{e}\right) \\ &=\left(n^{-1} \boldsymbol{U}_{2}^{\prime} \boldsymbol{U}_{2}\right)^{-1}\left(n^{-1} \boldsymbol{U}_{2}^{\prime} \boldsymbol{e}\right)+o_{p}(1) \\ & \longrightarrow \underset{22}{-1} \Sigma_{2 e} . \end{aligned} \]

因此,最小二乘估计对于 \(\beta\) 来说是不一致的。

通过中心极限定理检查 2SLS 估计器

\[ \frac{1}{\sqrt{n}} \sum_{i=1}^{n} Z_{i} u_{i}^{\prime} \underset{d}{\longrightarrow} \xi=\left[\xi_{1}, \xi_{2}\right] \]

在哪里

\[ \operatorname{vec}(\xi) \sim \mathrm{N}\left(0, \mathbb{E}\left[u u^{\prime} \otimes Z Z^{\prime}\right]\right) \]

这意味着

\[ \frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e} \longrightarrow \underset{d}{\xi_{e}}=\xi \gamma \]

我们还发现

\[ \frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{X}=\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \boldsymbol{C}+\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{U}_{2} \underset{d}{\longrightarrow} \boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2} . \]

因此

\[ \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}=\left(\frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right) \underset{d}{\longrightarrow}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right) \]

\[ \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{e}=\left(\frac{1}{\sqrt{n}} \boldsymbol{X}^{\prime} \boldsymbol{Z}\right)\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1}\left(\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{e}\right) \underset{d}{\longrightarrow}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1} \xi_{e} \]

我们发现 2SLS 估计量具有渐近分布

\[ \begin{aligned} \widehat{\beta}_{2 \text { sls }}-\beta &=\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{e}\right) \\ & \longrightarrow\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)\right)^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1} \xi_{e} . \end{aligned} \]

在完全识别失败的情况下,我们发现 \(\widehat{\beta}_{2 s l s}\)\(\beta\) 不一致,它是渐近随机的,并且其渐近分布是非正态的。失真度受系数 \(\boldsymbol{C}\) 的影响。由于 \(\|\boldsymbol{C}\| \rightarrow \infty\),(12.72) 中的分布概率收敛到零,表明 \(\widehat{\beta}_{2 \text { sls }}\)\(\beta\) 是一致的。这对应于经典的“强识别”背景。

现在考虑 LIML 估计器。简化形式为 \(\overrightarrow{\boldsymbol{Y}}=\boldsymbol{Z \Pi}+\boldsymbol{U}\)。这意味着 \(\boldsymbol{M}_{Z} \overrightarrow{\boldsymbol{Y}}=\boldsymbol{M}_{Z} \boldsymbol{U}\) 和标准渐近理论

\[ \frac{1}{n} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}}=\frac{1}{n} \boldsymbol{U}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{U} \underset{p}{\longrightarrow}=\mathbb{E}\left[u u^{\prime}\right] . \]

定义 \(\bar{\beta}=\left[\beta, \boldsymbol{I}_{k}\right]\) 以使简化形式系数等于 \(\Pi=[\boldsymbol{\Gamma} \beta, \boldsymbol{\Gamma}]=n^{-1 / 2} \boldsymbol{C} \bar{\beta}\)。然后

\[ \frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \overrightarrow{\boldsymbol{Y}}=\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \boldsymbol{C} \bar{\beta}+\frac{1}{\sqrt{n}} \boldsymbol{Z}^{\prime} \boldsymbol{U} \underset{d}{\longrightarrow} \boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi \]

\[ \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \overrightarrow{\boldsymbol{Y}} \underset{d}{\longrightarrow}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right) . \]

这使我们能够通过连续映射定理来计算

\[ \begin{aligned} n \widehat{\mu} &=\min _{\gamma} \frac{\gamma^{\prime} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \overrightarrow{\boldsymbol{Y}} \gamma}{\gamma^{\prime} \frac{1}{n} \overrightarrow{\boldsymbol{Y}}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \overrightarrow{\boldsymbol{Y}} \gamma} \\ & \underset{d}{\longrightarrow} \min _{\gamma} \frac{\gamma^{\prime}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right) \gamma}{\gamma^{\prime} \Sigma \gamma} \\ &=\mu^{*} \end{aligned} \]

比如说,它是 \(\xi\) 的函数,因此是随机的。我们推导出 LIML 估计量的渐近分布为

\[ \begin{aligned} \widehat{\beta}_{\mathrm{liml}}-\beta=&\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}-n \widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{e}-n \widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{e}\right) \\ \underset{d}{\longrightarrow}\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)-\mu^{*} \Sigma_{22}\right)^{-1}\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1} \xi_{e}-\mu^{*} \Sigma_{2 e}\right) . \end{aligned} \]

与 2SLS 类似,LIML 估计量对于 \(\beta\) 是不一致的,是渐近随机的且非正态分布。

我们总结一下。

定理 12.18 根据 (12.71),

\[ \begin{gathered} \widehat{\beta}_{\mathrm{ols}}-\beta \underset{p}{\longrightarrow} \Sigma_{22}^{-1} \Sigma_{2 e} \\ \widehat{\beta}_{2 \mathrm{sls}}-\beta \underset{d}{\longrightarrow}\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)\right)^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1} \xi_{e} \end{gathered} \]

\[ \begin{aligned} &\widehat{\beta}_{\mathrm{liml}}-\beta \underset{d}{\longrightarrow}\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)-\mu^{*} \Sigma_{22}\right)^{-1} \\ &\times\left(\left(\boldsymbol{Q}_{Z} \boldsymbol{C}+\xi_{2}\right)^{\prime} \boldsymbol{Q}_{Z}^{-1} \xi_{e}-\mu^{*} \boldsymbol{\Sigma}_{2 e}\right) \end{aligned} \]

在哪里

\[ \mu^{*}=\min _{\gamma} \frac{\gamma^{\prime}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right)^{\prime} \boldsymbol{Q}_{Z}^{-1}\left(\boldsymbol{Q}_{Z} \boldsymbol{C} \bar{\beta}+\xi\right) \gamma}{\gamma^{\prime} \Sigma \gamma} \]

\(\bar{\beta}=\left[\beta, I_{k}\right]\)

所有三个估计量都不一致。 2SLS 和 LIML 估计量是渐近随机的非标准分布,类似于上一节探讨的完全识别失败情况下 IV 估计量的渐近分布。弱识别下的差异在于系数矩阵 \(\boldsymbol{C}\) 的存在。

12.37 许多仪器

某些应用程序拥有大量可用的 \(\ell\) 工具。如果它们全部有效,则相对于使用较少数量的工具进行估计,使用较大的数字应该会减少渐近方差。那么使用多种工具是个好习惯吗?或者这种做法有成本吗? Bekker (1994) 通过形式化“多种工具”的概念,发起了大量文献研究这个问题。 Bekker 提出了一种渐近近似,将工具数量 \(\ell\) 视为与样本大小成正比,即 \(\ell=\alpha n\),或等效的 \(\ell / n \rightarrow \alpha \in[0,1)\)。获得的分布理论在许多方面与上一节中概述的弱工具理论相似。因此,“弱”和“多”工具的影响是相似的。

再次为了简单起见,我们假设不包含外生回归变量,因此模型是

\[ \begin{aligned} &Y=X^{\prime} \beta+e \\ &X=\Gamma^{\prime} Z+u_{2} \end{aligned} \]

\(Z \ell \times 1\)。我们还做出简化的假设,即减少的形状误差是有条件同方差的。具体来说,

\[ \mathbb{E}\left[u u^{\prime} \mid Z\right]=\Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right] . \]

此外,我们假设条件四阶矩是有界的

\[ \mathbb{E}\left[\|u\|^{4} \mid Z\right] \leq B<\infty . \]

存在“许多仪器”的想法是通过仪器数量随样本大小成比例增加的假设而形式化的

\[ \frac{\ell}{n} \longrightarrow \alpha . \]

考虑这个问题的最佳方法是将 \(\alpha\) 视为给定样本中 \(\ell\)\(n\) 的比率。因此,如果应用程序具有 \(n=100\) 观测值和 \(\ell=10\) 工具,那么我们应该处理 \(\alpha=0.10\)

假设有一个内生回归量 \(X\)。使用简化形式计算其方差:\(\operatorname{var}[X]=\operatorname{var}\left[Z^{\prime} \Gamma\right]+\operatorname{var}[u]\)。还假设随着 \(\ell\) 的增加,\(\operatorname{var}[X]\)\(\operatorname{var}[u]\) 保持不变。这意味着即使维度 \(\ell\) 增加,\(\operatorname{var}\left[Z^{\prime} \Gamma\right]\) 也保持不变。这是一个有用的假设,因为它意味着简化形式的总体 \(R^{2}\) 不会随 \(\ell\) 变化。我们不需要这个精确的条件,而是简单地假设样本版本概率收敛到固定常数。具体来说,我们假设

\[ \frac{1}{n} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} Z_{i}^{\prime} \Gamma \underset{p}{\longrightarrow} \boldsymbol{H} \]

对于某些矩阵 \(\boldsymbol{H}>0\)。同样,这本质上意味着 \(X\) 的每个分量的简化形式回归的 \(R^{2}\) 收敛于常数。

作为基线,检查 \(\beta\) 的最小二乘估计器的行为很有用。首先,观察 \(\operatorname{vec}\left(n^{-1} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} u_{i}^{\prime}\right)\) 的方差(以 \(Z\) 为条件)为

\[ \Sigma \otimes n^{-2} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} Z_{i}^{\prime} \Gamma \underset{p}{\longrightarrow} 0 \]

由(12.77)。因此它的概率收敛到零:

\[ n^{-1} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} u_{i}^{\prime} \underset{p}{\longrightarrow} 0 . \]

结合 (12.77) 和 WLLN 我们发现

\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} e_{i}=\frac{1}{n} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} e_{i}+\frac{1}{n} \sum_{i=1}^{n} u_{2 i} e_{i} \underset{p}{\longrightarrow} \Sigma_{2 e} \]

\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}=\frac{1}{n} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} Z_{i}^{\prime} \Gamma+\frac{1}{n} \sum_{i=1}^{n} \Gamma^{\prime} Z_{i} u_{2 i}^{\prime}+\frac{1}{n} \sum_{i=1}^{n} u_{2 i} Z_{i}^{\prime} \Gamma+\frac{1}{n} \sum_{i=1}^{n} u_{2 i} u_{2 i}^{\prime} \underset{p}{\rightarrow} \boldsymbol{H}+\Sigma_{22} \]

因此

\[ \widehat{\beta}_{\mathrm{ols}}=\beta+\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime}\right)^{-1}\left(\frac{1}{n} \sum_{i=1}^{n} X_{i} e_{i}\right) \underset{p}{\longrightarrow} \beta+\left(\boldsymbol{H}+\Sigma_{22}\right)^{-1} \Sigma_{2 e} \]

因此最小二乘对于 \(\beta\) 来说是不一致的。

现在考虑 2SLS 估计器。在矩阵表示法中,设置\(\boldsymbol{P}_{Z}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}\)

\[ \begin{aligned} \widehat{\beta}_{2 \mathrm{sls}}-\beta &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{e}\right) \\ &=\left(\frac{1}{n} \bar{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{Z} \bar{\Gamma}+\frac{1}{n} \bar{\Gamma}^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{u}_{2}+\frac{1}{n} \boldsymbol{u}_{2}^{\prime} \boldsymbol{Z} \bar{\Gamma}+\frac{1}{n} \boldsymbol{u}_{2}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{u}_{2}\right)^{-1}\left(\frac{1}{n} \Gamma^{\prime} \boldsymbol{Z}^{\prime} \boldsymbol{e}+\frac{1}{n} \boldsymbol{u}_{2}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{e}\right) \end{aligned} \]

在 (12.79) 右侧的表达式中,已经在 (12.77) 和 (12.78) 中检查了几个组件。现在我们检查剩余的组件 \(\frac{1}{n} \boldsymbol{u}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{e}\)\(\frac{1}{n} \boldsymbol{u}_{2}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{2}\),它们是矩阵 \(\frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}\) 的子组件。取 \(j k^{t h}\) 元素 \(\frac{1}{n} \boldsymbol{u}_{j}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{k}\)

首先,获取其期望。我们有(在条件同方差假设 (12.74) 下给出)

\[ \mathbb{E}\left[\frac{1}{n} \boldsymbol{u}_{j}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{k} \mid \boldsymbol{Z}\right]=\frac{1}{n} \operatorname{tr}\left(\mathbb{E}\left[\boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{k} \boldsymbol{u}_{j}^{\prime} \mid \boldsymbol{Z}\right]\right)=\frac{1}{n} \operatorname{tr}\left(\boldsymbol{P}_{\boldsymbol{Z}}\right) \Sigma_{j k}=\frac{\ell}{n} \Sigma_{j k} \rightarrow \alpha \Sigma_{j k} \]

使用 \(\operatorname{tr}\left(\boldsymbol{P}_{Z}\right)=\ell\)

其次,我们计算它的方差,这是一个更麻烦的练习。令 \(P_{i m}=Z_{i}^{\prime}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} Z_{m}\)\(\boldsymbol{P}_{\boldsymbol{Z}}\)\(i m^{t h}\) 元素。然后是\(\boldsymbol{u}_{j}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{k}=\sum_{i=1}^{n} \sum_{m=1}^{n} u_{j i} u_{k m} P_{i m}\)。矩阵 \(\boldsymbol{P}_{\boldsymbol{Z}}\) 是幂等的。因此它具有属性 \(\sum_{i=1}^{n} P_{i i}=\operatorname{tr}\left(\boldsymbol{P}_{Z}\right)=\ell\)\(0 \leq P_{i i} \leq 1\)。属性 \(\boldsymbol{P}_{Z} \boldsymbol{P}_{Z}=\boldsymbol{P}_{Z}\) 也意味着 \(\sum_{m=1}^{n} P_{i m}^{2}=P_{i i}\)。然后

\[ \begin{aligned} \operatorname{var}\left[\frac{1}{n} \boldsymbol{u}_{j}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u}_{k} \mid \boldsymbol{Z}\right] &=\frac{1}{n^{2}} \mathbb{E}\left[\sum_{i=1}^{n} \sum_{m=1}^{n}\left(u_{j i} u_{k m}-\mathbb{E}\left[u_{j i} u_{k m}\right] \mathbb{1}\{i=m\}\right) P_{i m} \mid \boldsymbol{Z}\right]^{2} \\ &=\frac{1}{n^{2}} \mathbb{E}\left[\sum_{i=1}^{n} \sum_{m=1}^{n} \sum_{q=1}^{n} \sum_{r=1}^{n}\left(u_{j i} u_{k m}-\Sigma_{j k} \mathbb{1}\{i=m\}\right) P_{i m}\left(u_{j q} u_{k r}-\Sigma_{j k} \mathbb{1}\{q=r\}\right) P_{q r}\right] \\ &=\frac{1}{n^{2}} \sum_{i=1}^{n} \mathbb{E}\left[\left(u_{j i} u_{k i}-\Sigma_{j k}\right)^{2}\right] P_{i i}^{2} \\ &+\frac{1}{n^{2}} \sum_{i=1}^{n} \sum_{m \neq i} \mathbb{E}\left[u_{j i}^{2} u_{k m}^{2}\right] P_{i m}^{2}+\frac{1}{n^{2}} \sum_{i=1}^{n} \sum_{m \neq i} \mathbb{E}\left[u_{j i} u_{k m} u_{j m} u_{k i}\right] P_{i m}^{2} \\ & \leq \frac{B}{n^{2}}\left(\sum_{i=1}^{n} P_{i i}^{2}+2 \sum_{i=1}^{n} \sum_{m=1}^{n} P_{i m}^{2}\right) \\ & \leq \frac{3 B}{n^{2}} \sum_{i=1}^{n} P_{i i} \\ &=3 B \frac{\ell}{n^{2}} \rightarrow 0 . \end{aligned} \]

第三个等式成立,因为剩余的叉积具有零期望,因为观察是独立的并且误差具有零均值。第一个不等式是 (12.75)。第二个使用 \(P_{i i}^{2} \leq P_{i i}\)\(\sum_{m=1}^{n} P_{i m}^{2}=P_{i i}\)。最终的等式是\(\sum_{i=1}^{n} P_{i i}=\ell\)

使用 (12.76)、(12.80)、马尔可夫不等式 (B.36),并结合所有 \(j\)\(k\),我们推断出

\[ \frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u} \underset{p}{\longrightarrow} \alpha \Sigma . \]

返回 2SLS 估计器 (12.79) 并结合 (12.77)、(12.78) 和 (12.81),我们发现

\[ \widehat{\beta}_{2 \text { sls }}-\beta \underset{p}{\longrightarrow}\left(\boldsymbol{H}+\alpha \Sigma_{22}\right)^{-1} \alpha \Sigma_{2 e} . \]

因此 2SLS 对于 \(\beta\) 也是不一致的。然而,该限制取决于 \(\alpha\) 的大小。

我们最后检查 LIML 估计器。 (12.81) 意味着

\[ \frac{1}{n} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{Z} \boldsymbol{Y}=\frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{u}-\frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u} \underset{p}{\longrightarrow}(1-\alpha) \Sigma . \]

相似地

\[ \begin{aligned} \frac{1}{n} \boldsymbol{Y}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y} &=\bar{\beta}^{\prime} \Gamma^{\prime}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}\right) \Gamma \bar{\beta}+\bar{\beta}^{\prime} \Gamma^{\prime}\left(\frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{u}\right)+\left(\frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{Z}\right) \Gamma \bar{\beta}+\frac{1}{n} \boldsymbol{u}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{u} \\ & \underset{d}{\longrightarrow} \bar{\beta}^{\prime} \boldsymbol{H} \bar{\beta}+\alpha \Sigma . \end{aligned} \]

因此

\[ \widehat{\mu}=\min _{\gamma} \frac{\gamma^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{Y} \gamma}{\gamma^{\prime} \boldsymbol{Y}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{Y} \gamma} \underset{d}{\longrightarrow} \min _{\gamma} \frac{\gamma^{\prime}\left(\bar{\beta}^{\prime} \boldsymbol{H} \bar{\beta}+\alpha \Sigma\right) \gamma}{\gamma^{\prime}(1-\alpha) \Sigma \gamma}=\frac{\alpha}{1-\alpha} \]

\[ \begin{aligned} \widehat{\beta}_{\mathrm{liml}}-\beta &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{\boldsymbol{Z}} \boldsymbol{X}-\widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{X}\right)^{-1}\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{P}_{Z} \boldsymbol{e}-\widehat{\mu} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{M}_{\boldsymbol{Z}} \boldsymbol{e}\right) \\ & \underset{d}{\longrightarrow}\left(\boldsymbol{H}+\alpha \Sigma_{22}-\frac{\alpha}{1-\alpha}(1-\alpha) \Sigma_{22}\right)^{-1}\left(\alpha \Sigma_{2 e}-\frac{\alpha}{1-\alpha}(1-\alpha) \Sigma_{2 e}\right) \\ &=\boldsymbol{H}^{-1} 0 \\ &=0 . \end{aligned} \]

因此,与 2SLS 不同,LIML 对于 \(\beta\) 是一致的。

我们正式公布这些结果。

定理 12.19 在模型 (12.73) 中,在假设 (12.74)、(12.75) 和 (12.76) 下,则为 \(n \rightarrow \infty\)

\[ \begin{aligned} &\widehat{\beta}_{\text {ols }} \underset{p}{\longrightarrow} \beta+\left(\boldsymbol{H}+\Sigma_{22}\right)^{-1} \Sigma_{2 e} \\ &\widehat{\beta}_{2 \text { sls }} \underset{p}{\longrightarrow} \beta+\left(\boldsymbol{H}+\alpha \Sigma_{22}\right)^{-1} \alpha \Sigma_{2 e} \\ &\widehat{\beta}_{\text {liml }} \underset{p}{\longrightarrow} \beta . \end{aligned} \]

这个结果是相当有见地的。它表明,虽然内生性 \(\left(\Sigma_{2 e} \neq 0\right)\) 使最小二乘估计量不一致,但如果仪器数量与 \(n\) 成比例地偏离,2SLS 估计量也会不一致。定理 \(12.19\) 中的极限显示了最小二乘法和 2 SLS 之间的连续性。 2SLS 估计器的概率极限在 \(\alpha\) 中是连续的,极端情况 \((\alpha=1)\) 意味着 2SLS 和最小二乘具有相同的概率极限。总体含义是 \(\alpha\) 中 2 个 SLS 的不一致性正在增加。

该定理还表明,与 2SLS 不同,LIML 估计器在多种仪器假设下是一致的。 LIML 有效地进行了偏差校正。

定理 \(12.18\) (弱工具)和 \(12.19\) (许多工具)讲述了一个警示故事。他们表明,当仪器较弱和/或很多时,2SLS 估计器会不一致。不一致的程度取决于工具的弱点(定理 12.18 中矩阵 \(\boldsymbol{C}\) 的大小)和过度识别的程度(定理 12.19 中比率 \(\alpha\))。定理还表明,LIML 估计量在弱仪器假设下不一致,但经过偏差校正,而在多仪器假设下是一致的。这表明 LIML 对于弱仪器和多仪器来说比 2SLS 更稳健。

定理 \(12.19\) 结果的一个重要限制是条件同方差的假设。如果误差是异方差的,则 LIML 的一致性在许多仪器设置中可能会失败。

在应用程序中,用户应该意识到许多工具框架的潜在后果。计算“多工具比率”\(\alpha=\ell / n\) 很有用。虽然 \(\alpha\) 没有特定的经验法则可以得出可接受的推论,但最低标准是如果 \(\alpha \geq 0.05\) 您应该认真关注多仪器问题。一般来说,当 \(\alpha\) 很大时,似乎更适合使用 LIML 而不是 2SLS。

12.38 弱仪器测试

在前面的部分中,我们发现弱工具会导致 2SLS 和 LIML 估计量出现非标准渐近分布。在实践中我们如何知道这是否是一个问题?有没有办法检查仪器是否弱?

Stock 和 Yogo (2005) 在一篇有影响力的论文中解决了这个问题,作为 Staiger 和 Stock (1997) 的延伸。 Stock-Yogo 关注弱工具的两个影响:(1) 估计偏差和 (2) 推理失真。他们展示了如何检验这些扭曲不是“太大”的假设。他们建议以非标准临界值的简化形式回归对排除的工具进行 \(F\) 测试。特别是,当存在一个内生回归量和单个工具时,当 \(F\) 统计量超过 10 时,StockYogo 测试将拒绝弱工具的无效值。虽然 Stock 和 Yogo 探索了两种类型的扭曲,但我们只专注于推理,因为这是更具挑战性的问题。在本节中,我们将描述 Stock-Yogo 理论并针对单个内生回归量 \(\left(k_{2}=1\right)\) 的情况进行测试。在下一节中,我们将描述他们针对多个内生回归量的情况的方法。

虽然 Stock 和 Yogo 中的理论允许任意数量的外生回归量和工具,但为了清楚说明,我们将重点关注不包含外生变量 \(\left(k_{1}=0\right)\) 且只有一个外生工具 \(\left(\ell_{2}=1\right)\) 的非常简单的情况,即第 12.35 节中的模型 (12.69)。

\[ \begin{aligned} &Y=X \beta+e \\ &X=Z \Gamma+u . \end{aligned} \]

此外,如 \(12.35\) 节中所示,我们假设条件同方差并对方差进行归一化,如 (12.70) 中所示。由于模型刚刚被识别,2SLS、LIML 和 IV 估计器都是等效的。

主要感兴趣的问题是确定结构方程的 IV 估计量表现良好的简化形式的条件,其次,可以使用哪些统计测试来了解这些条件是否得到满足。正如在 \(12.36\) 节中一样,我们假设简化形式系数 \(\Gamma\) 是局部为零的,特别是 \(\Gamma=n^{-1 / 2} \mu\)。定理 12.18 给出了 IV 估计量的渐近分布。考虑到简化的假设,结果是

\[ \widehat{\beta}_{\mathrm{iv}}-\beta \underset{d}{\longrightarrow} \frac{\xi_{e}}{\mu+\xi_{2}} \]

其中 \(\left(\xi_{e}, \xi_{2}\right)\) 是二元正态分布。为了进行推理,我们还检查了 IV 估计量的经典(同方差)t 统计量的行为。笔记

\[ \begin{aligned} \widehat{\sigma}^{2} &=\frac{1}{n} \sum_{i=1}^{n}\left(Y_{i}-X_{i} \widehat{\beta}_{\mathrm{iv}}\right)^{2} \\ &=\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}-\frac{2}{n} \sum_{i=1}^{n} e_{i} X_{i}\left(\widehat{\beta}_{\mathrm{iv}}-\beta\right)+\frac{1}{n} \sum_{i=1}^{n} X_{i}^{2}\left(\widehat{\beta}_{\mathrm{iv}}-\beta\right)^{2} \\ & \underset{d}{\longrightarrow} 1-2 \rho \frac{\xi_{e}}{\mu+\xi_{2}}+\left(\frac{\xi_{e}}{\mu+\xi_{2}}\right)^{2} . \end{aligned} \]

因此

一般来说,\(S\) 是非正态的,其分布取决于参数 \(\rho\)\(\mu\)

我们可以使用分布 \(S\)\(\beta\) 进行推理吗?该分布取决于两个未知参数,并且两者都不是一致可估计的。这意味着我们不能使用 (12.82) 中的分布并将 \(\rho\)\(\mu\) 替换为估计值。要消除对 \(\rho\) 的依赖,一种可能性是使用“最坏情况”值,结果是 \(\rho=1\)。最坏情况是指导致偏离正常临界值最大失真的值。设置 \(\rho=1\) 我们得到了相当大的简化

\[ S=S_{1}=\xi\left|1+\frac{\xi}{\mu}\right| \]

其中 \(\xi \sim \mathrm{N}(0,1)\).当模型被强烈识别时(因此 \(|\mu|\) 非常大),则 \(S_{1} \approx \xi\) 是标准正态,与经典理论一致。然而,当 \(|\mu|\) 非常小(但非零)时,\(\left|S_{1}\right| \approx \xi^{2} / \mu\) (在这个术语占主导地位的意义上),这是一个按比例缩放的 \(\chi_{1}^{2}\) 并且与正常值相差甚远。作为\(|\mu| \rightarrow 0\),我们找到了极端情况\(\left|S_{1}\right| \rightarrow p \infty\)

虽然 (12.83) 是一种方便的简化,但它并不能产生有用的推理近似值,因为 (12.83) 中的分布高度依赖于未知的 \(\mu\)。如果我们采用 \(\mu\) 的最坏情况值,即 \(\mu=0\),我们会发现 \(\left|S_{1}\right|\) 发散,并且所有分布近似都会失败。

为了打破这一僵局,Stock 和 Yogo(2005)推荐了一种建设性的替代方案。他们建议不要使用最坏情况的 \(\mu\),而是找到一个阈值,这样如果 \(\mu\) 超过此阈值,则分布 (12.83) 不会“严重”偏离正态分布。

具体来说,Stock-Yogo 推荐可以概括为两个步骤。首先,分布结果 (12.83) 可用于查找阈值 \(\tau^{2}\),使得如果 \(\mu^{2} \geq \tau^{2}\) 则标称 \({ }^{1}\) 5% 测试“如果 \(|T| \geq 1.96\) 则拒绝”的大小具有渐近大小 \(\mathbb{P}\left[\left|S_{1}\right| \geq 1.96\right] \leq 0.15\) 。这意味着,虽然目标是获得大小为 \(5 %\) 的测试,但我们认识到,由于仪器较弱,可能会出现大小失真,并且愿意容忍特定的失真。例如,\(10 %\) 失真意味着我们允许实际大小达到 \(15 %\)。其次,他们使用简化形式(第一阶段)\(F\) 统计量的渐近分布来测试 \(\tau^{2}\) 的实际未知值是否超过阈值 \(\tau^{2}\)。这两个步骤共同得出了第一阶段 \(\tau^{2}\) 统计量应超过 10 才能实现可靠的 IV 推理的经验法则。 (这是针对一个工具变量的情况。如果有多个工具,则经验法则会发生变化。)我们现在更详细地描述这一推理背后的步骤。

第一步是使用分布 (12.82) 来确定阈值 \(\tau^{2}\)。形式上,目标是找到 \(\tau^{2}=\mu^{2}\) 的值,在该值处,标称 \(5 %\) 测试的渐近大小实际上是给定的 \(r\)(例如

\({ }^{1}\) 测试的术语“标称大小”是官方预期的大小 - 在理想情况下获得的大小。在这种情况下,测试“Reject if \(|T| \geq 1.96\)”的标称大小为\(0.05\),因为这将是强工具理想情况下的渐近拒绝概率。 \(r=0.15)\),因此\(\mathbb{P}\left[\left|S_{1}\right| \geq 1.96\right] \leq r\)。通过一些代数和二次公式,事件 \(|\xi(1+\xi / \mu)|<x\)

\[ \frac{\mu^{2}}{4}-x \mu<\left(\xi+\frac{\mu}{2}\right)^{2}<\frac{\mu^{2}}{4}+x \mu . \]

不等式之间的随机变量分布为 \(\chi_{1}^{2}\left(\mu^{2} / 4\right)\),一个具有一个自由度和非中心参数 \(\mu^{2} / 4\) 的非中心卡方。因此

\[ \begin{aligned} \mathbb{P}\left[\left|S_{1}\right| \geq x\right] &=\mathbb{P}\left[\chi_{1}^{2}\left(\frac{\mu^{2}}{4}\right) \geq \frac{\mu^{2}}{4}+x \mu\right]+\mathbb{P}\left[\chi_{1}^{2}\left(\frac{\mu^{2}}{4}\right) \leq \frac{\mu^{2}}{4}-x \mu\right] \\ &=1-G\left(\frac{\mu^{2}}{4}+x \mu, \frac{\mu^{2}}{4}\right)+G\left(\frac{\mu^{2}}{4}-x \mu, \frac{\mu^{2}}{4}\right) \end{aligned} \]

其中 \(G(u, \lambda)\)\(\chi_{1}^{2}(\lambda)\) 的分布函数。因此所需的阈值 \(\tau^{2}\) 解决

\[ 1-G\left(\frac{\tau^{2}}{4}+1.96 \tau, \frac{\tau^{2}}{4}\right)+G\left(\frac{\tau^{2}}{4}-1.96 \tau, \frac{\tau^{2}}{4}\right)=r \]

或有效地

\[ G\left(\frac{\tau^{2}}{4}+1.96 \tau, \frac{\tau^{2}}{4}\right)=1-r \]

因为 \(\tau^{2} / 4-1.96 \tau<0\) 对应于 \(\tau\) 的相关值。当 \(r=0.15\) 时,数值解(使用非中心卡方分布函数计算,例如 MATLAB 中的 ncx \(2 c d f\))为 \(\tau^{2}=1.70\)。 (也就是说,命令

\[ \operatorname{ncx} 2 \mathrm{cdf}(1.7 / 4+1.96 * \operatorname{sqrt}(1.7), 1,1.7 / 4) \]

得出答案 \(0.8500\)。 Stock 和 Yogo (2005) 使用模拟方法进行近似相同的计算并报告 \(\tau^{2}=1.82\)。)

此计算意味着,如果简化形式满足 \(\mu^{2} \geq 1.7\),或者等效地满足 \(\Gamma^{2} \geq 1.7 / n\),则对结构参数进行标称 \(5 %\) 测试的渐近大小不大于 \(15 %\)

总结 Stock-Yogo 第一步,我们计算 \(\mu^{2}\) 的最小值 \(\tau^{2}\),足以确保名义 5% t 检验的渐近大小不超过 \(r\),并发现 \(\tau^{2}=1.70\) 对于\(r=0.15\)

Stock-Yogo 第二步是找到第一阶段 \(F\) 统计量的临界值,足以拒绝 \(\mathbb{M}_{0}: \mu^{2}=\tau^{2}\) 相对于 \(\mathbb{M}_{1}: \mu^{2}>\tau^{2}\) 的假设。我们现在描述这个过程。

他们建议使用第一阶段 \(F\) 统计数据以 \(5 %\) 大小测试 \(\mathbb{M}_{0}: \mu^{2}=\tau^{2}\)。如果 \(F\) 统计量很小,以至于测试不会拒绝,那么我们应该担心 \(\mu^{2}\) 的真实值很小,并且存在弱仪器问题。另一方面,如果 \(F\) 统计量很大,以至于检验被拒绝,那么我们可以有一定的信心,\(\mu^{2}\) 的真实值足够大,弱仪器问题不会太严重。

为了实施测试,我们需要计算适当的临界值。它应该在原假设 \(\mathbb{H}_{0}: \mu^{2}=\tau^{2}\) 下计算。这与在 \(\mathbb{M}_{0}: \mu^{2}=0\) 下计算的传统 \(F\) 测试不同。

我们首先计算 \(\mathrm{F}\) 的渐近分布。由于我们的简化设置中有一个回归量和一个工具,因此第一阶段 \(F\) 统计量是简化形式的平方 t 统计量。根据我们之前的计算,它具有渐近分布

\[ \mathrm{F}=\frac{\widehat{\gamma}^{2}}{s(\widehat{\gamma})^{2}}=\frac{\left(\sum_{i=1}^{n} Z_{i} X_{i}\right)^{2}}{\left(\sum_{i=1}^{n} X_{i}^{2}\right) \widehat{\sigma}_{u}^{2}} \underset{d}{ }\left(\mu+\xi_{2}\right)^{2} \sim \chi_{1}^{2}\left(\mu^{2}\right) . \]

这是一个非中心卡方分布 \(G\left(u, \mu^{2}\right)\),具有一个自由度和非中心参数 \(\mu^{2}\)。为了测试 \(\mathbb{M}_{0}: \mu^{2}=\tau^{2}\)\(\mathbb{M}_{1}: \mu^{2}>\tau^{2}\),我们拒绝 \(\mathrm{F} \geq c\),其中选择 \(c\),以便渐近拒绝概率满足

\[ \mathbb{P}\left[\mathrm{F} \geq c \mid \mu^{2}=\tau^{2}\right] \rightarrow \mathbb{P}\left[\chi_{1}^{2}\left(\tau^{2}\right) \geq c\right]=1-G\left(c, \tau^{2}\right)=0.05 \]

对于 \(\tau^{2}=1.70\) 或等效的 \(G(c, 1.7)=0.95\)。这是通过反转非中心卡方分位数函数发现的,例如函数 \(Q(p, d)\) 求解 \(G(Q(p, d), d)=p\)。我们发现\(c=Q(0.95,1.7)=8.7\)。在 MATLAB 中,这可以通过 ncx2inv \((.95,1.7\) 计算。 Stock 和 Yogo (2005) 报告 \(c=9.0\) 因为他们使用 \(\tau^{2}=1.82\)

这意味着如果 \(\mathrm{F}>8.7\) 我们可以通过渐近 \(5 %\) 测试拒绝 \(\mathbb{M}_{0}: \mu^{2}=1.7\)\(\mathbb{H}_{1}: \mu^{2}>1.7\) 的比较。在这种情况下,我们应该期望 IV 估计器和测试表现得相当良好。然而,如果 \(\mathrm{F}<8.7\) 那么我们应该对 IV 估计器、置信区间和检验保持谨慎。这一发现导致 Staiger 和 Stock (1997) 提出了非正式的“经验法则”,即第一阶段 \(F\) 统计量应超过 10。请注意,\(\mathrm{F}\) 超过 \(8.7\)(或 10)相当于简化形式 t -统计量超过 \(2.94\) (或 3.16),如果 t 统计量“显着”,则该统计量比传统检查大得多。同样,对于单一工具的情况,建议的经验法则是估计简化形式并验证排除工具变量的 t 统计量的绝对值是否超过 3。

所提出的程序是否控制 2SLS 检验的渐近大小?第一步的渐近大小限制在 \(r\) 以下(例如 15%)。第二步的渐进大小为 5%。根据 Bonferroni 边界(参见第 9.20 节),这两个步骤的渐近大小限制在 \(r+0.05\) 以下(例如 20%)。因此,我们可以将 Stock-Yogo 过程称为渐近大小 \(r+0.05\)(或 20%)的严格测试。

我们的分析仅限于 \(k_{2}=\ell_{2}=1\) 案例。 Stock 和 Yogo (2005) 还研究了 \(\ell_{2}>1\) 案例(需要数值模拟来求解)以及 2SLS 和 LIML 估计器。他们表明 \(F\) 统计临界值取决于工具 \(\ell_{2}\) 以及估计器的数量。他们的临界值(通过模拟计算)出现在他们的论文中,并发布在 Motohiro Yogo 的网页上。我们在表 12.4 中报告了一个子集。

表 12.4:弱仪器的 5% 临界值,\(k_{2}=1\)

|\(\ell_{2}\)|\(0.10\)|\(0.15\)|\(0.20\)|\(0.25\)||\(0.10\)|\(0.15\)|\(0.20\)|\(0.25\)| |———:|—–:|—–:|—–:|—–:||—–:|—–:|—–:|—–:| | 1|\(16.4\)| \(9.0\)| \(6.7\)| \(5.5\)||\(16.4\)| \(9.0\)| \(6.7\)| \(5.5\)| | 2|\(19.9\)|\(11.6\)| \(8.7\)| \(7.2\)|| \(8.7\)| \(5.3\)| \(4.4\)| \(3.9\)| | 3|\(22.3\)|\(12.8\)| \(9.5\)| \(7.8\)|| \(6.5\)| \(4.4\)| \(3.7\)| \(3.3\)| | 4|\(24.6\)|\(14.0\)|\(10.3\)| \(8.3\)|| \(5.4\)| \(3.9\)| \(3.3\)| \(3.0\)| | 5|\(26.9\)|\(15.1\)|\(11.0\)| \(8.8\)|| \(4.8\)| \(3.6\)| \(3.0\)| \(2.8\)| | 6|\(29.2\)|\(16.2\)|\(11.7\)| \(9.4\)|| \(4.4\)| \(3.3\)| \(2.9\)| \(2.6\)| | 7|\(31.5\)|\(17.4\)|\(12.5\)| \(9.9\)|| \(4.2\)| \(3.2\)| \(2.7\)| \(2.5\)| | 8|\(33.8\)|\(18.5\)|\(13.2\)|\(10.5\)|| \(4.0\)| \(3.0\)| \(2.6\)| \(2.4\)| | 9|\(36.2\)|\(19.7\)|\(14.0\)|\(11.1\)|| \(3.8\)| \(2.9\)| \(2.5\)| \(2.3\)| | 10|\(38.5\)|\(20.9\)|\(14.8\)|\(11.6\)|| \(3.7\)| \(2.8\)| \(2.5\)| \(2.2\)| | 15|\(50.4\)|\(26.8\)|\(18.7\)|\(12.2\)|| \(3.3\)| \(2.5\)| \(2.2\)| \(2.0\)| | 20|\(62.3\)|\(32.8\)|\(22.7\)|\(17.6\)|| \(3.2\)| \(2.3\)| \(2.1\)| \(1.9\)| | 25|\(74.2\)|\(38.8\)|\(26.7\)|\(20.6\)|| \(3.8\)| \(2.2\)| \(2.0\)| \(1.8\)| | 30|\(86.2\)|\(44.8\)|\(30.7\)|\(23.6\)|| \(3.9\)| \(2.2\)| \(1.9\)| \(1.7\)|

资料来源:。这些临界值的一个显着特征是,2SLS 估计器的临界值在 \(\ell_{2}\) 中急剧增加,而 LIML 估计器的临界值在 \(\ell_{2}\) 中下降。这意味着当工具 \(\ell_{2}\) 的数量很大时,2SLS 需要更强的简化形式(更大的 \(\mu^{2}\) )才能使推理可靠,但 LIML 的情况并非如此。这是直接证据,表明 LIML 推理对弱仪器的敏感度低于 2SLS。这为 LIML 超过 2SLS 提供了强有力的理由,特别是当 \(\ell_{2}\) 很大或工具可能很弱时。

现在,我们总结了针对 \(k_{1} \geq 1, k_{2}=1\)\(\ell_{2} \geq 1\) 推荐的 Staiger-Stock/Stock-Yogo 过程。结构方程和简化形式方程为

\[ \begin{aligned} &Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2} \beta_{2}+e \\ &Y_{2}=Z_{1}^{\prime} \gamma_{1}+Z_{2}^{\prime} \gamma_{2}+u . \end{aligned} \]

结构方程通过 2 SLS 或 LIML 进行估计。令 \(\mathrm{F}\) 为简化形式方程中 \(\mathbb{H}_{0}: \gamma_{2}=0\)\(F\) 统计量。令 \(s\left(\widehat{\beta}_{2}\right)\) 为结构方程中 \(\beta_{2}\) 的标准误差。程序是:

  1. \(F\) 与表 \(12.4\) 中的临界值 \(c\) 进行比较,并选择与排除工具 \(\ell_{2}\) 数量相匹配的行以及与估计方法(2SLS 或 LIML)和所需大小相匹配的列 \(数学5\)

  2. 如果 \(F>c\) 则使用传统推理报告 2 个 SLS 或 LIML 估计值。

如果指定了标准(非鲁棒)协方差矩阵(即,没有 ‘, r’ 选项),则可以在 ivregress 2 sls 或 ivregres liml 之后使用命令 estat firststage 在 Stata 中实现 Stock-Yogo 测试。

Stock-Yogo 程序有可能扩展。

一种适度的扩展是使用该信息来传达对置信区间准确性的置信程度。假设在应用程序中您有 \(\ell_{2}=5\) 排除的仪器,并通过 2SLS 估计了您的方程。现在假设您的简化形式 \(F\) 统计量等于 12 。您检查表 \(12.4\) 并发现 \(\mathrm{F}=12\)\(r=0.20\) 显着。因此,我们可以将传统的 2SLS 置信区间解释为具有 \(80 %\) 的覆盖范围(如果我们进行 Bonferroni 校正,则为 \(75 %\))。另一方面,如果 \(\mathrm{F}=27\) 我们会得出结论,对弱工具的测试对于 \(r=0.10\) 是显着的,这意味着传统的 2SLS 置信区间可以解释为覆盖 \(\ell_{2}=5\) (或 Bonferroni 校正后的 \(\ell_{2}=5\)) 。因此,\(\ell_{2}=5\) 统计量的值可用于校准覆盖精度。

我们现在讨论的更具实质性的扩展颠倒了这些步骤。不幸的是,这个讨论仅限于 \(\ell_{2}=1\) 的情况。首先,使用简化形式的 \(F\) 统计量来查找 \(\left[\mu_{L}^{2}, \infty\right)\) 形式的 \(\mu^{2}\) 的单边置信区间。其次,使用下界 \(\mu_{L}^{2}\) 计算 \(S_{1}\) 的临界值 \(c\),以便 2SLS 检验的渐近大小限制在 \(0.05\) 以下。这比 Stock-Yogo 过程产生更好的尺寸控制,并为 \(\beta_{2}\) 产生更多信息的置信区间。我们现在详细描述这些步骤。

第一个目标是找到 \(\mu^{2}\) 的单边置信区间。这是通过测试反演发现的。正如我们之前所描述的,对于任何 \(\tau^{2}\),如果 \(\mathrm{F}>c\) 其中 \(G\left(c, \tau^{2}\right)=0.95\),我们会拒绝 \(\mathbb{M}_{0}: \mu^{2}=\tau^{2}\),而支持 \(\mathbb{H}_{1}: \mu^{2}>\tau^{2}\)。同样,我们拒绝 if \(G\left(\mathrm{~F}, \tau^{2}\right)>0.95\)。根据检验反演原理,渐近 \(95 %\) 置信区间 \(\left[\mu_{L}^{2}, \infty\right)\) 是未拒绝的 \(\mu^{2}\) 的所有值的集合。由于 \(\mu^{2}\) 对于该集合中的所有 \(\mu^{2}\) 而言,下限 \(\mu^{2}\) 满足 \(\mu^{2}\),并且可以通过数值方式找到。在 MATLAB 中,当 \(\mu^{2}\) 返回 \(\mu^{2}\) 时,解为 mu2

第二个目标是找到临界值 \(c\),使得 \(\mathbb{P}\left(\left|S_{1}\right| \geq c\right)=0.05\)\(\mu^{2}=\mu_{L}^{2}\) 时。从 (12.84) 可以看出,当

\[ 1-G\left(\frac{\mu_{L}^{2}}{4}+c \mu_{L}, \frac{\mu_{L}^{2}}{4}\right)+G\left(\frac{\mu_{L}^{2}}{4}-c \mu_{L}, \frac{\mu_{L}^{2}}{4}\right)=0.05 . \]

这可以解决为

\[ G\left(\frac{\mu_{L}^{2}}{4}+c \mu_{L}, \frac{\mu_{L}^{2}}{4}\right)=0.95 \text {. } \]

(对于所有解,(12.85) 左侧的第三项均为零,因此可以忽略。)使用非中心卡方分位数函数 \(Q(p, d)\),此 \(C\) 等于

\[ c=\frac{Q\left(0.95, \frac{\mu_{L}^{2}}{4}\right)-\frac{\mu_{L}^{2}}{4}}{\mu_{L}} . \]

例如,在 MATLAB 中,\(c=(n c x 2 i n v ~(.95,1, \mathrm{mu} 2 / 4)-\mathrm{mu} 2 / 4) / \mathrm{sqrt}(\mathrm{mu} 2) .95 %\) 置信区间为 \(\beta_{2}\),然后计算为 \(\widehat{\beta}_{\mathrm{iv}} \pm c s\left(\widehat{\beta}_{\mathrm{iv}}\right)\)

我们还可以计算 \(\beta_{2}\) 的 t 统计量 \(T\) 的 p 值。这是

\[ p=1-G\left(\frac{\mu_{L}^{2}}{4}+|T| \mu_{L}, \frac{\mu_{L}^{2}}{4}\right)+G\left(\frac{\mu_{L}^{2}}{4}-|T| \mu_{L}, \frac{\mu_{L}^{2}}{4}\right) \]

其中如果 \(|T| \geq \mu_{L} / 4\) 第三项等于 0。例如,在 MATLAB 中,可以通过以下命令计算

\(\mathrm{T} 1=\mathrm{mu} 2 / 4+\operatorname{abs}(\mathrm{T}) * \operatorname{sqrt}(\mathrm{mu} 2)\)

\(\mathrm{T} 2=\mathrm{mu} 2 / 4-\operatorname{abs}(\mathrm{T}) * \operatorname{sqrt}(\mathrm{mu} 2) ;\)

\(\mathrm{p}=-\mathrm{ncx} 2 \mathrm{cdf}(\mathrm{T} 1,1, \mathrm{mu} 2 / 4)+\mathrm{ncx} 2 \mathrm{cdf}(\mathrm{T} 2,1, \mathrm{mu} 2 / 4)\);

这些置信区间和 p 值将大于传统的区间和 p 值,反映了通过第一阶段 \(F\) 统计纳入了有关工具强度的信息。此外,根据 Bonferroni 界限,这些检验的渐近大小限制在 \(10 %\) 以下,并且置信区间的渐近收敛性超过 \(90 %\),这与 Stock-Yogo 方法不同,Stock-Yogo 方法的大小为 \(20 %\),覆盖范围为 \(80 %\)

这里建议的增强过程,仅适用于 \(\ell_{2}=1\) 情况,是

  1. 找到 \(\mu_{L}^{2}\) 来求解 \(G\left(\mathrm{~F}, \mu_{L}^{2}\right)=0.95\)。在 MATLAB 中,当 \(\operatorname{cx} 2 \operatorname{cdf}(\mathrm{F}, 1, \operatorname{mu} 2)\) 返回 \(0.95 .\) 时,解为 mu2

  2. 找到 \(c\) 来求解 \(G\left(\mu_{L}^{2} / 4+c \mu_{L}, \mu_{L}^{2} / 4\right)=0.95\)。在 MATLAB 中,命令是 \(c=(n c x 2 \operatorname{inv}(.95,1, \mathrm{mu} 2 / 4)-\mathrm{mu} 2 / 4) / \mathrm{sqrt}(\mathrm{mu} 2)\)

  3. 报告 \(\beta_{2}\) 的置信区间 \(\widehat{\beta}_{2} \pm c s\left(\widehat{\beta}_{2}\right)\)

  4. 对于 \(\mathrm{t}\) 统计量 \(T=\left(\widehat{\beta}_{2}-\beta_{2}\right) / s\left(\widehat{\beta}_{2}\right)\),渐近 \(\mathrm{p}\) 值为

\[ p=1-G\left(\frac{\mu_{L}^{2}}{4}+|T| \mu_{L}, \frac{\mu_{L}^{2}}{4}\right)+G\left(\frac{\mu_{L}^{2}}{4}-|T| \mu_{L}, \frac{\mu_{L}^{2}}{4}\right) \]

在 MATLAB 中由 \(\mathrm{T} 1=\mathrm{mu} 2 / 4+\mathrm{abs}(\mathrm{T}) * \operatorname{sqrt}(\mathrm{mu} 2) ; \mathrm{T} 2=\mathrm{mu} 2 / 4-\mathrm{abs}(\mathrm{T}) * \mathrm{sqrt}(\mathrm{mu} 2)\) 计算;和\(\mathrm{p}=1-\mathrm{ncx} 2 \mathrm{cdf}(\mathrm{T} 1,1, \mathrm{mu} 2 / 4)+\mathrm{ncx} 2 \mathrm{cdf}(\mathrm{T} 2,1, \mathrm{mu} 2 / 4)\)

我们已经针对一个工具变量 \(\ell_{2}=1\) 的情况描述了 Stock-Yogo 过程的扩展。此限制是由于渐近分布使用了解析公式 (12.85),该公式仅在 \(\ell_{2}=1\) 时可用。原则上可以使用模拟或引导方法来扩展该过程,但据我所知尚未这样做。

为了说明 Stock-Yogo 和扩展程序,让我们回到卡邻近示例。以表 \(12.1\) 第二列中报告的 IV 估计值为例,该估计值使用大学邻近度作为单一工具。表 12.2 的第二列报告了内生变量教育的简化形式估计值。排除的仪器学院的 t 比率为 \(4.2\),这意味着 \(F\) 统计值为 17.8。 \(F\) 统计数据超过了经验法则 10,因此结构估计超过了 Stock-Yogo 阈值。根据他们的建议,这意味着我们可以按照传统方式解释估计值。然而,传统的置信区间,例如对于教育回报 \(0.132 \pm\) \(0.049 \times 1.96=[0.04,0.23]\),其渐近覆盖率为 \(80 %\),而不是名义 \(95 %\) 率。

现在考虑扩展过程。给定 \(\mathrm{F}=17.8\),我们计算下限 \(\mu_{L}^{2}=6.6\)。这意味着 \(C=2.7\) 的临界值。因此,该等式中教育回报的改进置信区间为 \(0.132 \pm 0.049 \times 2.7=[0.01,0.26]\)。这是更宽的置信区间,但改善了 \(90 %\) 的渐近覆盖范围。 \(\beta_{2}=0\) 的 p 值为 \(p=0.012\)

接下来,采用表 \(11.1\) 第四列中报告的 2SLS 估计值,该估计值使用公共和私人两种工具。表 12.2 的第六列报告了简化形式的方程。排除这两种工具的 \(F\) 统计量是 \(F=13.9\),它超过了 2SLS 的 \(15 %\) 大小阈值和 LIML 的所有阈值,表明结构估计通过了 Stock-Yogo 阈值测试,并且可以按常规方式解释。

这里描述的弱工具方法对于应用计量经济学很重要,因为它们要求研究人员在报告结构估计之前评估其简化形式关系的质量。然而,该理论有局限性和缺点,特别是条件同方差性的强烈假设。尽管存在这种限制,但在实践中,研究人员仍将 Stock-Yogo 建议应用于使用异方差稳健标准误差计算的估计值。这是一个活跃的研究领域,因此推荐的方法在未来几年可能会发生变化。

12.39 \(k_{2}>1\) 的弱工具

当存在多个内生回归量 \(\left(k_{2}>1\right)\) 时,最好将简化形式作为一个系统进行检查。 Staiger 和 Stock (1997) 以及 Stock 和 Yogo (2005) 对此案例进行了分析,并构建了针对弱工具的测试。该理论比 \(k_{2}=1\) 案例复杂得多,因此我们在这里简要总结它,排除许多细节,强调他们建议的方法。

结构方程和简化形式方程为

\[ \begin{aligned} &Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e \\ &Y_{2}=\Gamma_{12}^{\prime} Z_{1}+\Gamma_{22}^{\prime} Z_{2}+u_{2} . \end{aligned} \]

与上一节一样,我们假设误差是有条件同方差的。

识别 \(\beta_{2}\) 需要矩阵 \(\Gamma_{22}\) 是满秩的。必要条件是 \(\Gamma_{22}^{\prime}\) 的每一行都非零,但这还不够。

我们关注 \(\beta_{2}\) 的 2SLS 估计量的同方差 Wald 统计量的大小性能。为简单起见,假设 \(e\) 的方差已知并标准化为 1。使用表示(12.32),Wald 统计量可以写为

\[ W=\boldsymbol{e}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{Y}_{2}\left(\boldsymbol{Y}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{Y}_{2}\right)^{-1}\left(\boldsymbol{Y}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{e}\right) \]

其中 \(\widetilde{\boldsymbol{Z}}_{2}=\left(\boldsymbol{I}_{n}-\boldsymbol{P}_{1}\right) \boldsymbol{Z}_{2}\)\(\boldsymbol{P}_{1}=\boldsymbol{Z}_{1}\left(\boldsymbol{Z}_{1}^{\prime} \boldsymbol{Z}_{1}\right)^{-1} \boldsymbol{Z}_{1}^{\prime}\)

回想一下 \(12.36\) 节,Stock 和 Staiger 通过为某个矩阵 \(\boldsymbol{C}\) 设置 \(\Gamma_{22}=n^{-1 / 2} \boldsymbol{C}\),将排除的工具 \(Z_{2}\) 建模为弱。在此框架中,我们得到渐近分布结果

\[ \frac{1}{n} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2} \underset{p}{\longrightarrow} \boldsymbol{Q}=\mathbb{E}\left[Z_{2} Z_{2}^{\prime}\right]-\mathbb{E}\left[Z_{2} Z_{1}^{\prime}\right]\left(\mathbb{E}\left[Z_{1} Z_{1}^{\prime}\right]\right)^{-1} \mathbb{E}\left[Z_{1} Z_{2}^{\prime}\right] \]

\[ \frac{1}{\sqrt{n}} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{e} \underset{d}{\longrightarrow} \boldsymbol{Q}^{1 / 2} \xi_{0} \]

其中 \(\xi_{0}\) 是矩阵正态变量,其列与 \(\mathrm{N}(0, \boldsymbol{I})\) 无关。此外,设置 \(\Sigma=\) \(\mathbb{E}\left[u_{2} u_{2}^{\prime}\right]\)\(\overline{\boldsymbol{C}}=\boldsymbol{Q}^{1 / 2} \boldsymbol{C} \Sigma^{-1 / 2}\)

\[ \frac{1}{\sqrt{n}} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{Y}_{2}=\frac{1}{n} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2} \boldsymbol{C}+\frac{1}{\sqrt{n}} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{U}_{2} \underset{d}{\longrightarrow} \boldsymbol{Q}^{1 / 2} \overline{\boldsymbol{C}} \Sigma^{1 / 2}+\boldsymbol{Q}^{1 / 2} \xi_{2} \Sigma^{1 / 2} \]

其中 \(\xi_{2}\) 是矩阵正态变量,其列与 \(\mathrm{N}(0, \boldsymbol{I})\) 无关。变量 \(\xi_{0}\)\(\xi_{2}\) 是相关的。我们一起得到 Wald 统计量的渐近分布

\[ W \underset{d}{\longrightarrow} S=\xi_{0}^{\prime}\left(\overline{\boldsymbol{C}}+\xi_{2}\right)\left(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}\right)^{-1}\left(\overline{\boldsymbol{C}}+\xi_{2}\right)^{\prime} \xi_{0} \]

使用谱分解,\(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\) 其中 \(\boldsymbol{H}^{\prime} \boldsymbol{H}=\boldsymbol{I}\)\(\Lambda\) 是对角线。因此我们可以将 \(S=\xi_{0}^{\prime} \bar{\xi}_{2} \Lambda^{-1} \bar{\xi}_{2}^{\prime} \xi_{0}\) 写成 \(\bar{\xi}_{2}=\overline{\boldsymbol{C}} \boldsymbol{H}^{\prime}+\xi_{2} \boldsymbol{H}^{\prime}\)。矩阵 \(\xi^{*}=\left(\xi_{0}, \bar{\xi}_{2}\right)\) 是多元正态分布,因此 \(\xi^{* \prime} \xi^{*}\) 具有所谓的非中心 Wishart 分布。它仅取决于矩阵 \(\overline{\boldsymbol{C}}\)\(\boldsymbol{H} \overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}} \boldsymbol{H}^{\prime}=\Lambda\),它们是 \(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\) 的特征值。由于 \(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\) 仅通过 \(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\)\(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\) 的函数,因此我们得出结论,仅通过这些特征值 \(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\)\(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}=\boldsymbol{H}^{\prime} \Lambda \boldsymbol{H}\) 的函数。

这是相当复杂的推导的一个非常快速的推导,但 Stock 和 Yogo 得出的结论是 Wald 统计量的渐近分布是非标准的,并且仅通过 \(\overline{\boldsymbol{C}} \overline{\bar{C}}\) 的特征值和相关性成为模型参数的函数正态变量 \(\xi_{0}\)\(\bar{\xi}_{2}\) 之间。最坏的情况可以通过 \(\xi_{0}\)\(\bar{\xi}_{2}\) 之间的最大相关性以及 \(\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}}\) 的最小特征值来概括。为了方便起见,他们通过除以内生变量的数量来重新调整后者。定义

\[ \boldsymbol{G}=\overline{\boldsymbol{C}}^{\prime} \overline{\boldsymbol{C}} / k_{2}=\Sigma^{-1 / 2} \boldsymbol{C}^{\prime} \boldsymbol{Q} \boldsymbol{C} \Sigma^{-1 / 2} / k_{2} \]

\[ g=\lambda_{\min }(\boldsymbol{G})=\lambda_{\min }\left(\Sigma^{-1 / 2} \boldsymbol{C}^{\prime} \boldsymbol{Q} \boldsymbol{C} \Sigma^{-1 / 2}\right) / k_{2} . \]

这可以通过简化形式的回归来估计

\[ X_{2 i}=\widehat{\Gamma}_{12}^{\prime} Z_{1 i}+\widehat{\Gamma}_{22}^{\prime} Z_{2 i}+\widehat{u}_{2 i} . \]

估计量是

\[ \begin{aligned} \widehat{\boldsymbol{G}} &=\widehat{\Sigma}^{-1 / 2} \widehat{\Gamma}_{22}^{\prime}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right) \widehat{\Gamma}_{22} \widehat{\Sigma}^{-1 / 2} / k_{2}=\widehat{\Sigma}^{-1 / 2}\left(\boldsymbol{X}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\left(\widetilde{\boldsymbol{Z}}_{2}^{\prime} \widetilde{\boldsymbol{Z}}_{2}\right)^{-1} \widetilde{\boldsymbol{Z}}_{2}^{\prime} \boldsymbol{X}_{2}\right) \widehat{\Sigma}^{-1 / 2} / k_{2} \\ \widehat{\Sigma} &=\frac{1}{n-k} \sum_{i=1}^{n} \widehat{u}_{2 i} \widehat{u}_{2 i}^{\prime} \\ \widehat{g} &=\lambda_{\min }(\widehat{\boldsymbol{G}}) \end{aligned} \]

\(\widehat{\boldsymbol{G}}\) 是系数矩阵 \(\widehat{\Gamma}_{22}\) 的矩阵 \(F\) 类型统计量。

统计量 \(\widehat{g}\) 是由 Cragg 和 Donald (1993) 提出的,作为识别不足的检验。 Stock 和 Yogo (2005) 使用它作为弱工具的测试。他们使用模拟方法确定了 \(\widehat{g}\) 的临界值,类似于 \(k_{2}=1\) 的临界值。对于给定的大小 \(r>0.05\),有一个临界值 \(c\)(在下表中报告),这样如果 \(\widehat{g}>c\)\(\widehat{\beta}_{2}\) 的 2SLS(或 LIML)Wald 统计量 \(W\) 的渐近大小限制在 \(r\)。另一方面,如果 \(\widehat{g}\) 则我们不能将渐近大小限制在 \(\widehat{g}\) 以下,并且我们不能拒绝弱工具的假设。他们的论文中报告了临界值(通过模拟计算),并发布在 Motohiro Yogo 的网页上。我们在表 12.5 中报告了案例 \(\widehat{g}\) 的子集。这些方法和理论也适用于 \(\widehat{g}\) 的情况,但尚未计算这些临界值。对于 \(\widehat{g}\) 情况,2 SLS 的临界值在 \(\widehat{g}\) 中急剧增加。因此,当模型被过度识别时,我们需要较大的 \(\widehat{g}\) 值来拒绝弱工具的假设。这是检查应用程序中 \(\widehat{g}\) 统计数据的强烈警告消息。此外,LIML 的临界值在 \(\widehat{g}\) 中通常会减小(\(\widehat{g}\) 除外,其中较大的 \(\widehat{g}\) 的临界值会增加)。这意味着对于过度识别的模型,LIML 推断对弱工具的敏感度低于 2SLS,并且可能是首选的估计方法。

如果已指定标准(非鲁棒)协方差矩阵(即,没有 ‘, r’ 选项),则可以在 ivregress 2sls 或 ivregres \(\operatorname{liml}\) 之后使用命令 estat firststage 在 Stata 中实现 Stock-Yogo 测试。控制大小的临界值仅适用于 \(k_{2} \leq 2\)。对于\(k_{2}>2\),报告了控制相对偏差的临界值。

Kleibergen 和 Paap (2006) 提出了该测试的稳健版本。这些可以使用可下载命令 ivreg2 在 Stata 中实现。

表 12.5:弱仪器的 5% 临界值,\(k_{2}=2\)

|\(\ell_{2}\)|\(0.10\)|\(0.15\)|\(0.20\)|\(0.25\)||\(0.10\)|\(0.15\)|\(0.20\)|\(0.25\)| |———:|—–:|—–:|—–:|—–:||—–:|—–:|—–:|—–:| | 2| \(7.0\)| \(4.6\)| \(3.9\)| \(3.6\)|| \(7.0\)| \(4.6\)| \(3.9\)| \(3.6\)| | 3|\(13.4\)| \(8.2\)| \(6.4\)| \(5.4\)|| \(5.4\)| \(3.8\)| \(3.3\)| \(3.1\)| | 4|\(16.9\)| \(9.9\)| \(7.5\)| \(6.3\)|| \(4.7\)| \(3.4\)| \(3.0\)| \(2.8\)| | 5|\(19.4\)|\(11.2\)| \(8.4\)| \(6.9\)|| \(4.3\)| \(3.1\)| \(2.8\)| \(2.6\)| | 6|\(21.7\)|\(12.3\)| \(9.1\)| \(7.4\)|| \(4.1\)| \(2.9\)| \(2.6\)| \(2.5\)| | 7|\(23.7\)|\(13.3\)| \(9.8\)| \(7.9\)|| \(3.9\)| \(2.8\)| \(2.5\)| \(2.4\)| | 8|\(25.6\)|\(14.3\)|\(10.4\)| \(8.4\)|| \(3.8\)| \(2.7\)| \(2.4\)| \(2.3\)| | 9|\(27.5\)|\(15.2\)|\(11.0\)| \(8.8\)|| \(3.7\)| \(2.7\)| \(2.4\)| \(2.2\)| | 10|\(29.3\)|\(16.2\)|\(11.6\)| \(9.3\)|| \(3.6\)| \(2.6\)| \(2.3\)| \(2.1\)| | 15|\(38.0\)|\(20.6\)|\(14.6\)|\(11.6\)|| \(3.5\)| \(2.4\)| \(2.1\)| \(2.0\)| | 20|\(46.6\)|\(25.0\)|\(17.6\)|\(13.8\)|| \(3.6\)| \(2.4\)| \(2.0\)| \(1.9\)| | 25|\(55.1\)|\(29.3\)|\(20.6\)|\(16.1\)|| \(3.6\)| \(2.4\)|\(1.97\)| \(1.8\)| | 30|\(63.5\)|\(33.6\)|\(23.5\)|\(18.3\)|| \(4.1\)| \(2.4\)|\(1.95\)| \(1.7\)|

资料来源:。

12.40 示例:阿西莫格鲁、约翰逊和罗宾逊 (2001)

Acemoglu、Johnson 和 Robinson (2001) 中引用了一种特别广泛引用的工具变量回归,并在 (2012) 中发表了更多详细信息。他们对政治制度对经济表现的影响感兴趣。该理论认为,良好的制度(法治、产权)应该使一个国家比制度较差的国家拥有更高的长期经济产出。为了调查这个问题,他们重点研究了 64 个前欧洲殖民地的样本。他们的数据位于教科书网站上的文件 AJR2001 中。

作者的前提是现代政治制度受到了殖民化的影响。他们特别认为,殖民国家倾向于将殖民地建立为“榨取国家”或“移民殖民地”。殖民者利用采掘国为殖民国榨取资源,但欧洲殖民者并未在很大程度上定居。在这种情况下,殖民者没有动力去建立良好的政治制度。相反,如果一个殖民地被设立为“移民殖民地”,那么大量欧洲定居者就会迁移到该殖民地居住。这些定居者希望建立与本国类似的制度,因此有动力建立良好的政治制度。随着时间的推移,制度的性质相当持久,因此这些 \(19^{t h}\) 世纪的基础影响着现代制度的性质。作者得出的结论是,殖民地的 \(19^{t h}\) 世纪性质预示着现代制度的性质,从而预示着现代经济增长。

为了开始调查,他们报告了 1995 年人均 GDP 对数的 OLS 回归,该回归是针对他们称之为风险的政治制度的衡量标准,这是针对征用的法律保护的衡量标准。该变量的范围从 0 到 10 ,其中 0 为最低的防盗用保护,10 为最高。对于每个国家,作者取了 1985 年至 1995 年该指数的平均值(平均值为 \(6.5\),标准差为 1.5)。他们报告的 OLS 估计(截距省略)是

这些估计意味着风险差异为 1 个单位的国家之间的 GDP 存在 \(52 %\) 差异。

作者认为,风险是内生的,因为经济产出影响政治制度,而且可变风险的测量无疑是有误差的。这些问题会引起不同方向的最小二乘偏差,因此总体偏差效应尚不清楚。

为了纠正内生性偏差,作者认为需要一个不直接影响经济表现但与政治制度相关的工具变量。他们的创新建议是使用 \(19^{t h}\) 世纪潜在欧洲定居者所面临的死亡率。预期死亡率较高的殖民地对欧洲定居者的吸引力较低,导致欧洲移民数量较低。因此,作者预计这些殖民地更有可能被构建为一个榨取型国家,而不是一个移民殖民地。为了衡量预期死亡率,作者使用了历史研究提供的每 1000 名士兵年死亡人数的估计值,标记为死亡率。 (他们使用军队死亡率,因为军队保持着高质量的记录。)第一阶段回归是

\[ \text { risk }=\underset{(0.13)}{-0.61} \log (\text { mortality })+\widehat{u} . \]

这些估计证实 \(19^{t h}\) 世纪的高死亡率与质量较低的现代机构有关。他们使用 \(\log\)(死亡率)作为风险工具,使用 2SLS 估计结构方程并报告

\[ \log (\text { GDP per Capita })=\begin{gathered} 0.94 \text { risk. } \\ (0.16) \end{gathered} \]

该估计值远高于 OLS 估计值 (12.86)。由于风险指数相差 1 个单位,这一估计与 GDP 几乎翻倍是一致的。

这些是仅涉及一个右侧变量的简单回归。作者考虑了一系列其他模型。这些结果包括对传统发现的逆转。在传统的最小二乘回归中,输出的两个相关变量是纬度(距赤道的距离)和非洲(非洲国家的虚拟变量),这两个变量都很难解释因果关系。但在所提出的工具变量回归中,变量纬度和非洲的系数要小得多且在统计上不显着。为了评估规格,我们可以使用 Stock-Yogo 和内生性测试。 Stock-Yogo 测试来自简化形式 (12.87)。该工具的 t 比率为 \(4.8\) (或 \(F=23\) ),超过了 StockYogo 临界值,因此可以视为强工具。对于内生性检验,我们从该方程中取出最小二乘残差 \(\widehat{u}\) 并将其包含在结构方程中并通过最小二乘进行估计。我们发现 \(\widehat{u}\) 上的系数为 \(-0.57\),t 比为 \(4.7\),该系数非常显着。我们得出结论,最小二乘法和 2SLS 估计值在统计上是不同的,并拒绝变量风险对于 GDP 结构方程是外生的假设。

在练习 \(12.22\) 中,您将使用作者的数据复制和扩展这些结果。

本文是对工具变量的创造性和谨慎的运用。创造力源于历史分析,该分析导致人们关注死亡率作为移民选择的潜在预测因素。由于作者需要从不同来源收集有关政治制度和死亡率的国家级数据,因此在实施过程中需要注意。将这些部分组合在一起是该项目的艺术。

12.41 示例:安格里斯特和克鲁格 (1991)

另一个有影响力的工具变量回归是 Angrist 和 Krueger (1991)。与卡德(Card,1995)类似,他们关注的是在将教育程度视为内生性的同时估计教育的结构回报。与卡德一样,他们的目标是找到一种对工资来说是外生的但对教育有影响的工具。他们的数据子集位于教科书网站上的文件 AK1991 中。

他们的创造性建议是关注义务教育入学政策及其与出生日期的相互作用。美国各州的义务教育法各不相同,但通常要求青少年继续上学直到十六岁或十七岁生日。安格里斯特和克鲁格认为,义务教育对工资有因果影响——那些选择辍学的年轻人会在学校呆更长的时间——因此接受更多的教育,这会影响他们成年后的收入。

安格里斯特和克鲁格观察到,这些政策对学年早或晚出生的青少年有不同的影响。早出生的学生入学时通常年龄较大。因此,当他们达到法定辍学年龄时,他们上学的人数少于年底出生的人。这意味着出生日期(日历年的早与晚)会外生地影响教育程度,从而影响通过教育获得的工资。然而,出生日期对于结构工资方程来说必须是外生的,因为没有理由相信出生日期本身对一个人的能力或工资有因果影响。这些考虑因素共同表明,出生日期是因果工资方程中教育的有效工具变量。

典型的工资数据集包括年龄,但不包括出生日期。为了获取出生日期信息,安格里斯特和克鲁格使用了美国人口普查数据,其中包括个人出生的季度(一月至三月、四月六月等)。他们使用这个变量来构建教育回报的 2SLS 估计。

他们的论文仔细记录了教育程度随出生季度的变化而变化(如上述讨论所预测),并报告了大量的最小二乘法和 2SLS 估计值。我们重点关注其分析核心的两个估计,在表 \(\mathrm{V}\) 和 VII 的第 (6) 列中报告。这涉及 1980 年人口普查的数据,其中包括 1930 年至 1939 年出生的男性,共有 329,509 个观察值。第一个方程是

其中 \(e d u\) 是受教育年限,黑人、城市和已婚是虚拟变量,表示种族(黑人为 1,否则为 0)、居住在大都市地区以及是否已婚。除了报告的系数之外,该方程还包括九个出生年份的虚拟变量和八个居住地区的虚拟变量作为回归量。该方程由 2 SLS 估计。工具变量是四分之三出生时间乘以十个出生年份虚拟变量的 30 次交互作用。

该等式表明,每受教育一年,工资就会增加 \(8 %\)

安格里斯特和克鲁格观察到,义务教育法的影响可能因州而异,因此扩大工具集以包括与出生州的相互作用。他们通过 2 SLS 估计以下方程

该方程还添加了 50 个出生状态虚拟变量作为回归量。工具变量是出生季度与出生年份虚拟变量的 180 个交互作用,加上出生季度与出生状态的交互作用。

该方程显示了与(12.89)中类似的教育对工资的估计因果效应。更值得注意的是,(12.90) 中的标准误差较小,表明扩展的工具变量集提高了精度。

然而,这些估计似乎对于弱工具和许多工具来说都是极好的候选者。事实上,这篇论文(发表于 1991 年)帮助激发了这两篇文献。我们可以使用 Stock-Yogo 工具来探索工具强度以及对 Angrist-Krueger 估计的影响。

我们首先取方程(12.89)。使用原始 Angrist-Krueger 数据,我们估计相应的简化形式并计算 30 个排除工具的 \(F\) 统计量。我们找到\(F=4.8\)。它的渐近 p 值为 \(0.000\),表明我们可以拒绝(在任何显着性水平上)排除工具的系数为零的假设。因此,安格里斯特和克鲁格似乎是正确的,即四分之一的出生有助于解释教育程度,因此是一个有效的工具变量集。然而,使用 Stock-Yogo 测试,\(F=4.8\) 不足以拒绝工具较弱的假设。具体来说,对于 \(\ell_{2}=30\)\(15 %\) 大小,\(F\) 统计量的临界值为 45 。 \(4.8\) 的实际值远低于 45。由于我们不能否认这些工具很弱,这表明我们无法将 (12.89) 中的 2SLS 估计和检验统计数据解释为可靠。

其次,使用扩展的回归器和工具集取 (12.90)。估计相应的简化形式,我们发现 180 个排除工具的 \(F\) 统计量为 \(\mathrm{F}=2.43\),它也具有 \(0.000\) 的渐近 p 值,表明我们可以在任何显着性水平上拒绝排除工具没有的假设对受教育程度的影响。然而,使用 Stock-Yogo 测试,我们也不能拒绝工具较弱的假设。虽然 Stock 和 Yogo 没有计算 \(\ell_{2}=180\) 的临界值,但 \(\ell_{2}\) 中的 2 个 SLS 临界值正在增加,因此我们可以将 \(\ell_{2}=30\) 的临界值用作下限。 \(\mathrm{F}=2.43\) 的观察值远远低于显着性所需的水平。因此,(12.90) 中的结果不能被视为可靠。特别是,(12.90)中的标准误差小于(12.89)中的标准误差这一观察结果不应被解释为精度更高的证据。相反,它们应该被视为由于仪器薄弱而导致不可靠的证据。

当工具较弱时,一项建设性建议是使用 LIML 估计而不是 2SLS。另一个建设性的建议是改变仪表组。虽然安格里斯特和克鲁格使用了大量的工具变量,但我们可以考虑较小的集合。取方程(12.89)。与其使用 30 个交互工具来估计,不如考虑仅使用四分之三出生的虚拟变量。我们在此报告简化形式的估计:

其中 \(Q_{2}, Q_{3}\)\(Q_{4}\)\(2^{n d}, 3^{r d}\)\(4^{t h}\) 季度出生的虚拟变量。该回归还包括九个出生年份和八个居住地区虚拟变量。

(12.91) 中四分之一出生假人的简化形式系数具有指导意义。这些系数为正且不断增加,这与安格斯特-克鲁格假设一致,即当年出生较晚的人平均受教育程度较高。关注弱工具问题,排除这三个变量的 \(F\) 测试是 \(\mathrm{F}=31\)。对于 \(\ell_{2}=3\) 和大小 \(15 %\),Stock-Yogo 临界值为 \(12.8\);对于 \(10 %\) 大小,Stock-Yogo 临界值为 \(22.3\)。由于 \(F=31\) 超过了这两个阈值,我们可以拒绝这种简化形式较弱的假设。使用我们发现的这三种工具通过 2SLS 估计模型

这些估计表明,教育对工资的因果影响稍大(10%),但标准误差较大。 Stock-Yogo 分析表明,我们可以将这些估计值的置信区间解释为具有渐近覆盖 \(85 %\)

虽然安格斯特-克鲁格最初的估计因仪器薄弱而受到影响,但他们的论文是对自然实验方法的非常有创意和深思熟虑的应用。他们发现了世界上存在的一种完全外生的变化——出生日期——并展示了这种变化如何对教育程度以及收入产生微小但可测量的影响。他们对这种自然实验回归的精心设计非常聪明,并展示了一种可以成功地成为有效工具变量实证分析基础的分析风格。

12.42 编程

我们现在为本章中报告的一些实证工作提供 Stata 代码。

Stata 做卡片文件示例 使用Card1995.dta,清除

设置更多

gen exp = 年龄 \(76-\) ed \(76-6\)

生成 \(\exp 2=\left(\exp ^{\wedge} 2\right) / 100\)

  • 删除缺少工资的观察结果

如果 lwage \(76==.\) 则下降

  • \(12.1\) 回归

reg lwage76 ed76 exp exp2 黑色 reg76r smsa76r, \(r\)

ivregress 2 sls lwage76 exp exp2 黑色 reg76r smsa76r (ed76=nearc4), r

ivregress 2 sls lwage76 黑色 reg76r smsa76r (ed76 exp exp2 \(=\) 近c4age76age2),r 完美

ivregress 2sls lwage76 exp exp2 黑色 reg76r smsa76r (ed76=nearc4a nearc4b), \(\mathrm{r}\)

ivregress 2 sls lwage76 黑色 reg76r smsa76r(ed76 exp exp2 \(=\) closec4a closec4b Age76 Age2),\(r\) 完美

ivregress liml lwage76 exp exp2 黑色 reg76r smsa76r (ed76=nearc4a closec4b), \(r\)

  • \(12.2\) 回归

reg lwage76 exp exp2 黑色 reg76r smsa76r nearc4,\(r\)

reg ed76 exp exp2 黑色 reg76r smsa76r nearc4, \(r\)

reg ed76 黑色 reg76r smsa76r 近c4 年龄76 年龄2,\(r\)

reg exp 黑色 reg76r smsa76r 近c4 年龄76 年龄2,\(r\)

reg exp2 黑色 reg76r smsa76r 近c4 年龄76 年龄2,\(r\)

reg ed76 exp exp2 黑色 reg76r smsa76r 近c4a 近c4b,\(r\)

reg lwage76 ed76 exp exp2 smsa76r reg76r,\(r\)

reg lwage76 closec4 exp exp2 smsa76r reg76r,\(r\)

reg ed76 nearc4 exp exp2 smsa76r reg76r, \(r\)

Stata 为 Acemoglu-Johnson-Robinson 示例创建文件 使用AJR2001.dta,清除

reg loggdp 风险

reg 风险 logmort0

预测\(u\),残差

ivregress 2sls loggdp(风险=logmort0)

reg loggdp 风险 \(u\)

Stata do File for Angrist-Krueger Example
use AK1991.dta, clear
ivregress 2sls logwage black smsa married i.yob i.region (edu = i.qob#i.yob)
ivregress 2sls logwage black smsa married i.yob i.region i.state (edu \(=\)
i.qob#i.yob i.qob#i.state)
reg edu black smsa married i.yob i.region i.qob#i.yob
testparm i.qob#i.yob
reg edu black smsa married i.yob i.region i.state i.qob#i.yob i.qob#i.state
testparm i.qob#i.yob i.qob#i.state
reg edu black smsa married i.yob i.region i.qob
testparm i.qob
ivregress 2sls logwage black smsa married i.yob i.region (edu = i.qob)

12.43 练习

练习 12.1 考虑单方程模型 \(Y=Z \beta+e\),其中 \(Y\)\(Z\) 都是实值 \((1 \times 1)\)。让 \(\widehat{\beta}\) 表示 \(\beta\) 的 IV 估计器,使用虚拟变量 \(D\) 作为工具(仅采用值 0 和 1)。在此上下文中找到 IV 估计器的简单表达式。

练习 12.2 采用 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[e \mid X]=0\) 的线性模型。假设 \(\sigma^{2}(x)=\mathbb{E}\left[e^{2} \mid X=x\right]\) 已知。表明 \(\beta\) 的 GLS 估计器可以使用某种工具 \(Z\) 编写为 IV 估计器。 (找出 \(Z\) 的表达式。)

练习12.3 采用线性模型\(Y=X^{\prime} \beta+e\)。令 \(\beta\) 的 OLS 估计量为 \(\widehat{\beta}\),OLS 残差为 \(\widehat{e}_{i}\)。令使用某种工具 \(Z\)\(\beta\) 的 IV 估计器为 \(\widetilde{\beta}\),IV 残差为 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}\)。如果 \(X\) 确实是内生的,那么 IV 是否会比 OLS 更好地“拟合”\(Y=X^{\prime} \beta+e\)(至少在大样本中)?

练习 12.4 回归量 \(X\) 和工具 \(Z\) 之间的简化形式采用 \(X=\Gamma^{\prime} Z+u\) 形式,其中 \(X\)\(k \times 1, Z\)\(\ell \times 1\)\(\Gamma\)\(\ell \times k\)。参数 \(\Gamma\) 由总体矩条件 \(X\) 定义。证明 \(X\) 的矩估计器方法是 \(X\)

练习12.5 在带有\(X=\Gamma^{\prime} Z+u\)\(\Gamma \ell \times k, \ell \geq k\)的结构模型\(Y=X^{\prime} \beta+e\)中,我们声称\(\beta\)被识别(可以从简化形式中恢复)的必要条件是\(\operatorname{rank}(\Gamma)=k\)。解释为什么这是真的。也就是说,表明如果 \(\operatorname{rank}(\Gamma)<k\)\(\beta\) 未被识别。

练习12.6 对于定理\(12.3\),建立\(\widehat{\boldsymbol{V}}_{\beta} \underset{p}{\longrightarrow} \boldsymbol{V}_{\beta}\)

练习12.7 采用线性模型\(Y=X^{\prime} \beta+e\)\(\mathbb{E}[e \mid X]=0\),其中\(X\)\(\beta\)\(1 \times 1\)

  1. 显示 \(\mathbb{E}[X e]=0\)\(\mathbb{E}\left[X^{2} e\right]=0\)\(Z=\left(\begin{array}{ll}X & X^{2}\end{array}\right)^{\prime}\) 是估计 \(\beta\) 的有效工具吗?

  2. 使用 \(Z\) 作为 \(X\) 的工具定义 \(\beta\) 的 2SLS 估计器。这与 OLS 有什么不同?练习12.8 假设价格和数量由线性需求曲线和供给曲线的交点决定

\[ \begin{aligned} \text { Demand: } & Q=a_{0}+a_{1} P+a_{2} Y+e_{1} \\ \text { Supply: } & Q=b_{0}+b_{1} P+b_{2} W+e_{2} \end{aligned} \]

其中收入 \((Y)\) 和工资 \((W)\) 是在市场之外确定的。该模型中的参数是否已确定?

练习 12.9 考虑模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[e \mid Z]=0\)\(Y\) 标量以及 \(X\)\(Z\) 各一个 \(k\) 向量。您有一个随机样本 \(\left(Y_{i}, X_{i}, Z_{i}: i=1, \ldots, n\right)\)

  1. 假设 \(X\) 是外生的,就 \(\mathbb{E}[e \mid Z, X]=0\) 而言。 IV 估计器 \(\widehat{\beta}_{\mathrm{iv}}\) 是否无偏?

  2. 继续假设 \(X\) 是外生的,求条件协方差矩阵 \(\operatorname{var}\left[\widehat{\beta}_{\text {iv }} \mid \boldsymbol{X}, \boldsymbol{Z}\right]\)

练习12.10 考虑模型

\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ X &=\Gamma^{\prime} Z+u \\ \mathbb{E}[Z e] &=0 \\ \mathbb{E}\left[Z u^{\prime}\right] &=0 \end{aligned} \]

其中 \(Y\) 标量以及 \(X\)\(Z\) 各有一个 \(k\) 向量。您有一个随机样本 \(\left(Y_{i}, X_{i}, Z_{i}: i=1, \ldots, n\right)\)。采用控制函数方程 \(e=u^{\prime} \gamma+v\)\(\mathbb{E}[u v]=0\),并为简单起见假设观察到 \(u\)。代入结构方程我们发现\(Y=Z^{\prime} \beta+u^{\prime} \gamma+v\)。控制函数估计器 \(Y\) 是该方程的 OLS 估计。

  1. 显示 \(\mathbb{E}[X v]=0\) (代数)。

  2. 推导 \((\widehat{\beta}, \widehat{\gamma})\) 的渐近分布。

练习12.11 考虑结构方程

\[ Y=\beta_{0}+\beta_{1} X+\beta_{2} X^{2}+e \]

\(X \in \mathbb{R}\) 视为内生的,以便 \(\mathbb{E}[X e] \neq 0\) 。我们有一个工具 \(Z \in \mathbb{R}\) 满足 \(\mathbb{E}[e \mid Z]=0\),特别是 \(\mathbb{E}[e]=0, \mathbb{E}[Z e]=0\)\(\mathbb{E}\left[Z^{2} e\right]=0\)

  1. \(X^{2}\) 应该被视为内生的还是外生的?

  2. 假设我们有一个标量工具 \(Z\) 满足

\[ X=\gamma_{0}+\gamma_{1} Z+u \]

\(u\) 独立于 \(Z\) 并且均值为零。

考虑使用 \(\left(1, Z, Z^{2}\right.\) ) 作为工具。仪器数量是否足够? (12.93) 是刚刚识别、过度识别还是识别不足?

  1. 写出 \(X^{2}\) 的简化形式方程。在简化形式参数(12.94)的什么条件下,(12.93)中的参数被识别?练习12.12 考虑结构方程和简化形式

\[ \begin{aligned} Y &=\beta X^{2}+e \\ X &=\gamma Z+u \\ \mathbb{E}[Z e] &=0 \\ \mathbb{E}[Z u] &=0 \end{aligned} \]

\(X^{2}\) 视为内生的,以便 \(\mathbb{E}\left[X^{2} e\right] \neq 0\) 。为简单起见,假设没有截距。 \(Y, Z\)\(X\) 是标量。假设\(\gamma \neq 0\)。考虑以下估计器。首先,通过 \(X\)\(Z\) 上的 OLS 估计 \(\gamma\) 并构造拟合值 \(\widehat{X}_{i}=\widehat{\gamma} Z_{i}\)。其次,通过 \(X^{2}\)\(X^{2}\) 的 OLS 估计 \(X^{2}\)

  1. 将此估计量 \(\widehat{\beta}\) 显式写为样本的函数。

  2. 求其概率极限为 \(n \rightarrow \infty\)

  3. 一般来说,\(\widehat{\beta}\)\(\beta\) 一致吗?是否存在使 \(\widehat{\beta}\) 一致的合理条件?

练习 12.13 考虑结构方程 \(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)\(\mathbb{E}[Z e]=0\),其中 \(Y_{2}\)\(k_{2} \times 1\),并被视为内生方程。变量 \(Z=\left(Z_{1}, Z_{2}\right)\) 被视为外生变量,其中 \(Z_{2}\)\(\ell_{2} \times 1\)\(\ell_{2} \geq k_{2}\)。您有兴趣检验假设 \(\mathbb{H}_{0}: \beta_{2}=0\)

考虑 \(Y_{1}\) 的简化形式方程

\[ Y_{1}=Z_{1}^{\prime} \lambda_{1}+Z_{2}^{\prime} \lambda_{2}+u_{1} . \]

展示如何仅使用 (12.95) 的 OLS 估计值来测试 \(\mathbb{M}_{0}\)

提示:这需要分析简化形式方程及其与结构方程的关系。

练习12.14 建立线性工具变量方程\(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)\(\mathbb{E}[Z e]=0\),其中\(Z_{1}\)\(k_{1} \times 1, Y_{2}\)\(k_{2} \times 1\)\(Z\)\(\ell \times 1\),还有\(\ell \geq k=k_{1}+k_{2}\)。样本大小为 \(n\)。假设 \(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)\(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)\(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\) 具有满秩 \(Y_{1}=Z_{1}^{\prime} \beta_{1}+Y_{2}^{\prime} \beta_{2}+e\)

假设数据集中只有 \(\left(Y_{1}, Z_{1}, Z_{2}\right)\) 可用,而 \(Y_{2}\) 缺失。

考虑 \(\beta_{1}\) 的 2SLS 估计器 \(\widehat{\beta}_{1}\),仅使用 \(Z_{2}\) 作为 \(Z_{1}\) 的工具,从 \(Y_{1}\)\(Z_{1}\) 上错误指定的 IV 回归获得。

  1. 找到随机分解 \(\widehat{\beta}_{1}=\beta_{1}+b_{1 n}+r_{1 n}\),其中 \(r_{1 n}\) 取决于误差 \(e\),而 \(b_{1 n}\) 不取决于误差 \(e\)

  2. \(r_{1 n} \rightarrow p 0\) 显示为 \(n \rightarrow \infty\)

  3. \(b_{1 n}\)\(\widehat{\beta}_{1}\) 的概率极限为 \(n \rightarrow \infty\)

  4. \(\widehat{\beta}_{1}\) 是否存在“遗漏变量偏差”?解释。什么条件下不存在遗漏变量偏差?

  5. \(\sqrt{n}\left(\widehat{\beta}_{1}-\beta_{1}-b_{1 n}\right)\) 的渐近分布为 \(n \rightarrow \infty\)

练习12.15 建立线性工具变量方程\(Y_{1}=Z \beta_{1}+Y_{2} \beta_{2}+e\)\(\mathbb{E}[e \mid Z]=0\),其中\(X\)\(Z\)都是标量\(1 \times 1\)

  1. 能否使用 \(Z\) 作为 \(Y_{2}\) 的工具,通过 2 个 SLS 来估计系数 \(\left(\beta_{1}, \beta_{2}\right)\)

为什么或者为什么不? (b) 系数 \(\left(\beta_{1}, \beta_{2}\right)\) 可以使用 \(Z\)\(Z^{2}\) 作为工具通过 2SLS 进行估计吗?

  1. 对于 (b) 中建议的 2SLS 估计量,隐式排除限制是什么?

    1. 中关于工具相关性的隐含假设是什么?

[提示:写下 \(Y_{2}\) 隐含的简化形式方程。]

  1. 在一般应用中,您对 (c) 和 (d) 中的假设感到满意吗?

练习12.16 采用具有内生性的线性方程和刚刚确定的线性简化形式\(Y=\) \(X \beta+e\)\(X=\gamma Z+u_{2}\),其中\(X\)\(Z\) 都是标量\(1 \times 1\)。假设 \(\mathbb{E}[Z e]=0\)\(\mathbb{E}\left[Z u_{2}\right]=0\)

  1. 推导简化形式方程 \(Y=Z \lambda+u_{1}\)。如果 \(\gamma \neq 0\) 则表明 \(\beta=\lambda / \gamma\),并且表明 \(\mathbb{E}[Z u]=0\)

  2. \(\widehat{\lambda}\) 表示 \(Y\)\(Z\) 上的线性回归的 OLS 估计,让 \(\widehat{\gamma}\) 表示 \(X\)\(Z\) 上的线性回归的 OLS 估计。写入 \(\theta=(\lambda, \gamma)^{\prime}\) 并设 \(\widehat{\theta}=(\widehat{\lambda}, \widehat{\gamma})^{\prime}\)。定义 \(u=\left(u_{1}, u_{2}\right)\)。使用单个表达式编写 \(\widehat{\lambda}\) 作为错误 \(\widehat{\lambda}\) 的函数。

  3. 显示\(\mathbb{E}[Z u]=0\)

  4. \(\sqrt{n}(\widehat{\theta}-\theta)\) 的联合渐近分布推导为 \(n \rightarrow \infty\)。提示:定义\(\Omega_{u}=\mathbb{E}\left[Z^{2} u u^{\prime}\right]\)

  5. 使用先前的结果和 Delta 方法求出间接最小二乘估计量 \(\widehat{\beta}=\widehat{\lambda} / \widehat{\gamma}\) 的渐近分布。

    1. 中的答案与定理 12.2 中 2SLS 估计量的渐近分布相同吗?提示:显示\(\left(\begin{array}{ll}1 & -\beta\end{array}\right) u=e\)\(\left(\begin{array}{cc}1 & -\beta\end{array}\right) \Omega_{u}\left(\begin{array}{c}1 \\ -\beta\end{array}\right)=\mathbb{E}\left[Z^{2} e^{2}\right]\)

练习 12.17 采用模型 \(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\) 并考虑两阶段最小二乘估计器。第一阶段估计是 \(X\)\(Z\) 上的最小二乘,最小二乘拟合值 \(\widehat{X}\)。第二阶段是 \(Y\)\(\widehat{X}\) 上的最小二乘,使用系数估计器 \(\widehat{\beta}\) 和最小二乘残差 \(\widehat{e}_{i}=\) \(Y=X^{\prime} \beta+e\)。将 \(Y=X^{\prime} \beta+e\) 视为 \(Y=X^{\prime} \beta+e\) 的估计器。这合适吗?如果不是,请提出替代估计器。

练习 12.18 你有两个独立的 i.i.d.样本 \(\left(Y_{1 i}, X_{1 i}, Z_{1 i}: i=1, \ldots, n\right)\)\(\left(Y_{2 i}, X_{2 i}, Z_{2 i}: i=\right.\) \(1, \ldots, n\) )。因变量 \(Y_{1}\)\(Y_{2}\) 是实值。回归量 \(X_{1}\)\(X_{2}\) 以及工具 \(Z_{1}\)\(Z_{2}\)\(\left(Y_{1 i}, X_{1 i}, Z_{1 i}: i=1, \ldots, n\right)\) 向量。该模型是标准刚刚确定的线性工具变量

\[ \begin{aligned} Y_{1} &=X_{1}^{\prime} \beta_{1}+e_{1} \\ \mathbb{E}\left[Z_{1} e_{1}\right] &=0 \\ Y_{2} &=X_{2}^{\prime} \beta_{2}+e_{2} \\ \mathbb{E}\left[Z_{2} e_{2}\right] &=0 . \end{aligned} \]

具体来说,样本1是女性,样本2是男性。您想要测试 \(\mathbb{M}_{0}: \beta_{1}=\beta_{2}\),这两个样本具有相同的系数。

  1. \(\mathbb{H}_{0}\) 开发检验统计量。

  2. 推导检验统计量的渐近分布。 (c)(简要地)描述测试程序。

练习 12.19 您想要使用家庭数据来估计模型 \(Y=X \beta+e\) 中的 \(\beta\),模型 \(X\) 是标量和内生的,并使用居住状态作为工具。

  1. 需要什么假设来证明这种工具选择的合理性?

  2. 模型是刚刚被识别还是过度识别?

练习12.20 模型是\(Y=X^{\prime} \beta+e\)\(\mathbb{E}[Z e]=0\)。一位经济学家想要获得 \(\beta\) 的 2 个 SLS 估计值和标准误差。他使用以下步骤

  • \(Z\) 进行回归 \(X\),获得预测值 \(\widehat{X}\)

  • \(\widehat{X}\) 进行回归 \(Y\),从该回归中获得系数估计值 \(\widehat{\beta}\) 和标准误差 \(s(\widehat{\beta})\)。它是否正确?这是否会产生 2SLS 估计值和标准误差?

练习 12.21 在线性模型 \(Y=X \beta+e\)\(X \in \mathbb{R}\) 中,假设 \(\sigma^{2}(x)=\mathbb{E}\left[e^{2} \mid X=x\right]\) 已知。表明 \(\beta\) 的 GLS 估计器可以使用某些工具 \(Z\) 编写为工具变量估计器。 (找出 \(Z\) 的表达式。)

练习12.22 你将复制并扩展Acemoglu、Johnson 和Robinson (2001) 中报告的工作。作者在发布 2012 年扩展并将数据发布到 AER 网站时提供了一组扩展的控件。这个数据集是教材网站上的A JR2001。

  1. 估计 OLS 回归 (12.86)、简化形式回归 (12.87) 和 2SLS 回归 (12.88)。 (哪个点估计值与报告值相差\(0.01\)?这是经验复制中的常见现象)。

  2. 对于上述估计,计算同方差和异方差稳健标准误差。作者使用了哪些(如 (12.86)-(12.87)-(12.88) 中报告的?)

  3. 通过间接最小二乘公式计算 2SLS 估计值。它们是一样的吗?

  4. 通过两阶段方法计算 2SLS 估计。它们是一样的吗?

  5. 通过控制变量方法计算 2SLS 估计值。它们是一样的吗?

  6. Acemoglu、Johnson 和 Robinson(2001)报告了许多规范,包括替代回归控制,例如纬度和非洲。通过最小二乘估计 logGDP 的方程,添加纬度和非洲作为回归量。这种回归是否表明纬度和非洲可以预测 GDP 水平?

  7. 现在估计与 (f) 中相同的方程,但使用 log(死亡率) 作为风险工具,通过 2SLS 进行估计。对纬度和非洲影响的解释有何变化?

  8. 返回我们的基线模型(不包括纬度和非洲)。作者的简化形式方程使用 \(\log\)(死亡率)作为工具,而不是死亡率水平。以死亡率为工具估计风险的简化形式。 (数据集中未提供此变量,因此您需要采用 \(\log\)(死亡率)的指数。)您能否解释为什么作者更喜欢 \(\log (\) 死亡率的方程)? (i) 尝试另一种简化形式,包括 \(\log\)(死亡率)和 \(\log (\) 死亡率的平方)。解释结果。使用 \(\log (\) 死亡率) 及其平方作为工具,通过 2 SLS 重新估计结构方程。结果如何变化?

  9. 对于 (i) 中的估计,使用 Stock-Yogo 测试的工具是强还是弱?

  10. 计算并解释仪器的外生性检验。

  11. 使用工具 \(\log (\) 死亡率) 和 \(\log (\) 死亡率) 的平方通过 LIML 估计方程。

练习 12.23 在练习 12.22 中,你扩展了 Acemoglu、Johnson 和 Robinson (2001) 中报告的工作。考虑 2SLS 回归 (12.88)。通过渐近公式和使用大量 \((10,000)\) 引导复制的引导来计算标准误差。重新计算引导程序标准误差。评论 IV 回归的 bootstrap 标准误差的可靠性。

练习 12.24 你将复制并扩展与 Card (1995) 有关的章节中报告的工作。数据来自作者网站,发布号为Card1995。我们关注的模型在表 \(12.1\) 中标记为 2SLS(a),它使用公共和私有作为 edu 的工具。本练习需要的变量包括 lwage76、ed76、age76、smsa76r、reg76r、nearc2、nearc4、nearc4a、nearc4b。有关定义,请参阅描述文件。经验不在数据集中,因此需要生成为age-edu-6。

  1. 首先,复制表 12.2 最后一列中提供的简化形式回归和上述 2SLS 回归(使用公共和私有作为 \(e d u\) 的工具)以验证您是否具有相同的变量定义。

  2. 尝试不同的简化形式模型。变量nearc2 的意思是“在两年制大学附近长大”。看看将其添加到简化形式的方程中是否有用。

  3. 尝试更多简化形式的交互。创建nearc \(4 a^{*}\) Age 76 和nearc \(4 a^{*}\) Age \(76^{2} / 100\) 的交互作用,并将它们添加到简化形式的方程中。通过最小二乘法估计这一点。解释两个新变量的系数。

  4. 使用扩展工具集 \(\left\{\right.\) nearc \(4 a\)、nearc \(4 b\)、nearc \(4 a^{*}\) Age 76 、nearc \(4 a^{*}\) Age \(\left.76^{2} / 100\right\}\) 通过 2SLS 估计结构方程。

这对学校教育回归的结构性估算有什么影响?

  1. 使用 Stock-Yogo 测试,工具是强还是弱?

  2. 检验 \(e d u\) 对于学校教育的结构回报而言是外生的假设。

  3. 通过 LIML 重新估计最后一个方程。结果改变有意义吗?

练习 12.25 在练习 12.24 中,你扩展了 Card (1995) 中报告的工作。现在,估计与表 12.1 的 IV(a) 列相对应的 IV 方程,它是 Card 中考虑的基线规范。使用 bootstrap 计算 BC 百分位数置信区间。在此示例中,我们是否还应该报告引导程序标准错误?

练习 12.26 您将使用教科书网站上的数据文件 AK1991 来扩展 Angrist 和 Krueger (1991)。他们的表 VIII 报告了对 26,913 名黑人子样本的 (12.90) 的类似估计。使用该子样本进行以下分析。 (a) 估计一个与 (12.90) 形式相同的方程,具有相同的附加回归量(出生年份、居住地区和出生状态虚拟变量)和 180 个排除的工具变量(相互作用四分之一出生时间、出生年份虚拟变量和四分之一出生时间与出生状态相互作用),但使用黑人男性的子样本。必须省略一个回归量才能实现识别。这是哪个变量?

  1. 通过最小二乘法估计上述方程的简化形式。计算排除工具的 \(F\) 统计数据。您对这些仪器的强度有何结论?

  2. 重复,估计 (12.89) 的类似物的简化形式,其中排除了 30 个工具变量,并且在回归中不包括出生状态虚拟变量。您对这些仪器的强度有何结论?

  3. 重复,估计 (12.92) 的类似物的简化形式,其中只有 3 个排除的工具变量。这些工具对于 2SLS 估计是否足够强大?对于 LIML 估计?

  4. 使用您认为最合适的回归量、工具和最合适的估计方法来估计结构工资方程。 (黑人子样本)的估计教育回报是多少及其标准误差?如果不进行正式的假设检验,这些结果(或以何种方式?)是否与完整样本的结果有显着差异?

练习 12.27 在练习 12.26 中,你通过估计黑人子样本的工资方程扩展了 Angrist 和 Krueger (1991) 中报告的工作。仅使用四分之三出生的虚拟变量作为工具,重新估计该组的方程(12.92)。通过渐近法和自举法计算教育回报的标准误差。计算 BC 百分位间隔。在 2SLS 的这个应用中,报告引导标准错误是否合适?