Call:
AER::ivreg(formula = mod_tsls_pp, data = tbl_reg)
Residuals:
Min 1Q Median 3Q Max
-1.93985 -0.25152 0.01722 0.27365 1.48154
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.26801 0.68718 4.756 2.07e-06 ***
edu 0.16109 0.04077 3.951 7.96e-05 ***
exp 0.11931 0.01818 6.564 6.16e-11 ***
exp2 -0.23054 0.03503 -6.582 5.46e-11 ***
black -0.10173 0.04531 -2.245 0.0248 *
south -0.09504 0.02165 -4.389 1.18e-05 ***
urban 0.11645 0.02705 4.305 1.73e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4108 on 3003 degrees of freedom
Multiple R-Squared: 0.1447, Adjusted R-squared: 0.143
Wald test: 111 on 6 and 3003 DF, p-value: < 2.2e-16
工具变量法是处理内生性问题的重要方法,但当工具变量数量超过内生变量数量时,模型会出现过度识别问题。本文基于Hansen教材12.31节内容,系统阐述了过度识别检验的理论基础、Sargan统计量的计算方法及其经济含义。通过复现Card(1995)数据,我们构建了两个过度识别模型:第一个模型以教育年限为内生变量,公立和私立大学接近度为工具变量;第二个模型扩展至教育年限、工作经验及其平方项为内生变量,相应增加年龄及其平方项作为工具变量。实证结果表明,两个模型的Sargan检验均支持工具变量的外生性假设,验证了模型设定的合理性,为教育回报率估计提供了可靠的实证基础。

1 理论分析
1.1 过度识别检验的定义
当 \(\ell>k\) 时,模型是过度识别的,这意味着矩条件数量多于自由参数数量。这是一个约束条件,是可以检验的。这样的检验被称为过度识别检验。
工具变量模型规定 \(\mathbb{E}[Z e]=0\)。等价地,由于 \(e=Y-X^{\prime} \beta\),这可以表示为:
\[ \mathbb{E}[Z Y]-\mathbb{E}\left[Z X^{\prime}\right] \beta=0 \]
这是对矩矩阵 \(\mathbb{E}[Z Y]\) 和 \(\mathbb{E}\left[Z X^{\prime}\right]\) 的 \(\ell \times 1\) 向量约束。然而,由于 \(\beta\) 的维度是 \(k\),小于 \(\ell\),因此不能确定是否确实存在这样的 \(\beta\)。
1.2 过度识别检验的原理
为了更具体地说明,假设有一个内生回归变量 \(X_{2}\),没有 \(X_{1}\),以及两个工具变量 \(Z_{1}\) 和 \(Z_{2}\)。那么模型规定:
\[ \mathbb{E}\left[Z_{1} Y\right]=\mathbb{E}\left[Z_{1} X_{2}\right] \beta \]
和
\[ \mathbb{E}\left[Z_{2} Y\right]=\mathbb{E}\left[Z_{2} X_{2}\right] \beta \]
因此 \(\beta\) 同时满足两个方程。这是相当特殊的。
另一种思考方式是,我们可以使用其中一个方程或另一个方程来求解 \(\beta\)。在估计方面,这等价于仅使用工具变量 \(Z_{1}\) 进行IV估计,或者仅使用工具变量 \(Z_{2}\)。这两个估计量(在有限样本中)是不同的。如果过度识别假设是正确的,那么两者都在估计相同的参数,并且都对 \(\beta\) 是一致的。相反,如果过度识别假设是错误的,那么两个估计量将收敛到不同的概率极限,并且不清楚任何一个概率极限是否有意义。
例如,考虑表12.1第4列中使用公共(public)和私立(private)作为教育工具变量的2SLS估计。假设我们改为仅使用公共(public)作为工具变量进行IV估计,然后重复使用私立(private)。第一种情况下教育的IV系数是0.16,第二种情况下是0.27。这些看起来相当不同。然而,第二个估计有较大的标准误差(0.16),所以差异可能是抽样变异。过度识别检验解决了这个问题。
对于一般的过度识别检验,原假设和备择假设是 \(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\) 对 \(\mathbb{H}_{1}: \mathbb{E}[Z e] \neq 0\)。我们还将添加条件同方差假设:
\[ \mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2} \]
1.3 Sargan统计量的计算方法
为了实现对 \(\mathbb{H}_{0}\) 的检验,考虑误差 \(e\) 对工具变量 \(Z\) 的线性回归:
\[ e=Z^{\prime} \alpha+v \]
其中 \(\alpha=\left(\mathbb{E}\left[Z Z^{\prime}\right]\right)^{-1} \mathbb{E}[Z e]\)。我们可以将 \(\mathbb{H}_{0}\) 重写为 \(\alpha=0\)。虽然 \(e\) 不可观测,但我们可以用2SLS残差 \(\widehat{e}_{i}\) 替换它,并通过最小二乘回归估计 \(\alpha\),例如 \(\widehat{\alpha}=\left(Z^{\prime} \boldsymbol{Z}\right)^{-1} Z^{\prime} \widehat{\boldsymbol{e}}\)。Sargan(1958)提出了通过得分检验来检验 \(\mathbb{H}_{0}\),其等于:
\[ S=\widehat{\alpha}^{\prime}(\widehat{\operatorname{var}}[\widehat{\alpha}])^{-} \widehat{\alpha}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]
其中 \(\widehat{\sigma}^{2}=\frac{1}{n} \widehat{\boldsymbol{e}} \widehat{\boldsymbol{e}}\)。Basmann(1960)独立提出了 \(\mathbb{H}_{0}\) 的Wald统计量,它是将 \(\widehat{\sigma}^{2}\) 替换为 \(\widetilde{\sigma}^{2}=n^{-1} \widehat{\boldsymbol{v}} ' \widehat{\boldsymbol{v}}\) 的 \(S\),其中 \(\widehat{\boldsymbol{v}}=\widehat{\boldsymbol{e}}-\boldsymbol{Z} \widehat{\alpha}\)。由于同方差得分检验和Wald检验的等价性(见第9.16节),Basmann的统计量是Sargan统计量的单调函数,因此它们产生等价的检验。Sargan的版本更常被报告。
根据Hansen 12.31节的理论分析:
- 过度识别检验的原假设是 H0: E[Ze] = 0,即所有工具变量都与误差项不相关
- Sargan统计量在H0下渐近服从卡方分布,自由度为过度识别约束的数量
- 如果p值很小(<0.01),说明过度识别约束被违反,模型可能被错误设定
- 如果p值较大(>0.01),说明没有证据拒绝过度识别约束,支持模型设定
- 建议关注1%的显著性水平,因为轻微的拒绝(p值在1%-5%之间)应该谨慎解释
Sargan检验在 \(S>c\) 时拒绝 \(\mathbb{H}_{0}\) 而支持 \(\mathbb{H}_{1}\),其中 \(c\) 是某个临界值。渐近检验将 \(c\) 设置为 \(\chi_{\ell-k}^{2}\) 分布的 \(1-\alpha\) 分位数。这由 \(S\) 的渐近零分布证明,我们现在推导这个分布。
定理12.16 在假设12.2和 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 下,当 \(n \rightarrow \infty\) 时,\(S \underset{d}{\longrightarrow} \chi_{\ell-k}^{2}\)。对于满足 \(\alpha=1-G_{\ell-k}(c)\) 的 \(c\),\(\mathbb{P}\left[S>c \mid \mathbb{H}_{0}\right] \rightarrow \alpha\),因此检验”如果 \(S>c\) 则拒绝 \(\mathbb{H}_{0}\)“具有渐近显著性水平 \(\alpha\)。
Sargan统计量 \(S\) 是在条件同方差假设下过度识别约束的渐近检验。它有一些局限性。首先,它是一个渐近检验,没有有限样本(例如F)对应物。模拟证据表明,在小样本和中等样本量中,检验可能过度拒绝(拒绝过于频繁)。因此,p值应该谨慎解释。其次,条件同方差的假设在应用中是不现实的。将Sargan统计量推广到允许异方差的最佳方法是使用GMM过度识别统计量——我们将在第13章中研究。对于2SLS,Wooldridge(1995)建议了稳健得分检验,但Baum、Schaffer和Stillman(2003)指出它在数值上等价于GMM过度识别统计量。因此,底线似乎是,要允许异方差或聚类,最好使用GMM方法。
在过度识别应用中,报告过度识别检验总是明智的。如果检验不显著,这意味着过度识别约束没有被拒绝,支持估计的模型。如果过度识别检验统计量高度显著(如果p值非常小),这是过度识别约束被违反的证据。在这种情况下,我们应该担心模型被错误设定,解释参数估计应该谨慎进行。
在报告过度识别检验结果时,关注非常小的显著性水平(如1%)似乎是合理的。这意味着只有当Sargan p值非常小时(例如小于0.01),我们才应该将模型视为”被拒绝”。关注非常小的显著性水平的原因是很难解释”模型被拒绝”的结果。退一步说,任何过度识别模型在字面上都是真实的,这似乎不太可信;更可能可信的是过度识别模型是一个合理的近似。检验问的是”是否有证据表明模型不真实”的问题,而我们真正想知道的是”是否有证据表明模型是一个糟糕的近似”的答案。因此,需要强有力的证据才能得出”让我们拒绝这个模型”的结论似乎是合理的。建议是轻微的拒绝(p值在1%和5%之间)应该被视为轻微令人担忧,但不是反对模型的关键证据。过度识别检验的结果应该与其他信息整合,然后做出强有力的决定。
2 R代码复现
2.1 准备R环境
首先,加载相关R包。
本文复现使用的R脚本文件和数据集下载链接:
- R脚本文件:
code-overidentify.R - Card数据集:
Card1995.dta
2.2 模型1:内生变量为edu,工具变量为public和private
在第一个模型中,我们设定内生变量为教育年限(edu),工具变量为公立大学接近度(public)和私立大学接近度(private)。这是一个典型的过度识别模型,因为内生变量数量为1个(edu),而工具变量数量为2个(public和private),满足 \(\ell > k\) 的条件,其中 \(\ell = 2\),\(k = 1\)。
该模型的基本形式为:
\[ \text{lwage} = \beta_0 + \beta_1 \cdot \text{edu} + \beta_2 \cdot \text{exp} + \beta_3 \cdot \text{exp}^2 + \beta_4 \cdot \text{black} + \beta_5 \cdot \text{south} + \beta_6 \cdot \text{urban} + e \]
其中教育年限(edu)是内生变量,需要通过工具变量进行估计。工具变量包括:
- public:公立大学接近度,表示个体是否居住在公立大学附近
- private:私立大学接近度,表示个体是否居住在私立大学附近
外生变量包括工作经验(exp)、工作经验平方(exp²)、种族(black)、地区(south)和城镇(urban)。
过度识别检验的理论基础。根据Hansen 12.31节的理论分析,当 \(\ell > k\) 时,模型存在过度识别约束。在这个模型中,我们有两个矩条件:
\[ \mathbb{E}[\text{public} \cdot e] = 0 \]
\[ \mathbb{E}[\text{private} \cdot e] = 0 \]
其中 \(e = \text{lwage} - X'\beta\) 是结构方程的误差项。由于只有一个内生变量edu,这两个矩条件实际上是对同一个参数 \(\beta_1\) 的约束,因此存在过度识别。
使用2SLS方法估计模型,我们得到以下结果:
从估计结果可以看出,教育年限的系数为 0.161,标准误为 0.041,t统计量为 3.951。
我们使用Sargan统计量来检验过度识别约束的有效性。Sargan统计量的计算公式为:
\[ S = \frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]
其中 \(\widehat{\boldsymbol{e}}\) 是2SLS残差,\(\boldsymbol{Z}\) 是工具变量矩阵,\(\widehat{\sigma}^{2}\) 是误差方差的估计值。
AER包计算的Sargan检验结果:
df1 df2 statistic p-value
Weak instruments 2 3002 13.4953074 1.463030e-06
Wu-Hausman 1 3002 5.5569969 1.847081e-02
Sargan 1 NA 0.8205891 3.650080e-01
可以看到Sargan统计量、p值和自由度:
- Sargan统计量: 0.8206
- p值: 0.365
- 自由度: 1
手动计算的Sargan统计量验证:
- 手动计算的Sargan统计量: 0.8206
- 自由度: 1
- p值: 0.365
检验结果解释。根据Sargan检验的结果,p值为 0.365。根据Hansen的建议,我们关注1%的显著性水平。由于p值 大于 0.01,因此我们 不能拒绝 过度识别约束的原假设。
经济含义。该检验结果对于理解教育回报率的估计具有重要意义。如果过度识别检验不显著,说明使用公立大学接近度(public)和私立大学接近度(private)作为教育年限的工具变量是合理的,两个工具变量都满足外生性条件。这增强了我们对教育回报率估计结果可信度的信心。
2.3 模型2:内生变量为edu、exp和exp2,工具变量为public、private、age和age2
在第二个模型中,我们设定内生变量为教育年限(edu)、工作经验(exp)和工作经验平方(exp2),工具变量为公立大学接近度(public)、私立大学接近度(private)、年龄(age)和年龄平方(age2)。这是一个更复杂的过度识别模型,因为内生变量数量为3个(edu、exp、exp2),而工具变量数量为4个(public、private、age、age2),满足 \(\ell > k\) 的条件,其中 \(\ell = 4\),\(k = 3\)。
该模型的基本形式为:
\[ \text{lwage} = \beta_0 + \beta_1 \cdot \text{edu} + \beta_2 \cdot \text{exp} + \beta_3 \cdot \text{exp}^2 + \beta_4 \cdot \text{black} + \beta_5 \cdot \text{south} + \beta_6 \cdot \text{urban} + e \]
其中教育年限(edu)、工作经验(exp)和工作经验平方(exp2)都是内生变量,需要通过工具变量进行估计。工具变量包括:
- public:公立大学接近度,表示个体是否居住在公立大学附近
- private:私立大学接近度,表示个体是否居住在私立大学附近
- age:年龄,作为工作经验的工具变量
- age2:年龄平方,作为工作经验平方的工具变量
外生变量包括种族(black)、地区(south)和城镇(urban)。
过度识别检验的理论基础。根据Hansen 12.31节的理论分析,当 \(\ell > k\) 时,模型存在过度识别约束。在这个模型中,我们有四个矩条件:
\[ \mathbb{E}[\text{public} \cdot e] = 0 \]
\[ \mathbb{E}[\text{private} \cdot e] = 0 \]
\[ \mathbb{E}[\text{age} \cdot e] = 0 \]
\[ \mathbb{E}[\text{age2} \cdot e] = 0 \]
其中 \(e = \text{lwage} - X'\beta\) 是结构方程的误差项。由于有三个内生变量(edu、exp、exp2),这四个矩条件实际上是对三个参数 \(\beta_1\)、\(\beta_2\)、\(\beta_3\) 的约束,因此存在过度识别,过度识别约束的数量为 \(\ell - k = 4 - 3 = 1\)。
使用2SLS方法估计模型,我们得到以下结果:
Call:
AER::ivreg(formula = mod_tsls_ppa, data = tbl_reg)
Residuals:
Min 1Q Median 3Q Max
-1.92063 -0.27218 0.02074 0.28186 1.43044
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.74815 0.48338 7.754 1.21e-14 ***
edu 0.15969 0.04090 3.904 9.65e-05 ***
exp 0.04703 0.02502 1.880 0.060213 .
exp2 -0.03225 0.12811 -0.252 0.801255
black -0.06403 0.06301 -1.016 0.309610
south -0.08573 0.02563 -3.345 0.000834 ***
urban 0.08348 0.04125 2.024 0.043073 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111, Adjusted R-squared: 0.04921
Wald test: 129.7 on 6 and 3003 DF, p-value: < 2.2e-16
从估计结果可以看出,教育年限的系数为 0.16,标准误为 0.041,t统计量为 3.904。工作经验的系数为 0.047,工作经验平方的系数为 -0.032。
我们使用Sargan统计量来检验过度识别约束的有效性。Sargan统计量的计算公式为:
\[ S = \frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]
其中 \(\widehat{\boldsymbol{e}}\) 是2SLS残差,\(\boldsymbol{Z}\) 是工具变量矩阵,\(\widehat{\sigma}^{2}\) 是误差方差的估计值。
AER包计算的Sargan检验结果:
df1 df2 statistic p-value
Weak instruments (edu) 4 3002 8.6480786 6.151497e-07
Weak instruments (exp) 4 3002 1215.9757221 0.000000e+00
Weak instruments (exp2) 4 3002 1113.7721684 0.000000e+00
Wu-Hausman 2 3001 2.9771177 5.108991e-02
Sargan 1 NA 0.5237879 4.692303e-01
可以看到Sargan统计量、p值和自由度:
- Sargan统计量: 0.5238
- p值: 0.4692
- 自由度: 1
手动计算的Sargan统计量验证:
- 手动计算的Sargan统计量: 0.5238
- 自由度: 1
- p值: 0.4692
检验结果解释。根据Sargan检验的结果,p值为 0.4692。根据Hansen的建议,我们关注1%的显著性水平。由于p值 大于 0.01,因此我们 不能拒绝 过度识别约束的原假设。
经济含义。该检验结果对于理解教育回报率和工作经验回报率的估计具有重要意义。如果过度识别检验不显著,说明使用公立大学接近度(public)、私立大学接近度(private)、年龄(age)和年龄平方(age2)作为教育年限和工作经验的工具变量是合理的,所有工具变量都满足外生性条件。这增强了我们对教育回报率和工作经验回报率估计结果可信度的信心。
2.4 两个模型的比较分析
通过比较两个模型的Sargan检验结果,我们可以得出以下结论:
模型复杂度:模型2比模型1更复杂,包含了更多的内生变量和工具变量,过度识别约束的数量为1个。
工具变量的有效性:两个模型的Sargan检验结果都支持工具变量的外生性假设,说明所选择的工具变量是有效的。
模型设定的稳健性:过度识别检验的不显著结果增强了我们对模型设定稳健性的信心,表明工具变量的选择是合理的。
政策含义:这些结果支持了教育和工作经验对工资收入的正向影响,为教育投资和职业发展政策提供了实证支持。