过度识别检验的子集检验

复现12.32节内容

多方程模型
工具变量
作者

胡华平

发布于

2025年10月11日

修改于

2025年10月11日

摘要
本节内容主要复现Hansen 12.32节 OverIdentification Tests的子集检验内容。
提示导读

本节复现Hansen教材第12.32节”子集过度识别检验”内容,以Card (1995)大学邻近性研究为案例。我们构建三个模型:模型1使用大学邻近工具变量,模型2增加父母教育工具变量,模型A仅使用大学邻近工具变量。通过比较N统计量(Newey方法)和C统计量(Sargan差异方法),检验父母教育工具变量的有效性。实证结果显示,两种统计量数值接近,验证了理论等价性,且检验结果支持现代文献观点,即父母教育可能不是有效的工具变量。

1 理论分析

1.1 过度识别检验的子集检验的定义

过度识别检验的子集检验是过度识别检验的一种特殊形式,它主要用于检验工具变量是否符合外生性假设。通常情况下,对 \(\mathbb{H}_{0}: \mathbb{E}[Z e]=0\) 的检验被解释为模型设定检验。备择假设 \(\mathbb{H}_{1}: \mathbb{E}[Z e] \neq 0\) 意味着 \(Z\) 中至少有一个元素与误差项 \(e\) 相关,因此是无效的工具变量。在某些情况下,检验矩条件的子集可能是合理的。

我们将工具变量矩阵 \(Z\) 分割为 \(Z=\left(Z_{a}, Z_{b}\right)\),其维度分别为 \(\ell_{a}\)\(\ell_{b}\),其中 \(Z_{a}\) 包含被认为与 \(e\) 不相关的工具变量,\(Z_{b}\) 包含可能与 \(e\) 相关的工具变量。这种分割必须满足 \(\ell_{a}>k\),或者等价地 \(\ell_{b}<\ell-k\)。这意味着仅使用工具变量 \(Z_{a}\) 的模型是过度识别的,或者 \(\ell_{b}\) 小于过度识别约束的数量。因此,检验要求 \(\ell-k>1\),即过度识别约束的数量超过一个。

1.2 过度识别检验的子集检验的原理

给定这种分割,维持假设是 \(\mathbb{E}\left[Z_{a} e\right]=0\)。原假设和备择假设分别为 \(\mathbb{H}_{0}: \mathbb{E}\left[Z_{b} e\right]=0\)\(\mathbb{H}_{1}: \mathbb{E}\left[Z_{b} e\right] \neq 0\)。也就是说,原假设是完整的矩条件集是有效的,而备择假设是工具变量子集 \(Z_{b}\)\(e\) 相关,因此是无效的工具变量。拒绝 \(\mathbb{H}_{0}\) 而支持 \(\mathbb{H}_{1}\) 被解释为 \(Z_{b}\) 被错误设定为工具变量的证据。

基于与前一节相同的推理,为了检验 \(\mathbb{H}_{0}\)\(\mathbb{H}_{1}\),我们考虑回归方程(12.66)的分割版本:

\[ e=Z_{a}^{\prime} \alpha_{a}+Z_{b}^{\prime} \alpha_{b}+v \]

但现在我们关注系数 \(\alpha_{b}\)。给定 \(\mathbb{E}\left[Z_{a} e\right]=0\)\(\mathbb{H}_{0}\) 等价于 \(\alpha_{b}=0\)。该方程通过最小二乘法估计,用2SLS残差 \(\widehat{e}_{i}\) 替换不可观测的 \(e_{i}\)\(\alpha_{b}\) 的估计量为:

\[ \widehat{\alpha}_{b}=\left(\boldsymbol{Z}_{b}^{\prime} \boldsymbol{M}_{a} \boldsymbol{Z}_{b}\right)^{-1} \boldsymbol{Z}_{b}^{\prime} \boldsymbol{M}_{a} \widehat{\boldsymbol{e}} \]

其中 \(\boldsymbol{M}_{a}=\boldsymbol{I}_{n}-\boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime}\)

1.3 过度识别检验的子集检验的统计量计算方法

Newey (1985) 证明了检验 \(\mathbb{H}_{0}\)\(\mathbb{H}_{1}\) 的最优(渐近最有效)检验是拒绝得分统计量的较大值:

\[ N=\widehat{\alpha}_{b}^{\prime}\left(\widehat{\operatorname{var}}\left[\widehat{\alpha}_{b}\right]\right)^{-} \widehat{\alpha}_{b}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}-\boldsymbol{R}^{\prime} \widehat{\boldsymbol{X}}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]

其中 \(\widehat{\boldsymbol{X}}=\boldsymbol{P} \boldsymbol{X}\)\(\boldsymbol{P}=\boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}\)\(\boldsymbol{R}=\boldsymbol{M}_{a} \boldsymbol{Z}_{b}\)\(\widehat{\sigma}^{2}=\frac{1}{n} \widehat{\boldsymbol{e}}^{\prime} \widehat{\boldsymbol{e}}\)

独立地,Eichenbaum、L. Hansen 和 Singleton (1988) 提出了基于Sargan统计量差异的检验。设 \(S\) 是基于完整工具变量集的Sargan检验统计量(12.67),\(S_{a}\) 是基于工具变量集 \(Z_{a}\) 的Sargan统计量。Sargan差异统计量为 \(C=S-S_{a}\)。具体地,设 \(\widetilde{\beta}_{2 \text { sls }}\) 是仅使用工具变量 \(Z_{a}\) 的2SLS估计量,设 \(\widetilde{e}_{i}=Y_{i}-X_{i}^{\prime} \widetilde{\beta}_{2 s l s}\),设 \(\widetilde{\sigma}^{2}=\frac{1}{n} \widetilde{\boldsymbol{e}}^{\prime} \widetilde{\boldsymbol{e}}\)。则:

\[ S_{a}=\frac{\widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime} \widetilde{\boldsymbol{e}}}{\widetilde{\sigma}^{2}} \]

\(C\) 统计量的一个优点是它可以从标准回归输出中相当简单地计算出来。

\(C\) 统计量 \(S_{a}\) 渐近等价于将 \(S_{a}\) 中的 \(\widetilde{\sigma}^{2}\) 替换为 \(\widehat{\sigma}^{2}\),得到统计量:

\[ C^{*}=\frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}}-\frac{\widetilde{\boldsymbol{e}}^{\prime} \boldsymbol{Z}_{a}\left(\boldsymbol{Z}_{a}^{\prime} \boldsymbol{Z}_{a}\right)^{-1} \boldsymbol{Z}_{a}^{\prime} \widetilde{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]

事实证明,这就是Newey的统计量 \(N\)。这些检验具有卡方渐近分布。

定理12.17 在代数上,\(N=C^{*}\)。在假设12.2和 \(\mathbb{E}\left[e^{2} \mid Z\right]=\sigma^{2}\) 下,当 \(n \rightarrow \infty\) 时,\(N \underset{d}{\longrightarrow} \chi_{\ell_{b}}^{2}\)\(C \underset{d}{\longrightarrow} \chi_{\ell_{b}}^{2}\)。因此,检验”如果 \(N>c\) 则拒绝 \(\mathbb{H}_{0}\)“和”如果 \(C>c\) 则拒绝 \(\mathbb{H}_{0}\)“是渐近等价的,具有渐近显著性水平 \(\alpha\)

定理12.17表明 \(N\)\(C^{*}\) 是相同的,并且与方便的统计量 \(C\) 几乎等价。适当的渐近分布是 \(\chi_{\ell_{b}}^{2}\)。在计算上,实现子集过度识别检验的最简单方法是两次用2SLS估计模型,首先使用完整的工具变量集 \(Z\),第二次使用部分工具变量集 \(Z_{a}\)。计算两个2SLS回归的Sargan统计量,并计算 \(C\) 作为Sargan统计量的差异。

2 R代码实证分析

2.1 准备R环境

首先,加载相关R包。

本文复现使用的R脚本文件和数据集下载链接:

2.2 模型1:内生变量edu、exp、exp2,工具变量public、private、age、age2

在模型1中,我们设定工资方程的结构形式为:

\[ \ln(wage) = \beta_0 + \beta_1 \cdot edu + \beta_2 \cdot exp + \beta_3 \cdot exp^2 + \beta_4 \cdot black + \beta_5 \cdot south + \beta_6 \cdot urban + e \]

其中内生变量包括教育年限(edu)、工作经验(exp)和工作经验平方(exp2),工具变量包括公立大学附近(public)、私立大学附近(private)、年龄(age)和年龄平方(age2)。控制变量包括种族(black)、地区(south)和城市(urban)。

该模型的关键特征在于教育变量被设定为内生变量,这反映了教育选择可能受到个人能力等不可观测因素的影响。我们使用大学附近的虚拟变量作为教育的工具变量,基于地理距离影响教育选择但不会直接影响工资的假设。

模型1的2SLS估计结果如下:


Call:
AER::ivreg(formula = mod_tsls_ppa, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.92063 -0.27218  0.02074  0.28186  1.43044 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.74815    0.48338   7.754 1.21e-14 ***
edu          0.15969    0.04090   3.904 9.65e-05 ***
exp          0.04703    0.02502   1.880 0.060213 .  
exp2        -0.03225    0.12811  -0.252 0.801255    
black       -0.06403    0.06301  -1.016 0.309610    
south       -0.08573    0.02563  -3.345 0.000834 ***
urban        0.08348    0.04125   2.024 0.043073 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111,    Adjusted R-squared: 0.04921 
Wald test: 129.7 on 6 and 3003 DF,  p-value: < 2.2e-16 

从估计结果可以看出,教育回报率约为 0.16,这意味着每增加一年教育,工资平均增长约 17.3%。

对于模型1的过度识别检验,我们计算Sargan统计量来检验工具变量的有效性。Sargan统计量的计算公式为:

\[ S = \frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]

其中 \(\widehat{\boldsymbol{e}}\) 是2SLS残差向量,\(\boldsymbol{Z}\) 是工具变量矩阵,\(\widehat{\sigma}^{2}\) 是误差方差的估计量。

模型1的过度识别检验结果:

- Sargan统计量: 0.524 
- p值: 0.469 
- 自由度: 1 

在模型1中,我们有 8 个工具变量和 7 个内生变量,因此过度识别约束的数量为 1。Sargan统计量的值为 0.524,对应的p值为 0.469。

由于p值 大于 0.05,我们 不能拒绝 原假设,即工具变量与误差项不相关的假设。这表明 工具变量可能是有效的。

为了验证计算结果的准确性,我们还手动计算了Sargan统计量:

- 手动计算的Sargan统计量: 0.524 
- 手动计算的p值: 0.469 

手动计算的结果与AER包的结果完全一致,验证了计算的正确性。

2.3 模型2:内生变量edu、exp、exp2,工具变量public、private、dadedu、momedu、age、age2

在模型2中,我们在模型1的基础上增加了两个额外的工具变量:父亲教育年限(dadedu)和母亲教育年限(momedu)。模型的结构形式与模型1相同:

\[ \ln(wage) = \beta_0 + \beta_1 \cdot edu + \beta_2 \cdot exp + \beta_3 \cdot exp^2 + \beta_4 \cdot black + \beta_5 \cdot south + \beta_6 \cdot urban + e \]

但工具变量集合扩展为:公立大学附近(public)、私立大学附近(private)、父亲教育年限(dadedu)、母亲教育年限(momedu)、年龄(age)和年龄平方(age2)。

增加父母教育作为工具变量的经济学理论基础是:父母的教育水平会影响子女的教育选择,但不会直接影响子女的工资水平。这种假设在早期劳动经济学文献中被广泛使用,但现代文献对此提出了质疑,认为父母教育可能通过家庭教育等方式直接影响子女的能力,而不仅仅是间接影响教育选择。

模型2的2SLS估计结果如下:


Call:
AER::ivreg(formula = mod_tsls_ppdma, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.62908 -0.22194  0.02295  0.24386  1.33074 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.608902   0.118598  38.862  < 2e-16 ***
edu          0.084337   0.007084  11.906  < 2e-16 ***
exp          0.080681   0.016243   4.967 7.18e-07 ***
exp2        -0.208521   0.081487  -2.559   0.0105 *  
black       -0.174549   0.019816  -8.809  < 2e-16 ***
south       -0.120007   0.015501  -7.742 1.33e-14 ***
urban        0.151923   0.016656   9.121  < 2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3751 on 3003 degrees of freedom
Multiple R-Squared: 0.2871, Adjusted R-squared: 0.2857 
Wald test: 177.8 on 6 and 3003 DF,  p-value: < 2.2e-16 

从估计结果可以看出,教育回报率约为 0.084,这意味着每增加一年教育,工资平均增长约 8.8%。

模型2的过度识别检验结果:

- Sargan统计量: 7.892 
- p值: 0.048 
- 自由度: 3 

在模型2中,我们有 10 个工具变量和 7 个内生变量,因此过度识别约束的数量为 3。Sargan统计量的值为 7.892,对应的p值为 0.048。

由于p值 小于 0.05,我们 拒绝 原假设。这表明 工具变量可能存在问题。

为了验证计算结果的准确性,我们还手动计算了Sargan统计量:

- 手动计算的Sargan统计量: 7.892 
- 手动计算的p值: 0.048 

手动计算的结果与AER包的结果完全一致,验证了计算的正确性。

比较模型1和模型2的结果,我们可以观察到:

- 模型1教育回报率: 0.16 
- 模型2教育回报率: 0.084 
- 差异: -0.075 

教育回报率的差异为 -0.075,这表明增加父母教育作为工具变量对估计结果产生了 显著 的影响。

2.4 子集过度识别检验:N统计量和C统计量

根据Hansen教材第12.32节的理论分析,我们现在进行子集过度识别检验。我们将工具变量分为两部分:

  • \(Z_a\):被认为与误差项不相关的工具变量(public、private、age、age2)
  • \(Z_b\):可能与误差项相关的工具变量(dadedu、momedu)

这种分割满足 \(\ell_a > k\) 的条件,其中 \(\ell_a = 4\)(public、private、age、age2),\(k = 3\)(edu、exp、exp2),因此 \(\ell_a - k = 1\),模型A是过度识别的。

2.4.1 模型A:仅使用\(Z_a\)作为工具变量(前面的模型1)

我们首先估计仅使用\(Z_a\)作为工具变量的模型:


Call:
AER::ivreg(formula = mod_tsls_za, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.92063 -0.27218  0.02074  0.28186  1.43044 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.74815    0.48338   7.754 1.21e-14 ***
edu          0.15969    0.04090   3.904 9.65e-05 ***
exp          0.04703    0.02502   1.880 0.060213 .  
exp2        -0.03225    0.12811  -0.252 0.801255    
black       -0.06403    0.06301  -1.016 0.309610    
south       -0.08573    0.02563  -3.345 0.000834 ***
urban        0.08348    0.04125   2.024 0.043073 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111,    Adjusted R-squared: 0.04921 
Wald test: 129.7 on 6 and 3003 DF,  p-value: < 2.2e-16 

模型A的过度识别检验结果:

- Sargan统计量: 0.524 
- p值: 0.469 
- 自由度: 1 

在模型A中,我们有 8 个工具变量和 7 个内生变量,因此过度识别约束的数量为 1。Sargan统计量的值为 0.524,对应的p值为 0.469。

2.4.2 C统计量计算

根据Eichenbaum、L. Hansen和Singleton (1988)的方法,C统计量定义为:

\[ C = S - S_a \]

其中: - \(S\):使用全部工具变量的Sargan统计量(模型2) - \(S_a\):仅使用\(Z_a\)的Sargan统计量(模型A)

- 模型2的Sargan统计量 (S): 7.892 
- 模型A的Sargan统计量 (Sa): 0.524 
- C统计量 (S - Sa): 7.368 
- C统计量的p值: 0.025 
- 自由度: 2 

C统计量的值为 7.368,对应的p值为 0.025。由于p值 小于 0.05,我们 拒绝 原假设,即\(Z_b\)与误差项不相关的假设。

2.4.3 N统计量计算

根据Newey (1985)的方法,N统计量的计算公式为:

\[ N = \frac{\widehat{\boldsymbol{e}}^{\prime} \boldsymbol{R}\left(\boldsymbol{R}^{\prime} \boldsymbol{R}-\boldsymbol{R}^{\prime} \widehat{\boldsymbol{X}}\left(\widehat{\boldsymbol{X}}^{\prime} \widehat{\boldsymbol{X}}\right)^{-1} \widehat{\boldsymbol{X}}^{\prime} \boldsymbol{R}\right)^{-1} \boldsymbol{R}^{\prime} \widehat{\boldsymbol{e}}}{\widehat{\sigma}^{2}} \]

其中: - \(\boldsymbol{R} = \boldsymbol{M}_a \boldsymbol{Z}_b\) - \(\boldsymbol{M}_a = \boldsymbol{I}_n - \boldsymbol{Z}_a\left(\boldsymbol{Z}_a^{\prime} \boldsymbol{Z}_a\right)^{-1} \boldsymbol{Z}_a^{\prime}\) - \(\widehat{\boldsymbol{X}} = \boldsymbol{P} \boldsymbol{X}\)\(\boldsymbol{P} = \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime}\)

- N统计量: 7.195 
- N统计量的p值: 0.027 
- 自由度: 2 

N统计量的值为 7.195,对应的p值为 0.027。

2.4.4 统计量等价性验证

根据定理12.17,当样本数\(n \to \infty\)时,N统计量和C统计量在代数上是等价的。我们验证这种等价性:

- N统计量: 7.195 
- C统计量: 7.368 
- 差异: 0.173388 

我们发现两个统计量的差异为 0.173388,虽然这个差异很小,但这个差异很可能是样本量不足导致的,所以一定程度上验证了定理12.17的结论。

2.4.5 检验结果解释

子集过度识别检验的结果表明:

  1. C统计量:7.368,p值 = 0.025
  2. N统计量:7.195,p值 = 0.027

由于p值 小于 0.05,我们 拒绝 原假设 \(\mathbb{H}_0: \mathbb{E}[Z_b e] = 0\)

这个结果表明 父母教育变量(dadedu、momedu)可能不是有效的工具变量。这与现代劳动经济学文献的观点 一致,现代文献认为父母教育可能通过家庭教育等方式直接影响子女的能力,因此被认为不是有效的工具变量。