Call:
ivreg(formula = formula_baseline, data = tbl_reg)
Residuals:
Min 1Q Median 3Q Max
-1.92063 -0.27218 0.02074 0.28186 1.43044
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.74815 0.48338 7.754 1.21e-14 ***
black -0.06403 0.06301 -1.016 0.309610
south -0.08573 0.02563 -3.345 0.000834 ***
urban 0.08348 0.04125 2.024 0.043073 *
edu 0.15969 0.04090 3.904 9.65e-05 ***
exp 0.04703 0.02502 1.880 0.060213 .
exp2 -0.03225 0.12811 -0.252 0.801255
Diagnostic tests:
df1 df2 statistic p-value
Weak instruments (edu) 4 3002 8.648 6.15e-07 ***
Weak instruments (exp) 4 3002 1215.976 < 2e-16 ***
Weak instruments (exp2) 4 3002 1113.772 < 2e-16 ***
Wu-Hausman 2 3001 2.977 0.0511 .
Sargan 1 NA 0.524 0.4692
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111, Adjusted R-squared: 0.04921
Wald test: 129.7 on 6 and 3003 DF, p-value: < 2.2e-16
本节复现Hansen 12.30子集内生性检验。以Card(1995)为例,将变量分为X1(外生)、X2(待检验edu)、X3(exp,exp2),在同方差下依据Durbin–Wu–Hausman比较两种2SLS设定,构造DWH统计量并以\(\chi^2\)判别,并辅以Wu–Hausman F诊断,判断edu是否为子集内生变量,从而指导是否采用2SLS估计。

1 理论分析过程
1.1 子集内生性检验的定义
在某些情况下,我们可能只希望检验变量子集的内生性。在Card邻近性例子中,我们可能希望分别检验教育的外生性,而不包括经验及其平方项。为了执行子集内生性检验,将回归变量分为三组是很有用的,这样结构模型为:
\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+X_{3}^{\prime} \beta_{3}+e \\ \mathbb{E}[Z e] &=0 . \end{aligned} \]
如前所述,工具变量向量\(Z\)包含\(X_{1}\)。向量\(X_{3}\)被视为内生的,\(X_{2}\)被视为潜在内生的。要检验的假设是\(X_{2}\)是外生的,即\(\mathbb{H}_{0}: \mathbb{E}\left[X_{2} e\right]=0\)对\(\mathbb{H}_{1}: \mathbb{E}\left[X_{2} e\right] \neq 0\)。
1.2 子集内生性检验的原理
在同方差性条件下,可以通过Durbin-Wu-Hausman原理构建一个直接的检验。在\(\mathbb{M}_{0}\)下,适当的估计量是使用工具变量\(\left(Z, X_{2}\right)\)的2SLS。设\(\beta_{2}\)的这个估计量为\(\widehat{\beta}_{2}\)。在\(\mathbb{H}_{1}\)下,适当的估计量是使用较小工具变量集\(Z\)的2SLS。设\(\beta_{2}\)的这个估计量为\(\widetilde{\beta}_{2}\)。
1.3 子集内生性检验的统计量计算方法
\(\mathbb{H}_{0}\)对\(\mathbb{H}_{1}\)的Durbin-Wu-Hausman统计量为:
\[ T=\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right) . \]
在\(\mathbb{H}_{0}\)下的渐近分布是\(\chi_{k_{2}}^{2}\),其中\(k_{2}=\operatorname{dim}\left(X_{2}\right)\),因此如果\(T\)超过\(\chi_{k_{2}}^{2}\)分布的上临界值,我们就拒绝变量\(X_{2}\)是外生的假设。
除了使用Wald统计量外,还可以通过除以\(k_{2}\)并使用\(F\)分布作为临界值来使用检验的\(F\)版本。然而,这种修改没有有限样本的合理性,因为在原假设下\(X_{3}\)是内生的。
在Stata中,在ivregress后使用estat endogenous命令(添加变量名来指定要检验外生性的变量)而不使用稳健协方差选项,会报告这个统计量的\(F\)版本作为”Wu-Hausman F”。例如,在Card邻近性例子中使用四个工具变量public、private、age和\(age^{2}\),如果我们用非稳健协方差矩阵通过2SLS估计方程,然后计算教育的内生性检验,我们发现\(F=272\),p值为\(0.0000\),但如果我们计算经验和其平方的检验,我们发现\(F=2.98\),p值为\(0.051\)。在这个模型中,同质系数外生性假设被拒绝用于教育,但经验的结果是不明确的。
异方差性或聚类稳健检验不能通过Durbin-Wu-Hausman方法轻易构建,因为协方差矩阵不采用简单形式。为了允许非同方差误差,建议使用GMM估计。参见第13.24节。
2 R代码实证分析
2.1 准备R环境
首先,加载相关R包。
本文复现使用的R脚本文件和数据集下载链接:
- R脚本文件:
code-endogeneity-subset.R - Card数据集:
Card1995.dta
2.2 数据准备和模型设定
本节采用Card (1995)数据,依变量为lwage(对数工资),潜在内生变量集合拆分为三部分: X1 = (black, south, urban)为外生协变量;X2 = (edu)为待检验是否外生的变量;X3 = (exp, exp2)为已知内生变量。工具变量集合为Z = (X1, public, private, age, age2),并按理论要求包含X1。
在同方差情形下,根据Durbin–Wu–Hausman原理,比较两种2SLS设定:
在原假设\(\mathbb{H}_0\) 下,教育
edu被视为外生,采用工具集合\((Z, X2)\)进行2SLS估计,得到\(\widehat{\beta}_2\)。在备择假设\(\mathbb{H}_1\) 下,教育
edu被视为内生,采用较小的工具集合\(Z\)进行2SLS估计,得到\(\widetilde{\beta}_2\)。
据此构造统计量(见下节公式),并以\(\chi^2\)分布进行判别。
为便于复现实证,本文同时报告三组估计:
2.2.1 模型0:基准模型
模型0(baseline):使用\(Z\) 作为工具,edu, exp, exp2均作为内生,报告Wu–Hausman F诊断:F = 2.9771,p = 0.0511。
两阶段最小二乘法及诊断结果如下:
2.2.2 模型1:\(mathbb{H}_0\)
模型1(\(\mathbb{H}_0\)):工具为\((X1, X2, Z)\),即把edu当作外生(可作为自身工具);提取edu的系数与方差:\(\widehat{\beta}_2\) = 0.074,Var = 1.229^{-5},并报告Wu–Hausman F:F = 0.0175,p = 0.8948。
两阶段最小二乘法及诊断结果如下:
Call:
ivreg(formula = formula_H0, data = tbl_reg)
Residuals:
Min 1Q Median 3Q Max
-1.59742 -0.22262 0.02012 0.24224 1.33017
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.741658 0.090683 52.288 < 2e-16 ***
black -0.189569 0.017633 -10.751 < 2e-16 ***
south -0.125048 0.015184 -8.235 2.64e-16 ***
urban 0.161571 0.015613 10.348 < 2e-16 ***
edu 0.074000 0.003506 21.106 < 2e-16 ***
exp 0.081626 0.016313 5.004 5.95e-07 ***
exp2 -0.214118 0.081811 -2.617 0.00891 **
Diagnostic tests:
df1 df2 statistic p-value
Weak instruments (exp) 4 3001 1.214e+29 <2e-16 ***
Weak instruments (exp2) 4 3001 7.482e+03 <2e-16 ***
Wu-Hausman 1 3002 1.700e-02 0.8948
Sargan 2 NA 6.643e+00 0.0361 *
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3742 on 3003 degrees of freedom
Multiple R-Squared: 0.2905, Adjusted R-squared: 0.2891
Wald test: 197.8 on 6 and 3003 DF, p-value: < 2.2e-16
2.2.3 模型2:\(\mathbb{H}_1\)
模型2(\(\mathbb{H}_1\)):工具为\((X1, Z)\),视edu为内生;提取edu的系数与方差:\(\widetilde{\beta}_2\) = 0.15969,Var = 0.0016728,并报告Wu–Hausman F:F = 2.9771,p = 0.0511。
两阶段最小二乘法及诊断结果具体如下:
Call:
ivreg(formula = formula_H1, data = tbl_reg)
Residuals:
Min 1Q Median 3Q Max
-1.92063 -0.27218 0.02074 0.28186 1.43044
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.74815 0.48338 7.754 1.21e-14 ***
black -0.06403 0.06301 -1.016 0.309610
south -0.08573 0.02563 -3.345 0.000834 ***
urban 0.08348 0.04125 2.024 0.043073 *
edu 0.15969 0.04090 3.904 9.65e-05 ***
exp 0.04703 0.02502 1.880 0.060213 .
exp2 -0.03225 0.12811 -0.252 0.801255
Diagnostic tests:
df1 df2 statistic p-value
Weak instruments (edu) 4 3002 8.648 6.15e-07 ***
Weak instruments (exp) 4 3002 1215.976 < 2e-16 ***
Weak instruments (exp2) 4 3002 1113.772 < 2e-16 ***
Wu-Hausman 2 3001 2.977 0.0511 .
Sargan 1 NA 0.524 0.4692
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111, Adjusted R-squared: 0.04921
Wald test: 129.7 on 6 and 3003 DF, p-value: < 2.2e-16
2.3 子集内生性检验统计量与判别规则
在同方差设定下,Durbin–Wu–Hausman统计量为:
\[ T = \left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right). \]
当\(k_2 = \operatorname{dim}(X_2)=1\) 时,上式退化为标量:
\[ T = \frac{\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^2}{\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]} \;\sim\; \chi^2_{(1)} \quad (\mathbb{H}_0). \]
本文对应的实证计算结果为:
- 系数差异:\(\widehat{\beta}_2 - \widetilde{\beta}_2 =\) -0.08569;
- 估计方差差异:\(\widehat{\operatorname{var}}[\widetilde{\beta}_2]-\widehat{\operatorname{var}}[\widehat{\beta}_2] =\) 0.0016605;
- 统计量:\(T=\) 4.422,p值:0.0355;
- \(\chi^2_{0.95}(1)=\) 3.841,\(\chi^2_{0.99}(1)=\) 6.635。
关于F形式统计量(将\(T\) 除以\(k_2\) 并用F分布求p值),在本应用场景下由于\(X_3\) 在\(\mathbb{H}_0\) 下仍为内生,有限样本上缺乏严格依据,仅供参考:\(F=\) 4.422,p值:0.0356。
子集内生性检验结果解读:
- 若4.422 超过3.841或p值0.0355 小于0.05,则拒绝\(\mathbb{H}_0\):教育
edu为外生的假设,认为edu具有内生性;否则不能拒绝外生性假设。结合上文的Wu–Hausman F诊断与DWH统计量的结论,可对edu的外生性作出一致判断;当两者结论不一致时,应优先依据DWH在本节的同方差框架下的判别,并在实际应用中进一步考虑稳健协方差或GMM扩展(参见第13.24节)。