子集内生性检验 – Hansen Econometrics

导读

本节复现Hansen 12.30子集内生性检验。以Card(1995)为例，将变量分为X1(外生)、X2(待检验edu)、X3(exp,exp2)，在同方差下依据Durbin–Wu–Hausman比较两种2SLS设定，构造DWH统计量并以\(\chi^2\)判别，并辅以Wu–Hausman F诊断，判断edu是否为子集内生变量，从而指导是否采用2SLS估计。

1 理论分析过程

1.1 子集内生性检验的定义

在某些情况下，我们可能只希望检验变量子集的内生性。在Card邻近性例子中，我们可能希望分别检验教育的外生性，而不包括经验及其平方项。为了执行子集内生性检验，将回归变量分为三组是很有用的，这样结构模型为：

\[ \begin{aligned} Y &=X_{1}^{\prime} \beta_{1}+X_{2}^{\prime} \beta_{2}+X_{3}^{\prime} \beta_{3}+e \\ \mathbb{E}[Z e] &=0 . \end{aligned} \]

如前所述，工具变量向量\(Z\)包含\(X_{1}\)。向量\(X_{3}\)被视为内生的，\(X_{2}\)被视为潜在内生的。要检验的假设是\(X_{2}\)是外生的，即\(\mathbb{H}_{0}: \mathbb{E}\left[X_{2} e\right]=0\)对\(\mathbb{H}_{1}: \mathbb{E}\left[X_{2} e\right] \neq 0\)。

1.2 子集内生性检验的原理

在同方差性条件下，可以通过Durbin-Wu-Hausman原理构建一个直接的检验。在\(\mathbb{M}_{0}\)下，适当的估计量是使用工具变量\(\left(Z, X_{2}\right)\)的2SLS。设\(\beta_{2}\)的这个估计量为\(\widehat{\beta}_{2}\)。在\(\mathbb{H}_{1}\)下，适当的估计量是使用较小工具变量集\(Z\)的2SLS。设\(\beta_{2}\)的这个估计量为\(\widetilde{\beta}_{2}\)。

1.3 子集内生性检验的统计量计算方法

\(\mathbb{H}_{0}\)对\(\mathbb{H}_{1}\)的Durbin-Wu-Hausman统计量为：

\[ T=\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right) . \]

在\(\mathbb{H}_{0}\)下的渐近分布是\(\chi_{k_{2}}^{2}\)，其中\(k_{2}=\operatorname{dim}\left(X_{2}\right)\)，因此如果\(T\)超过\(\chi_{k_{2}}^{2}\)分布的上临界值，我们就拒绝变量\(X_{2}\)是外生的假设。

除了使用Wald统计量外，还可以通过除以\(k_{2}\)并使用\(F\)分布作为临界值来使用检验的\(F\)版本。然而，这种修改没有有限样本的合理性，因为在原假设下\(X_{3}\)是内生的。

在Stata中，在ivregress后使用estat endogenous命令（添加变量名来指定要检验外生性的变量）而不使用稳健协方差选项，会报告这个统计量的\(F\)版本作为”Wu-Hausman F”。例如，在Card邻近性例子中使用四个工具变量public、private、age和\(age^{2}\)，如果我们用非稳健协方差矩阵通过2SLS估计方程，然后计算教育的内生性检验，我们发现\(F=272\)，p值为\(0.0000\)，但如果我们计算经验和其平方的检验，我们发现\(F=2.98\)，p值为\(0.051\)。在这个模型中，同质系数外生性假设被拒绝用于教育，但经验的结果是不明确的。

异方差性或聚类稳健检验不能通过Durbin-Wu-Hausman方法轻易构建，因为协方差矩阵不采用简单形式。为了允许非同方差误差，建议使用GMM估计。参见第13.24节。

2 R代码实证分析

2.1 准备R环境

首先，加载相关R包。

本文复现使用的R脚本文件和数据集下载链接：

R脚本文件：code-endogeneity-subset.R
Card数据集：Card1995.dta

2.2 数据准备和模型设定

本节采用Card (1995)数据，依变量为lwage（对数工资），潜在内生变量集合拆分为三部分： X1 = (black, south, urban)为外生协变量；X2 = (edu)为待检验是否外生的变量；X3 = (exp, exp2)为已知内生变量。工具变量集合为Z = (X1, public, private, age, age2)，并按理论要求包含X1。

在同方差情形下，根据Durbin–Wu–Hausman原理，比较两种2SLS设定：

在原假设\(\mathbb{H}_0\) 下，教育edu被视为外生，采用工具集合\((Z, X2)\)进行2SLS估计，得到\(\widehat{\beta}_2\)。
在备择假设\(\mathbb{H}_1\) 下，教育edu被视为内生，采用较小的工具集合\(Z\)进行2SLS估计，得到\(\widetilde{\beta}_2\)。

据此构造统计量（见下节公式），并以\(\chi^2\)分布进行判别。

为便于复现实证，本文同时报告三组估计：

2.2.1 模型0：基准模型

模型0（baseline）：使用\(Z\) 作为工具，edu, exp, exp2均作为内生，报告Wu–Hausman F诊断：F = 2.9771，p = 0.0511。

两阶段最小二乘法及诊断结果如下：


Call:
ivreg(formula = formula_baseline, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.92063 -0.27218  0.02074  0.28186  1.43044 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.74815    0.48338   7.754 1.21e-14 ***
black       -0.06403    0.06301  -1.016 0.309610    
south       -0.08573    0.02563  -3.345 0.000834 ***
urban        0.08348    0.04125   2.024 0.043073 *  
edu          0.15969    0.04090   3.904 9.65e-05 ***
exp          0.04703    0.02502   1.880 0.060213 .  
exp2        -0.03225    0.12811  -0.252 0.801255    

Diagnostic tests:
                         df1  df2 statistic  p-value    
Weak instruments (edu)     4 3002     8.648 6.15e-07 ***
Weak instruments (exp)     4 3002  1215.976  < 2e-16 ***
Weak instruments (exp2)    4 3002  1113.772  < 2e-16 ***
Wu-Hausman                 2 3001     2.977   0.0511 .  
Sargan                     1   NA     0.524   0.4692    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111,    Adjusted R-squared: 0.04921 
Wald test: 129.7 on 6 and 3003 DF,  p-value: < 2.2e-16

2.2.2 模型1：\(mathbb{H}_0\)

模型1（\(\mathbb{H}_0\)）：工具为\((X1, X2, Z)\)，即把edu当作外生（可作为自身工具）；提取edu的系数与方差：\(\widehat{\beta}_2\) = 0.074，Var = 1.229^{-5}，并报告Wu–Hausman F：F = 0.0175，p = 0.8948。

两阶段最小二乘法及诊断结果如下：


Call:
ivreg(formula = formula_H0, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.59742 -0.22262  0.02012  0.24224  1.33017 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept)  4.741658   0.090683  52.288  < 2e-16 ***
black       -0.189569   0.017633 -10.751  < 2e-16 ***
south       -0.125048   0.015184  -8.235 2.64e-16 ***
urban        0.161571   0.015613  10.348  < 2e-16 ***
edu          0.074000   0.003506  21.106  < 2e-16 ***
exp          0.081626   0.016313   5.004 5.95e-07 ***
exp2        -0.214118   0.081811  -2.617  0.00891 ** 

Diagnostic tests:
                         df1  df2 statistic p-value    
Weak instruments (exp)     4 3001 1.214e+29  <2e-16 ***
Weak instruments (exp2)    4 3001 7.482e+03  <2e-16 ***
Wu-Hausman                 1 3002 1.700e-02  0.8948    
Sargan                     2   NA 6.643e+00  0.0361 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.3742 on 3003 degrees of freedom
Multiple R-Squared: 0.2905, Adjusted R-squared: 0.2891 
Wald test: 197.8 on 6 and 3003 DF,  p-value: < 2.2e-16

2.2.3 模型2：\(\mathbb{H}_1\)

模型2（\(\mathbb{H}_1\)）：工具为\((X1, Z)\)，视edu为内生；提取edu的系数与方差：\(\widetilde{\beta}_2\) = 0.15969，Var = 0.0016728，并报告Wu–Hausman F：F = 2.9771，p = 0.0511。

两阶段最小二乘法及诊断结果具体如下：


Call:
ivreg(formula = formula_H1, data = tbl_reg)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.92063 -0.27218  0.02074  0.28186  1.43044 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.74815    0.48338   7.754 1.21e-14 ***
black       -0.06403    0.06301  -1.016 0.309610    
south       -0.08573    0.02563  -3.345 0.000834 ***
urban        0.08348    0.04125   2.024 0.043073 *  
edu          0.15969    0.04090   3.904 9.65e-05 ***
exp          0.04703    0.02502   1.880 0.060213 .  
exp2        -0.03225    0.12811  -0.252 0.801255    

Diagnostic tests:
                         df1  df2 statistic  p-value    
Weak instruments (edu)     4 3002     8.648 6.15e-07 ***
Weak instruments (exp)     4 3002  1215.976  < 2e-16 ***
Weak instruments (exp2)    4 3002  1113.772  < 2e-16 ***
Wu-Hausman                 2 3001     2.977   0.0511 .  
Sargan                     1   NA     0.524   0.4692    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.4327 on 3003 degrees of freedom
Multiple R-Squared: 0.05111,    Adjusted R-squared: 0.04921 
Wald test: 129.7 on 6 and 3003 DF,  p-value: < 2.2e-16

2.3 子集内生性检验统计量与判别规则

在同方差设定下，Durbin–Wu–Hausman统计量为：

\[ T = \left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^{\prime}\left(\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]\right)^{-1}\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right). \]

当\(k_2 = \operatorname{dim}(X_2)=1\) 时，上式退化为标量：

\[ T = \frac{\left(\widehat{\beta}_{2}-\widetilde{\beta}_{2}\right)^2}{\widehat{\operatorname{var}}\left[\widetilde{\beta}_{2}\right]-\widehat{\operatorname{var}}\left[\widehat{\beta}_{2}\right]} \;\sim\; \chi^2_{(1)} \quad (\mathbb{H}_0). \]

本文对应的实证计算结果为：

系数差异：\(\widehat{\beta}_2 - \widetilde{\beta}_2 =\) -0.08569；
估计方差差异：\(\widehat{\operatorname{var}}[\widetilde{\beta}_2]-\widehat{\operatorname{var}}[\widehat{\beta}_2] =\) 0.0016605；
统计量：\(T=\) 4.422，p值：0.0355；
\(\chi^2_{0.95}(1)=\) 3.841，\(\chi^2_{0.99}(1)=\) 6.635。

关于F形式统计量（将\(T\) 除以\(k_2\) 并用F分布求p值），在本应用场景下由于\(X_3\) 在\(\mathbb{H}_0\) 下仍为内生，有限样本上缺乏严格依据，仅供参考：\(F=\) 4.422，p值：0.0356。

子集内生性检验结果解读：

若4.422 超过3.841或p值0.0355 小于0.05，则拒绝\(\mathbb{H}_0\)：教育edu为外生的假设，认为edu具有内生性；否则不能拒绝外生性假设。结合上文的Wu–Hausman F诊断与DWH统计量的结论，可对edu的外生性作出一致判断；当两者结论不一致时，应优先依据DWH在本节的同方差框架下的判别，并在实际应用中进一步考虑稳健协方差或GMM扩展（参见第13.24节）。