第24章: 分位数回归
24 分位数回归
24.1 介绍
本章介绍中位数回归(最小绝对偏差)和分位数回归。 Koenker (2005) 是关于该主题的优秀专着。
计量经济学的一个传统目标是估计变量 \(X\) 对另一个变量 \(Y\) 的影响。我们已经讨论了预测和有条件的预期,但这些并不是唯一的影响衡量标准。替代度量包括条件中位数和条件分位数。我们将重点关注连续分布 \(Y\) 的情况,其中分位数是唯一定义的。
24.2 中值回归
回想一下,\(Y\) 的中位数是值 \(m=\operatorname{med}[Y]\),使得 \(\mathbb{P}[Y \leq m]=\mathbb{P}[Y \geq m]=0.5\) 成立。中位数可以被认为是“典型实现”。例如,CPS数据集中的工资中位数\(\$ 19.23\)可以解释为“典型工薪阶层”的工资。一半的工薪阶层的工资低于 \(\$ 19\),一半的工资高于 \(\$ 19\)。
当分布对称时,中位数等于平均值,但当分布不对称时,中位数不同。
在这本教科书中,我们主要关注条件关系。例如,条件期望是子群体内的期望值。类似地,我们将条件中位数定义为子总体的中位数。
定义 24.1 给定 \(X=x\) 的情况下,\(Y\) 的条件中位数是值 \(m(x)=\) 和 \([Y \mid X=x]\),使得 \(\mathbb{P}[Y \leq m(x) \mid X=x]=0.5\)。
例如,在 CPS 样本中,男性工资中位数为 \(\$ 21.15\),女性工资中位数为 \(\$ 16.83\)。这些是“典型”男人和女人的工资。
我们可以将\(Y\)和\(X\)之间的关系写成中值回归模型:
\[ \begin{aligned} Y &=m(X)+e \\ \operatorname{med}[e \mid X] &=0 . \end{aligned} \]
如前所述,这只是一个定义框架。 \(m(X)\) 是给定随机变量 \(X\) 的条件中位数。误差 \(e\) 是 \(Y\) 与其条件中位数的偏差,根据定义,条件中位数为零。
我们将 \(m(x)\) 称为中值回归函数。一般来说,它可以采取任何形状。然而,为了实用方便,我们关注参数 \(m(x)=x^{\prime} \beta\) 呈线性的模型。 (这从根本上来说不是限制性的,因为它允许级数近似。)这产生了线性中值回归模型:
\[ \begin{aligned} Y &=X^{\prime} \beta+e \\ \operatorname{med}[e \mid X] &=0 . \end{aligned} \]
同样,模型指出 \(\operatorname{med}[Y \mid X]=X^{\prime} \beta\)。在回归的情况下,真正的中值回归函数不一定是线性的,因此线性假设是一个有意义的假设。该模型类似于线性回归模型,但有所不同。中位数和均值回归模型中的系数 \(\beta\) 不一定彼此相等。
为了估计 \(\beta\),将 \(\beta\) 描述为分布函数很有用。回想一下,最小二乘估计量源自期望最小化预期平方损失的基本属性,即 \(\mu=\operatorname{argmin}_{\theta} \mathbb{E}\left[(Y-\theta)^{2}\right]\)。我们现在提出中位数的类似属性。
定义符号函数
\[ \frac{d}{d x}|x|=\operatorname{sgn}(x)=\left\{\begin{array}{cc} \mathbb{1}\{x>0\}-\mathbb{1}\{x<0\}, & x \neq 0 \\ 0 & x=0 . \end{array}\right. \]
定理 24.1 假设 \(Y\) 是连续分布的。那么中位数 \(m\) 满足
\[ \mathbb{E}[\operatorname{sgn}(Y-m)]=0 . \]
如果另外 \(\mathbb{E}|Y|<\infty\) 满足
\[ m=\underset{\theta}{\operatorname{argmin}} \mathbb{E}|Y-\theta| . \]
如果给定 \(X=x\) 的 \(Y\) 的条件分布 \(F(y \mid x)\) 在 \(y\) 中连续,则条件中值误差 \(e=Y-m(X)\) 满足
\[ \mathbb{E}[\operatorname{sgn}(e) \mid X]=0 . \]
如果另外 \(\mathbb{E}|Y|<\infty\) 条件中位数满足
\[ m(x)=\underset{\theta}{\operatorname{argmin}} \mathbb{E}[|Y-\theta| \mid X=x] . \]
如果 \((Y, X)\) 满足线性中值回归模型 (24.1) 且 \(E|Y|<\infty\) 则系数 \(\beta\) 满足
\[ \beta=\underset{b}{\operatorname{argmin}} \mathbb{E}\left|Y-X^{\prime} b\right| . \]
证明在 \(24.16\) 节中。表达式(24.6)是基础。它表明中值回归系数 \(\beta\) 最小化了 \(Y\) 与预测值 \(X^{\prime} \beta\) 之间的预期绝对差。这是基础,因为它将系数表示为概率分布的函数。该结果是平均回归系数最小化预期平方损失这一特性的直接模拟。两者之间的区别在于损失函数——预测误差大小的度量。为了可视化,图 24.1 (a) 显示了两个损失函数。比较两者,平方损失对小错误的惩罚较小,但对大错误的惩罚较大。两者都是对称的,因此对正误差和负误差的处理方式相同。
- 二次和绝对损失函数
- LAD 准则与 \(n=7\)
图 24.1:LAD 准则
在应用中,线性假设 \(X^{\prime} \beta\) 不太可能有效,除非在饱和虚拟变量回归中。因此,在实践中,我们应该将线性模型视为有用的近似值,而不是字面上的事实。为了使模型成为近似值,我们将系数 \(\beta\) 定义为最佳线性中值预测器
\[ \beta \stackrel{\text { def }}{=} \underset{b}{\operatorname{argmin}} \mathbb{E}\left|Y-X^{\prime} b\right| . \]
当条件中位数是线性时,这等于真实的条件中位数系数,但它是为满足 \(E|Y|<\infty\) 的一般分布定义的。最小化的一阶条件意味着
\[ \mathbb{E}[X \operatorname{sgn}(e)]=0 . \]
(24.4) 对于中值回归成立以及 (24.8) 对于最佳线性中值预测器成立的事实类似于条件期望和线性投影模型中的 \(\mathbb{E}[e \mid X]=0\) 和 \(\mathbb{E}[X e]=0\) 关系。
24.3 最小绝对偏差
定理 \(24.1\) 表明,在线性中值回归模型中,中值回归系数最小化 \(M(\beta)=\mathbb{E}\left|Y-X^{\prime} \beta\right|\)(预期绝对误差)。该函数的样本估计量是绝对误差的平均值
\[ M_{n}(\beta)=\frac{1}{n} \sum_{i=1}^{n}\left|Y_{i}-X_{i}^{\prime} \beta\right| . \]
这类似于经典的平方误差函数平均值,但它是绝对误差的平均值。通过不对误差进行平方,相对于误差平方函数的平均值,\(M_{n}(\beta)\) 对大误差的惩罚较小。 \(M_{n}(\beta)\)
由于 \(\beta\) 最小化了由 \(M_{n}(\beta)\) 估计的 \(M(\beta)\),因此 \(\beta\) 的 m 估计量是
\[ \widehat{\beta}=\underset{\beta}{\operatorname{argmin}} M_{n}(\beta) . \]
这称为 \(\beta\) 的最小绝对偏差 (LAD) 估计器,因为它可以最小化 \(Y_{i}\) 与拟合值 \(X_{i}^{\prime} \beta\) 的绝对“偏差”总和。函数 \(\widehat{m}(x)=x^{\prime} \widehat{\beta}\) 是中值回归估计器。 LAD 估计器 \(\widehat{\beta}\) 没有封闭形式的解,因此必须通过数值最小化来找到。
LAD 残差为 \(\widehat{e}_{i}=Y_{i}-X_{i}^{\prime} \widehat{\beta}\)。他们大约满足财产
\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} \operatorname{sgn}\left(\widehat{e}_{i}\right) \simeq 0 . \]
如果 \(\widehat{e}_{i} \neq 0\) 对于所有 \(i\) 来说,近似值完全成立,当 \(Y\) 连续分布时可能会发生这种情况。这是 (24.8) 的示例版本。
标准 \(M_{n}(\beta)\) 是全局连续且凸的。它的表面类似于倒切宝石的表面,因为它被平面网络覆盖。这些面在 \(n\) 行处连接,其中 \(\operatorname{sgn}\left(Y_{i}-X_{i}^{\prime} \beta\right)=0\)。为了说明这一点,图 24.1(b) 显示了七个观测值 \({ }^{1}\) 的 LAD 标准 \(M_{n}(\beta)\),具有单个回归量且无截距。 LAD 估计器是最小化器。由于样本量很小,标准 \(M_{n}(\beta)\) 在视觉上是分面的。在大样本中,面的尺寸减小并且标准接近平滑函数。
由于标准是多面的,因此最小值可以是一组。此外,由于该标准具有不连续的导数,经典的最小化方法会失败。最小化器可以通过一组线性约束来定义,因此线性规划方法是合适的。幸运的是,对于应用程序来说,可以使用良好的估计算法并且易于使用。
在Stata中,LAD是由qreg实现的。在R中,LAD是由quantreg包中的rq实现的。
24.4 分位数回归
平均值和中位数是分布集中趋势的度量。分布分布的度量是其分位数。回想一下,对于 \(\tau \in[0,1]\),\(Y\) 的 \(\tau^{t h}\) 分位数 \(q_{\tau}\) 定义为满足 \(\mathbb{P}\left[Y \leq q_{\tau}\right]=\tau\) 的值。中位数是特殊情况 \(\tau=0.5\)。将分位数运算符 \(\mathbb{Q}_{\tau}[Y]\) 定义为方程的解会很方便
\[ \mathbb{P}\left[Y \leq \mathbb{Q}_{\tau}[Y]\right]=\tau . \]
以 CPS 数据集中的工资分布为例。工资中位数为 \(\$ 21.14\)。这告诉我们“典型”工资率,但没有告诉我们典型值的范围。 \(0.2\) 分位数是 \(\$ 11.65\),\(0.8\) 分位数是 \(\$ 31.25\)。这表明,\(20 %\) 工薪阶层的工资为 \(\$ 11.65\) 或以下,而 \(20 %\) 的工资为 \(\$ 31.25\) 及以上。
我们还对条件分布的分位数感兴趣。继续上面的例子,考虑一下男性和女性之间的工资分配。 \(0.2,0.5\) 和 \(0.8\) 分位数显示在表 24.1 中。我们看到男性和女性工资之间的差异正在按分位数增加。
\({ }^{1}\) 这是表 \(3.1\) 中二十个观察值中的七个。表 24.1:工资分布的分位数
\(q_{.2}\) | \(q_{.5}\) | \(q_{.8}\) | |
---|---|---|---|
All | \(\$ 11.65\) | \(\$ 19.23\) | \(\$ 31.25\) |
Men | \(\$ 12.82\) | \(\$ 21.14\) | \(\$ 35.90\) |
Women | \(\$ 10.58\) | \(\$ 16.83\) | \(\$ 26.44\) |
定义 24.2 给定 \(X=x\) 时,\(Y\) 的条件分位数是值 \(q_{\tau}(x)\),使得 \(\mathbb{P}\left[Y \leq q_{\tau}(x) \mid X=x\right]=\tau\) 成立。
给定这个表示法,我们定义了条件分位数运算符 \(\mathbb{Q}_{\tau}[Y \mid X=x]\) 和 \(\mathbb{Q}_{\tau}[Y \mid X]\)。函数 \(q_{\tau}(x)\) 也称为分位数回归函数。
条件分位数函数 \(q_{\tau}(x)\) 可以采用相对于 \(x\) 的任何形状。它在 \(\tau\) 中单调递增,因此对于所有 \(x\),如果 \(\tau_{1}<\tau_{2}\) 则 \(q_{\tau_{1}}(x) \leq q_{\tau_{2}}(x)\)。
- 工资分位数回归
- 对数工资分位数回归
图 24.2:分位数回归
为了说明这一点,我们在图 24.2(a) 中显示了美国工资 \({ }^{2}\) 的条件分位数函数作为教育的函数,适用于 \(\tau=0.1,0.3,0.5,0.7\) 和 \(0.9\)。绘制的五条线是分位数回归函数 \(q_{\tau}(x)\),工资在 \(y\) 轴上,教育程度在 \(x\) 轴上。对于每个教育水平,条件分位数 \(q_{\tau}(x)\) 严格排列在 \(\tau\) 中,尽管对于低教育水平,它们彼此接近。五个分位数回归函数(通常)在教育中增加,尽管不是单调的。随着教育程度的提高,分位数回归函数也随之展开。因此,分位数之间的差距随着教育程度的增加而增加。这些分位数回归函数提供了受教育程度工资条件分布的摘要。
\({ }^{2}\) 使用完整的 cps \(90 \operatorname{mar}\) 数据集计算。分位数回归的一个有用特征是它与单调变换等变。如果 \(Y_{2}=\) \(\phi\left(Y_{1}\right)\) 其中 \(\phi(y)\) 是非递减的,则 \(\mathbb{Q}_{\tau}\left[Y_{2} \mid X=x\right]=\phi\left(\mathbb{Q}_{\tau}\left[Y_{1} \mid X=x\right]\right)\)。或者,如果 \(q_{\tau}^{1}(x)\) 和 \(q_{\tau}^{2}(x)\) 是 \(Y_{1}\) 和 \({ }^{2}\) 的分位数函数,则 \({ }^{2}\)。例如,教育对数工资的分位数回归是教育工资分位数回归的对数。如图 24.2(b) 所示。有趣的是,对数工资的分位数回归函数彼此大致平行,并且在 12 年以上的教育水平上大致呈线性。
我们定义与中值回归模型类似的分位数回归模型:
\[ \begin{aligned} Y &=q_{\tau}(X)+e \\ \mathbb{Q}_{\tau}[e \mid X] &=0 . \end{aligned} \]
分位数回归模型的一个重要特征是误差 \(e\) 不以零为中心。相反,它居中,使其 \(\tau^{t h}\) 分位数为零。这是一种归一化,但它指出,当我们从均值回归转向分位数回归以及在分位数之间移动时,截距的含义会发生变化。线性分位数回归模型为
\[ \begin{aligned} Y &=X^{\prime} \beta_{\tau}+e \\ \mathbb{Q}_{\tau}[e \mid X] &=0 . \end{aligned} \]
回想一下,平均值使平方误差损失最小化,中位数使绝对误差损失最小化。分位数有一个类似物。定义倾斜绝对损失函数:
\[ \begin{aligned} \rho_{\tau}(x) &=\left\{\begin{array}{cc} -x(1-\tau) & x<0 \\ x \tau & x \geq 0 \end{array}\right.\\ &=x(\tau-\mathbb{1}\{x<0\}) . \end{aligned} \]
对于 \(\tau=0.5\),这是缩放后的绝对损失 \(\frac{1}{2}|x|\)。对于 \(\tau<0.5\),函数向右倾斜。对于 \(\tau>0\),它向左倾斜。为了形象化,图 \(24.3\) 显示了 \(\tau=0.5\) 和 \(\tau=0.2\) 的函数 \(\rho_{\tau}(x)\)。后一个功能是前一个功能的倾斜版本。函数 \(\rho_{\tau}(x)\) 被称为检查函数,因为它类似于复选标记 \(\tau=0.5\)。
让 \(\psi_{\tau}(x)=\frac{d}{d x} \rho_{\tau}(x)=\tau-\mathbb{1}\{x<0\}\) 代表 \(x \neq 0\)。我们现在描述分位数回归函数的一些属性。
图 24.3:分位数损失函数
定理 24.2 假设 \(Y\) 是连续分布的。那么分位数 \(q_{\tau}\) 满足
\[ \mathbb{E}\left[\psi_{\tau}\left(Y-q_{\tau}\right)\right]=0 . \]
如果另外 \(\mathbb{E}|Y|<\infty\) 满足
\[ q_{\tau}=\underset{\theta}{\operatorname{argmin}} \mathbb{E}\left[\rho_{\tau}(Y-\theta)\right] . \]
如果给定 \(X=x\) 的 \(Y\) 的条件分布 \(F(y \mid x)\) 在 \(y\) 中连续,则条件分位数误差 \(e=Y-q_{\tau}(X)\) 满足
\[ \mathbb{E}\left[\psi_{\tau}(e) \mid X\right]=0 . \]
如果另外 \(\mathbb{E}|Y|<\infty\) 条件分位数函数满足
\[ q_{\tau}(x)=\underset{\theta}{\operatorname{argmin}} \mathbb{E}\left[\rho_{\tau}(Y-\theta) \mid X=x\right] . \]
如果 \((Y, X)\) 满足线性分位数回归模型 (24.9) 且 \(\mathbb{E}|Y|<\infty\) 则系数 \(\beta\) 满足
\[ \beta=\underset{b}{\operatorname{argmin}} \mathbb{E}\left[\rho_{\tau}\left(Y-X^{\prime} b\right)\right] . \]
证明在 \(24.16\) 节中。
表达式 (24.15) 显示分位数回归系数 \(\beta\) 最小化了 \(Y\) 与预测值 \(X^{\prime} \beta\) 之间的预期检查函数距离。这将分位数回归与中值和均值回归联系起来。
对于均值和中值回归,我们应该将线性模型 \(X^{\prime} \beta\) 视为近似值。因此,一般来说,我们将系数 \(\beta\) 定义为最佳线性分位数预测器
\[ \beta_{\tau} \stackrel{\text { def }}{=} \underset{b}{\operatorname{argmin}} \mathbb{E}\left[\rho_{\tau}\left(Y-X^{\prime} b\right)\right] . \]
当真函数是线性时,这等于真条件分位数系数。最小化的一阶条件意味着
\[ \mathbb{E}\left[X \psi_{\tau}(e)\right]=0 . \]
与最佳线性预测器不同,我们没有 \(\beta_{\tau}\) 的显式表达式。然而,从其定义中我们可以看到,\(\beta_{\tau}\) 将生成真实条件分位数函数 \(q_{\tau}(x)\) 的近似值 \(x^{\prime} \beta_{\tau}\),该近似值由 \(X\) 的概率分布加权。
24.5 分位数形状示例
- 线性
- 平行
图 24.4:分位数形状
24.6 线性分位数函数
线性分位数回归模型意味着分位数函数 \(q_{\tau}(x)\) 在 \(x\) 中是线性的。图 24.4(a) 显示了一个示例。在这里,我们绘制了 \(\tau=0.1,0.3,0.5\)、0.7 和 0.9 的线性分位数回归函数。在此示例中,斜率是正值,并且随着 \(\tau\) 的增加而增加。
线性分位数回归很方便,因为它们易于估计和报告。有时,可以通过明智地选择变量变换来引入线性。比较图 24.2(a) 和图 24.2(b) 中的分位数回归。工资水平的分位数回归函数似乎是凹的;相比之下,对于 12 年以上受教育程度的人来说,对数工资的分位数回归函数接近线性。
24.7 并行分位数函数
考虑模型 \(Y=m(X)+e\) 和 \(e\) 独立于 \(X\)。令 \(z_{\tau}\) 为 \(e\) 的 \(\tau^{t h}\) 分位数。在本例中,\(Y\) 的条件分位数函数是 \(q_{\tau}(x)=m(x)+z_{\tau}\)。这意味着函数 \(q_{\tau_{1}}(x)\) 和 \(Y=m(X)+e\) 是并行的,因此所有分位数回归函数都是相互并行的。
图 24.4(b) 显示了一个示例。在这里,我们绘制了一组相互平行的分位数回归函数。
在这种情况下 - 当 \(e\) 独立于 \(X\) 和/或分位数回归函数并行时,相对于均值回归或中值回归,分位数回归分析几乎没有什么收获。这些模型具有相同的斜率系数,仅截距不同。此外,\(e\) 独立于 \(X\) 的回归是同方差回归。因此,平行分位数函数表示条件同方差性。
再次检查图 24.2(b) 中显示的对数工资的分位数回归函数。这些函数在视觉上接近于彼此平行移动。因此,对数(工资)回归似乎接近于同方差回归,并且斜率系数对于最小二乘法、LAD 或分位数回归的估计应该相对稳健。这是应用对数变换进行工资回归的强烈动机。
24.8 系数异质性
考虑过程 \(Y=\eta^{\prime} X\),其中 \(\eta \sim \mathrm{N}(\beta, \Sigma)\) 独立于 \(X\)。我们之前将其描述为随机系数模型,因为系数 \(\eta\) 是特定于个人的。在此设置中,给定 \(X=x\) 的 \(Y\) 的条件分布为 \(\mathrm{N}\left(x^{\prime} \beta, x^{\prime} \Sigma x\right)\),因此条件分位数函数为 \(q_{\tau}(x)=\) \(x^{\prime} \beta+z_{\tau} \sqrt{x^{\prime} \Sigma x}\),其中 \(Y=\eta^{\prime} X\) 是 \(Y=\eta^{\prime} X\) 的 \(Y=\eta^{\prime} X\) 分位数。这些分位数函数是抛物线的。
24.9 预估
定理 \(24.2\) 表明,在线性分位数回归模型中,系数 \(\beta_{\tau}\) 使预期检查函数损失 \(M(\beta ; \tau)=\) \(\mathbb{E}\left[\rho_{\tau}\left(Y-X^{\prime} \beta\right)\right]\) 最小化。该函数的估计量是样本平均值
\[ M_{n}(\beta ; \tau)=\frac{1}{n} \sum_{i=1}^{n} \rho_{\tau}\left(Y_{i}-X_{i}^{\prime} \beta\right) . \]
由于 \(\beta_{\tau}\) 最小化了由 \(M_{n}(\beta ; \tau)\) 估计的 \(M(\beta ; \tau)\) ,因此 \(\beta_{\tau}\) 的 m 估计器是 \(M_{n}(\beta ; \tau)\) 的最小化器:
\[ \widehat{\beta}_{\tau}=\underset{\beta}{\operatorname{argmin}} M_{n}(\beta ; \tau) . \]
这称为 \(\beta_{\tau}\) 的分位数回归估计器。系数 \(\widehat{\beta}_{\tau}\) 没有封闭形式的解,因此必须通过数值最小化找到。最小化技术与中值回归所使用的技术相同;因此,典型的软件包将两者放在一起处理。
分位数回归残差 \(\widehat{e}_{i}(\tau)=Y_{i}-X_{i}^{\prime} \widehat{\beta}_{\tau}\) 满足近似性质
\[ \frac{1}{n} \sum_{i=1}^{n} X_{i} \psi_{\tau}\left(\widehat{e}_{i}(\tau)\right) \simeq 0 . \]
对于 LAD,如果 \(\widehat{e}_{i}(\tau) \neq 0\) 对于所有 \(i\) 来说,(24.17) 恰好成立,如果 \(Y\) 连续分布,则这种情况发生的概率很高。
在Stata中,分位数回归是通过qreg实现的。在 R 中,分位数回归由 quantreg 包中的 \(\mathrm{rq}\) 实现。
24.10 渐近分布
我们首先提供一致估计的条件。让\(\beta_{\tau}\)在(24.16)中定义,\(e=Y-X^{\prime} \beta_{\tau}\)和\(f_{\tau}(e \mid x)\)表示给定\(X=x\)的\(e\)的条件密度。
定理24.3分位数回归估计器的一致性 假设 \(\left(Y_{i}, X_{i}\right)\) 独立同分布,\(\mathbb{E}|Y|<\infty, \mathbb{E}\left[\|X\|^{2}\right]<\infty, f_{\tau}(e \mid x)\) 存在并满足 \(f_{\tau}(e \mid x) \leq D<\infty\),并且 \(\beta\) 的参数空间是紧凑的。对于任何 \(\tau \in(0,1)\) 使得
\[ \boldsymbol{Q}_{\tau} \stackrel{\text { def }}{=} \mathbb{E}\left[X X^{\prime} f_{\tau}(0 \mid X)\right]>0 \]
那么 \(\widehat{\beta}_{\tau} \underset{p}{\rightarrow} \beta_{\tau}\) 为 \(n \rightarrow \infty\)
证明在 \(24.16\) 节中提供。
定理 \(24.3\) 表明,分位数回归估计器对于广泛假设下的最佳线性分位数预测系数是一致的。
技术条件是 (24.18),用于确定系数 \(\beta_{\tau}\) 的唯一性。当条件密度 \(f_{\tau}(e \mid x)\) 不依赖于 \(e=0\) 处的 \(x\) 时,(24.18) 就会出现一个充分条件,因此 \(f_{\tau}(0 \mid x)=f_{\tau}(e)\) 和
\[ \boldsymbol{Q}_{\tau}=\mathbb{E}\left[X X^{\prime}\right] f_{\tau}(0) . \]
在这种情况下,如果 \(\mathbb{E}\left[X X^{\prime}\right]>0\) 和 \(f_{\tau}(0)>0\) 成立,则 (24.18) 成立。 \(f_{\tau}(e \mid x)\) 在 \(e=0\) 上不依赖于 \(x\) 的假设(我们称之为分位数独立性)是早期中值回归/分位数回归文献中的传统假设,但在 \(e=0\) 的狭义背景之外没有意义。 matheq6$ 独立于 \(X\)。因此,我们应该尽可能避免(24.19),如果不是的话,我们应该将其视为一种方便的简化而不是字面上的真理。 \(f_{\tau}(0)>0\) 的假设意味着存在一组非平凡的观测值,其误差 \(e\) 接近于零,或者等效地,\(\mathbb{E}\left[X X^{\prime}\right]>0\) 接近于 \(\mathbb{E}\left[X X^{\prime}\right]>0\)。这些观察结果为确定 \(\mathbb{E}\left[X X^{\prime}\right]>0\) 提供了决定性信息。
获得 (24.18) 的充分条件的较弱方法是假设对于 \(X\) 支持的某个有界集合 \(\mathscr{X}\),对于 \(x \in \mathscr{X}\),(a) \(\mathbb{E}\left[X X^{\prime} \mid X \in \mathscr{X}\right]>0\) 和 (b) \(f_{\tau}(0 \mid x) \geq c>0\)。这相当于如果我们将回归量 \(X\) 截断为有界集,则设计矩阵是满秩的,并且零处误差的条件密度远离零。这些条件相当抽象但温和。
我们现在提供渐近分布。
定理24.4分位数回归估计量的渐近分布 除了定理 24.3 的假设外,假设 \(f_{\tau}(e \mid x)\) 在 \(e\) 中连续,并且 \(\beta_{\tau}\) 在参数空间内部。然后作为 \(n \rightarrow \infty\)
\[ \sqrt{n}\left(\widehat{\beta}_{\tau}-\beta_{\tau}\right) \underset{d}{\longrightarrow} \mathrm{N}\left(0, \boldsymbol{V}_{\tau}\right) \]
其中 \(\boldsymbol{V}_{\tau}=\boldsymbol{Q}_{\tau}^{-1} \Omega_{\tau} \boldsymbol{Q}_{\tau}^{-1}\) 和 \(\Omega_{\tau}=\mathbb{E}\left[X X^{\prime} \psi_{\tau}^{2}\right]\) 代表 \(\psi_{\tau}=\tau-\mathbb{1}\left\{Y<X^{\prime} \beta_{\tau}\right\}\)。证明在 \(24.16\) 节中提供。
定理 \(24.4\) 表明分位数回归估计量对于三明治渐近协方差矩阵是渐近正态的。渐近正态性不依赖于正确的模型规范,因此广泛适用于线性模型是近似值而不是字面真理的实际应用。渐近分布的证明依赖于一般 m 估计量的理论(定理 22.4)。定理 \(24.4\) 包括最小绝对偏差估计器作为特殊情况 \(\tau=0.5\)。
定理 \(24.4\) 中的渐近协方差矩阵在正确的规范下进行了简化。如果 \(\mathbb{Q}_{\tau}[Y \mid X]=\) \(X^{\prime} \beta_{\tau}\) 则 \(\mathbb{E}\left[\psi_{\tau}^{2} \mid X\right]=\tau(1-\tau)\)。由此可知 \(\Omega_{\tau}=\tau(1-\tau) \boldsymbol{Q}\) 其中 \(\boldsymbol{Q}=\mathbb{E}\left[X X^{\prime}\right]\)。
结合(24.19),我们得到了三级渐近协方差矩阵。
1.一般:\(\boldsymbol{V}_{\tau}=\boldsymbol{Q}_{\tau}^{-1} \Omega_{\tau} \boldsymbol{Q}_{\tau}^{-1}\)
正确规范:\(\boldsymbol{V}_{\tau}^{c}=\tau(1-\tau) \boldsymbol{Q}_{\tau}^{-1} \boldsymbol{Q} \boldsymbol{Q}_{\tau}^{-1}\)
分位数独立性:\(\boldsymbol{V}_{\tau}^{0}=\frac{\tau(1-\tau)}{f_{\tau}(0)^{2}} \boldsymbol{Q}^{-1}\)
分位数独立情况 \(\boldsymbol{V}_{\tau}^{0}\) 类似于同方差最小二乘协方差矩阵。虽然 \(\boldsymbol{V}_{\tau}\) 是通常合适的协方差矩阵公式,但简化的公式 \(\boldsymbol{V}_{\tau}^{0}\) 更容易解释,以获得有关分位数回归估计器精度的直觉。与最小二乘估计器类似,协方差矩阵是 \(\left(\mathbb{E}\left[X X^{\prime}\right]\right)^{-1}\) 的比例倍数。因此,它继承了最小二乘估计器的相关属性:当 \(X\) 具有较大方差且共线较小时,\(\widehat{\beta}_{\tau}\) 效率更高。协方差矩阵 \(\boldsymbol{V}_{\tau}^{0}\) 与 \(f_{\tau}(0)^{2}\) 成反比。因此,当密度为 0 时,\(\widehat{\beta}_{\tau}\) 效率更高,这意味着条件分布的 \(\boldsymbol{V}_{\tau}^{0}\) 分位数附近有许多观测值。如果 \(\boldsymbol{V}_{\tau}^{0}\) 分位数附近的观测值很少,那么 \(\boldsymbol{V}_{\tau}^{0}\) 将较小,而 \(\boldsymbol{V}_{\tau}^{0}\) 将较大。我们还可以用 \(\boldsymbol{V}_{\tau}^{0}\) 的标准差 \(\boldsymbol{V}_{\tau}^{0}\) 来表达这种关系。令 \(\boldsymbol{V}_{\tau}^{0}\) 为缩放为具有单位方差的误差,其密度为 \(\boldsymbol{V}_{\tau}^{0}\)。然后是 \(\boldsymbol{V}_{\tau}^{0}\),它是同方差最小二乘协方差矩阵的标度。
24.11 协方差矩阵估计
有多种方法可以估计渐近协方差矩阵 \(\boldsymbol{V}_{\tau}\)。最简单的是基于分位数独立假设,导致
\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\tau}^{0} &=\tau(1-\tau) \widehat{f}_{\tau}(0)^{-2} \widehat{\boldsymbol{Q}}^{-1} \\ \widehat{\boldsymbol{Q}} &=\frac{1}{n} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} . \end{aligned} \]
其中 \(\widehat{f}_{\tau}(0)^{-2}\) 是 \(f_{\tau}(0)^{-2}\) 的非参数估计量。对于后者,有几种建议的方法。一种方法是利用 \(Y\) 分布函数的差异。第二个使用 \(f_{\tau}(0)\) 的非参数估计器。
假设正确的规范,\(\boldsymbol{V}_{\tau}^{c}\) 的估计量是
\[ \widehat{\boldsymbol{V}}_{\tau}^{c}=\tau(1-\tau) \widehat{\boldsymbol{Q}}_{\tau}^{-1} \widehat{\boldsymbol{Q}} \widehat{\boldsymbol{Q}}_{\tau}^{-1} \]
其中 \(\widehat{\boldsymbol{Q}}_{\tau}\) 是 \(\boldsymbol{Q}_{\tau}\) 的非参数估计量。给定带宽 \(h\) 的可行选择是
\[ \widehat{\boldsymbol{Q}}_{\tau}=\frac{1}{2 n h} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \mathbb{1}\left\{\left|\widehat{e}_{i}\right|<h\right\} . \]
允许错误指定的 \(\boldsymbol{V}_{\tau}\) 的估计量是
\[ \begin{aligned} \widehat{\boldsymbol{V}}_{\tau} &=\widehat{\boldsymbol{Q}}_{\tau}^{-1} \widehat{\Omega}_{\tau} \widehat{\boldsymbol{Q}}_{\tau}^{-1} \\ \widehat{\Omega}_{\tau} &=\frac{1}{h} \sum_{i=1}^{n} X_{i} X_{i}^{\prime} \widehat{\psi}_{i \tau}^{2} \\ \widehat{\psi}_{i \tau} &=\tau-\mathbb{1}\left\{Y_{i}<X_{i}^{\prime} \widehat{\beta}_{\tau}\right\} . \end{aligned} \]
在上面介绍的 \(\left(\widehat{\boldsymbol{V}}_{\tau}^{0}, \widehat{\boldsymbol{V}}_{\tau}^{c}\right.\) 和 \(\left.\widehat{\boldsymbol{V}}_{\tau}\right)\) 三种协方差矩阵方法中,应避免使用经典估计器 \(\widehat{\boldsymbol{V}}_{\tau}^{0}\),原因与我们避免使用经典同方差协方差矩阵估计器进行最小二乘估计的原因相同。在这两个强大的估计器中,更好的选择是 \(\widehat{\boldsymbol{V}}_{\tau}\) (因为它不需要正确的规范),但不幸的是它没有在标准包中进行编程。这意味着在实践中建议使用估计器 \(\widehat{V}_{\tau}^{c}\)。
估计分位数回归协方差矩阵、标准误差和置信区间的最常用方法是引导程序。传统的非参数引导程序适用于允许错误指定的一般模型,引导程序方差是 \(\widehat{\boldsymbol{V}}_{\tau}\) 的估计量。正如我们在引导方法的研究中了解到的那样,通常建议使用大量 \(B\) 引导复制(至少 1000 次,首选 10,000 次)。在大样本中,这在计算上有些昂贵,但这不应该成为实现的障碍,因为完整的引导计算只需要在最终计算中完成。此外,正如我们所知,对于置信区间,基于百分位数的区间比基于正态的区间(使用引导标准误差乘以正态分位数)要好得多。我推荐 BC 百分位数区间。这需要更改Stata等常用程序中的默认设置。
在Stata中,分位数回归是使用qreg实现的。默认标准错误为 \(\widehat{\boldsymbol{V}}_{\tau}^{0}\)。对 \(\widehat{\boldsymbol{V}}_{\tau}^{c}\) 使用 vce(robust)。协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\tau}\) 未实现。对于 bootstrap 标准误差和置信区间,请使用 bootstrap,reps (#): qreg y x。 bootstrap 命令后跟 estat bootstrap 会生成 BC 百分位置信区间。
在 R 中,分位数回归是通过 quantreg 包中的函数 rq 实现的。默认标准错误为 \(\widehat{\boldsymbol{V}}_{\tau}^{c}\)。协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\tau}\) 未实现。对于引导标准错误,一种方法是将选项 se=“boot” 与摘要命令一起使用。目前,quantreg 包不包括 bootstrap 百分位数置信区间。
24.12 集群依赖
在聚类依赖下,渐近协方差矩阵会发生变化。在公式 \(\boldsymbol{V}_{\tau}=\boldsymbol{Q}_{\tau}^{-1} \Omega_{\tau} \boldsymbol{Q}_{\tau}^{-1}\) 中,矩阵 \(\boldsymbol{Q}_{\tau}\) 未更改,但 \(\Omega_{\tau}\) 更改为
\[ \Omega_{\tau}^{\text {cluster }}=\lim _{n \rightarrow \infty} \frac{1}{n} \sum_{g=1}^{G} \mathbb{E}\left[\left(\sum_{\ell=1}^{n_{g}} X_{\ell g} \psi_{\ell g \tau}\right)\left(\sum_{\ell=1}^{n_{g}} X_{\ell g} \psi_{\ell g \tau}\right)^{\prime}\right] . \]
这可以估计为
\[ \widehat{\Omega}_{\tau}^{\text {cluster }}=\frac{1}{n} \sum_{g=1}^{G}\left[\left(\sum_{\ell=1}^{n_{g}} X_{\ell g} \widehat{\psi}_{\ell g \tau}\right)\left(\sum_{\ell=1}^{n_{g}} X_{\ell g} \widehat{\psi}_{\ell g \tau}\right)^{\prime}\right] . \]
这导致了集群鲁棒渐进协方差矩阵估计器 \(\widehat{\boldsymbol{V}}_{\tau}^{\text {cluster }}=\widehat{\boldsymbol{Q}}_{\tau}^{-1} \widehat{\Omega}_{\tau}^{\text {cluster }} \widehat{\boldsymbol{Q}}_{\tau}^{-1}\)。
集群鲁棒估计器 \(\widehat{\boldsymbol{V}}_{\tau}^{\text {cluster }}\) 未在 Stata 或 R quantreg 包中实现。相反,建议使用集群引导程序(带替换的采样集群)。在Stata中,集群引导可以通过以下方式完成:bootstrap,reps(#) cluster(id):qreg y x,然后是estat bootstrap。
在 \(\mathrm{R}\) 中,集群引导程序作为 quantreg 包中的一个选项包含在内,用于计算标准误差。
我们使用 Duflo、Dupas 和 Kremer (2011) 学校跟踪应用程序来说明聚类分位数回归的应用。 (参见第 4.21 节。)回想一下,问题是跟踪(根据初始测试将学生分成教室)是否影响年终平均成绩。我们使用分位数回归重复分析。表 \(24.2\) 中报告了参数估计值和 bootstrap 标准误差(通过集群 bootstrap 使用 10,000 次复制计算,按学校集群)。
结果好坏参半。点估计表明,较高分位数的跟踪效果比较低分位数的跟踪效果更强。这与追踪对学生的影响是异质的、没有负面影响、对上端影响最大的前提是一致的。然而,较高分位数的标准误差和置信区间也较大,因此高分位数处的分位数回归系数的估计不精确。使用 \(t\) 检验,五个斜率系数中有两个在 5% 水平上具有统计显着性(边界),一个在 \(10 %\) 水平上具有统计显着性。明显矛盾的是,\(95 %\) BC 的所有五个百分位数区间都包括 0。总体而言,跟踪影响学生表现的证据很弱。
表 24.2:学生跟踪测试成绩的分位数回归
\(\tau=0.1\) | \(\tau=0.3\) | \(\tau=0.5\) | \(\tau=0.7\) | \(\tau=0.9\) | |
---|---|---|---|---|---|
tracking | \(0.069\) | \(0.136\) | \(0.125\) | \(0.185\) | \(0.151\) |
bootstrap standard error | \((0.045)\) | \((0.069)\) | \((0.074)\) | \((0.127)\) | \((0.126)\) |
95% confidence interval | \([-0.02, .15]\) | \([-0.01, .27]\) | \([-0.01, .28]\) | \([-0.06, .44]\) | \([-0.11, .40]\) |
24.13 分位数交叉
分位数回归函数 \(q_{\tau}(x)\) 的一个属性是它们在 \(\tau\) 中单调递增。这意味着不同分位数的分位数函数,例如\(\tau_{1} \neq \tau_{2}\) 的 \(q_{\tau_{1}}(x)\) 和 \(q_{\tau_{2}}(x)\) 不能相互交叉。然而,具有不同斜率的线性函数 \(x^{\prime} \beta\) 的一个属性是,如果 \(X\) 的支持足够大,它们必然会交叉。这是应用中的一个潜在问题,因为估计分位数函数的实际使用可能需要 \(\tau\) 中的单调性(例如,如果要反转它们以获得条件分布函数)。
如果估计的分位数函数实际上交叉,这只是实际应用中的问题。如果他们不这样做,这个问题可以忽略。然而,当估计的分位数回归函数相互交叉时,可以谨慎地解决这一问题。
为了说明这一点,请查看图 24.5(a)。这显示了完整 cps09mar 数据集中教育工资的估计线性分位数回归。这些是图 24.2(a) 中图的线性投影近似。由于实际的分位数回归函数是凸的,因此估计的线性模型在低教育水平下会相互交叉。这就是分位数回归交叉现象。
当分位数回归相互交叉时,有几种可能的补救措施。
首先,您可以重新指定模型。在图 24.5(a) 的示例中,出现该问题的部分原因是真实的分位数回归函数是凸函数并且线性函数的近似性较差。在这个例子中,我们知道通过工资的对数变换获得了改进的近似值。对数变换后,分位数回归函数可以更好地近似线性。事实上,这样的估计(通过教育对数工资的分位数回归获得,然后
- 线性模型
- 对数模型
图 24.5:分位数交叉
应用指数变换返回到原始单位)如图 \(24.5\) (b) 所示。这些函数是平滑逼近,并且在 \(\tau\) 中是严格单调的。问题解决了。
虽然对数/指数变换对于工资回归效果很好,但它不是一个通用的解决方案。如果 \(X\) 中的基础分位数回归是非线性的,则可以通过非线性或简单级数近似来获得改进的近似(并可能消除分位数交叉)。对图 24.2(a) 的目视检查表明,这些函数可能是分段线性的,并在 11 年教育时出现扭结。这表明在 \(x=11\) 处有一个具有单结的线性样条。拟合该模型的估计(未显示)在 \(\tau\) 中是严格单调的。问题解决了。
第二种方法是重新评估实证任务。检查图 24.5(a),我们发现交叉现象发生在教育水平非常低(4 年)的情况下,对此的观察很少。这可能不被视为经验上有趣的区域。解决方案是截断数据以消除教育水平较低的观察结果。
第三种方法是限制估计函数以满足单调性。检查图 24.5(a)。五个回归函数随着斜率的增加而增加,\(X\) 的支持是 \([0,20]\),因此有必要且充分地约束五个截距单调排序。这可以通过顺序施加交叉方程等式约束来施加到该示例上。 R 函数 rq 可以选择施加参数约束。如果分位数交叉问题较轻,这种方法可能是可行的。
最后一种方法是重新排列。对于每个 \(x\),采用如图 24.5(a) 所示的五个估计分位数回归函数,并重新排列估计值,以便它们满足单调性要求。这不会改变系数估计,只会改变估计的分位数回归。这种方法非常灵活,适用于一般环境,无需重新指定模型。详细信息请参见 Chernozhukov、Fernandez-Val 和 Galichon (2010)。 R 包 quantreg 包含选项重新排列来实现其过程。
在这四种方法中,我的建议是从仔细且深思熟虑地重新规范模型开始。
24.14 分位数因果效应
在分位数回归研究中经常出现的一个问题是“我们可以因果地解释分位数回归吗?”我们可以通过提供分位数回归导数等于分位数治疗效果的条件,在治疗反应框架中部分回答这个问题。
回想一下,治疗反应模型是 \(Y=h(D, X, U)\),其中 \(Y\) 是结果,\(D\) 是治疗变量,\(X\) 是对照,\(U\) 是未观察到的结构随机误差。为简单起见,假设 \(D\) 是二进制的。为了具体起见,让 \(Y\) 为工资,\(D\) 为大学入学率,\(U\) 为不可观察能力。
在此框架中,\(D\) 对 \(Y\) 的因果效应为
\[ C(X, U)=h(1, X, U)-h(0, X, U) . \]
一般来说,这是异质的。虽然平均因果效应是该随机变量的期望,但分位数处理效应是其 \(\tau^{t h}\) 条件分位数
\[ Q_{\tau}(x)=\mathbb{Q}_{\tau}[C(X, U) \mid X=x] . \]
在 \(2.30\) 节中,我们提出了一个詹妮弗和乔治群体的例子,他们因大学入学率而产生不同的工资影响。在此示例中,未观察到的效果 \(U\) 是一个人的类型(Jennifer 或 George)。分位数治疗效果 \(Q_{\tau}\) 追踪了大学入学率因果效应的分布,因此比单独的平均治疗效果提供了更多信息。
根据观测数据,我们可以估计分位数回归函数
\[ q_{\tau}(d, x)=\mathbb{Q}_{\tau}[Y \mid D=d, X=x]=\mathbb{Q}_{\tau}[h(D, X, U) \mid D=d, X=x] \]
及其 \(D\) 对 \(Y\) 的隐含影响:
\[ D_{\tau}(x)=q_{\tau}(1, x)-q_{\tau}(0, x) . \]
问题是:\(D_{\tau}=Q_{\tau}\) 在什么条件下发生?也就是说,分位数回归何时测量 \(D\) 对 \(Y\) 的因果效应?
假设 24.1 分位数因果效应的条件
错误 \(U\) 是实值。
因果效应\(C(x, u)\) 在\(u\) 中单调递增。
治疗反应 \(h(D, X, u)\) 在 \(u\) 中单调递增。
以 \(X\) 为条件,随机变量 \(D\) 和 \(U\) 是独立的。
假设 24.1.1 排除了多维未观察到的异质性。假设 \(24.1 .2\) 和 24.1.3 称为单调性条件。单个单调性假设不是限制性的(它类似于归一化),但两个条件一起是实质性的限制。以大学入学率对工资的影响为例。假设 24.1.2 要求上大学带来的工资收益随着潜在能力 \(U\) 的增加而增加(给定 \(X\) )。假设 \(24.1 .3\) 进一步要求,无论个人是否上大学,潜在能力 \(U\) 的工资都会增加。在我们的詹妮弗和乔治的例子中,这些假设要求,如果他们都是高中毕业生,如果他们都是大学毕业生,詹妮弗比乔治获得更高的工资,并且詹妮弗上大学的收益超过乔治的收益。这些条件在 \(2.30\) 节的示例中得到满足,但通过调整,我们可以更改模型,以便违反其中一个单调性条件。
假设24.1.4是传统的条件独立假设。这一假设对于因果效应的解释至关重要。这个想法是,通过以足够丰富的变量集 \(X\) 为条件,\(D\) 和 \(U\) 之间的任何内生性都已被消除。
定理 24.5 分位数因果效应 如果假设 \(24.1\) 成立,则 \(D_{\tau}(x)=\) \(Q_{\tau}(x)\) 成立,则分位数回归导数等于分位数处理效应。
证明在第 24.16 节中。
定理 \(24.5\) 提供了分位数回归成为因果模型的条件。在条件独立性和单调性假设下,分位数回归系数是处理变量 \(D\) 对 \(Y\) 分布的边际因果效应。这些系数不是特定个体的边际因果效应,而是分布的因果效应。定理 \(24.5\) 表明,在适当的假设下,我们不仅可以了解平均治疗效果 - 我们还可以了解治疗效果的分布。
24.15 随机系数表示
出于某些理论目的,使用随机系数表示形式编写分位数回归模型很方便。这也提供了系数的另一种解释。
回想一下,当 \(Y\) 具有连续且可逆的分布函数 \(F(y)\) 时,概率积分变换为 \(U=F(Y) \sim U[0,1]\)。由于分布函数的反函数是分位数函数,这意味着我们可以编写 \(Y=q_{U}\),即在随机变量 \(U\) 处计算的分位数函数。直觉是 \(U\) 是 \(Y\) 的“相对排名”。
类似地,当给定 \(X\) 的情况下 \(Y\) 的条件分布 \(F(y \mid x)\) 可逆时,概率积分变换为 \(U=F(Y \mid X) \sim U[0,1]\),它与 \(X\) 无关。这里,\(U\) 是条件分布中 \(Y\) 的相对排名。反转,我们得到\(Y=q_{U}(X)\)。没有额外的误差项 \(e\),因为随机性是由 \(F(y \mid x)\) 捕获的。方程 \(F(y \mid x)\) 是给定 \(F(y \mid x)\) 的情况下 \(F(y \mid x)\) 的条件分布的表示,而不是结构模型。然而,它确实暗示了我们可以生成 \(F(y \mid x)\) 的机制。首先,绘制\(F(y \mid x)\)。其次,从其边际分布中得出 \(F(y \mid x)\)。第三,设置\(F(y \mid x)\)。
如果我们将 \(Y=q_{U}(X)\) 解释为结构模型(即,将 \(U\) 视为结构不可观察变量,而不仅仅是基于概率积分变换的推导),那么我们可以将 \(U\) 视为个体的潜在相对等级,即对 \(X\) 不变。每个人都由特定的 \(U=\tau\) 来标识。在此框架中,分位数斜率(分位数回归的导数)是 \(X\) 对 \(Y\) 的分位数因果效应。该表示满足定理 \(24.5\) 的条件,因为 \(U\) 独立于 \(Y=q_{U}(X)\)。
在线性分位数回归模型\(\mathbb{Q}_{\tau}[Y \mid X]=X^{\prime} \beta_{\tau}\)中,随机系数\({ }^{3}\)表示为\(Y=X^{\prime} \beta_{U}\)
\({ }^{3}\) 系数取决于 \(U\),因此是随机的,但该模型与随机系数模型不同,随机系数模型中每个个体的系数都是随机向量。
24.16 非参数分位数回归
正如第 24.10 节所强调的,分位数回归函数无疑是非线性的,具有未知的函数形式,因此是非参数的。分位数回归函数可以使用标准非参数方法来估计。这是一个潜在的大主题。为了简洁起见,我们简要讨论系列方法,其优点是可以使用传统软件轻松实现。
非参数分位数回归模型为
\[ \begin{aligned} Y &=q_{\tau}(X)+e \\ \mathbb{Q}_{\tau}[e \mid X] &=0 . \end{aligned} \]
函数 \(q_{\tau}(x)\) 可以通过第 20 章中描述的级数回归来近似。例如,多项式近似为
\[ \begin{aligned} Y &=\beta_{0}+\beta_{1} X+\beta_{2} X^{2}+\cdots+\beta_{K} X^{K}+e_{K} \\ \mathbb{Q}_{\tau}\left[e_{K} \mid X\right] & \simeq 0 . \end{aligned} \]
样条近似的定义类似。
对于任何 \(K\),系数和回归函数 \(q_{\tau}(x)\) 可以通过分位数回归进行估计。与串联回归一样,模型阶数 \(K\) 的选择应权衡灵活性(偏差减少)和简约性(方差减少)。渐近理论要求 \(K \rightarrow \infty\) 与 \(n \rightarrow \infty\) 相同,但速度较慢。
一个重要的实际问题是如何在给定的应用程序中选择\(K\)。不幸的是,标准信息标准(例如 AIC)不适用于分位数回归,并且尚不清楚交叉验证是否是合适的模型选择技术。毫无疑问,这些问题是未来研究的重要课题。
为了说明这一点,我们重新审视之前图 20.1 中显示的受过大学教育的女性的经验概况的非参数多项式估计。我们根据经验估计 \(5^{\text {th }}\) 阶多项式的 \({ }^{4} \log\) 工资分位数回归,并在图 24.6 中显示估计值。有两个显着的特点。首先,\(\tau=0.1\) 分位数函数在低经验水平(大约 10 年)时达到峰值,然后随着经验的增加而大幅下降。这可能是低薪女性工资路径的一个指标。其次,即使这是在对数尺度上,分位数函数之间的差距也会随着经验的增加而大大扩大。这意味着工资的异质性随着经验的增加而增加。
24.17 面板数据
给定面板数据结构 \(\left\{Y_{i t}, X_{i t}\right\}\),很自然地考虑面板数据分位数回归估计器。具有个体效应 \(\alpha_{i \tau}\) 的线性模型是
\[ \mathbb{Q}_{\tau}\left[Y_{i t} \mid X_{i t}, \alpha_{i}\right]=X_{i t}^{\prime} \beta_{\tau}+\alpha_{i \tau} . \]
考虑通过我们的标准方法之一进行估计似乎是很自然的:(1)通过内部变换消除个体效应; (2)通过一阶差分去除个体效应; (3) 使用虚拟变量表示估计完整分位数回归模型。然而,所有这些方法都失败了。方法(1)和(2)失败的原因是相同的:分位数运算符 \(\mathbb{Q}_{\tau}\) 不是线性运算符。 \(\mathbb{Q}_{\tau}\left[Y_{i t} \mid X_{i t}, \alpha_{i \tau}\right]\) 的内变换不等于 \(\mathbb{Q}_{\tau}\left[\dot{Y}_{i t} \mid X_{i t}, \alpha_{i \tau}\right]\),\(\Delta \mathbb{Q}_{\tau}\left[Y_{i t} \mid X_{i t}, \alpha_{i \tau}\right] \neq \mathbb{Q}_{\tau}\left[\Delta Y_{i t} \mid X_{i t}, \alpha_{i \tau}\right]\) 也类似。 (3)失败的原因是附带参数问题。 A
\({ }^{4}\) 样本是对拥有大学学位(受过 16 年教育)的女性进行的 \(n=5199\) 观察。
图 24.6:对数工资分位数回归
虚拟变量模型的参数数量与样本大小成正比,在这种情况下,非线性估计量(包括分位数回归)是不一致的。
已经有几个解决这个问题的建议,但没有一个特别令人满意。我们在这里提出了 Canay (2011) 提出的一种方法,该方法具有简单性和广泛适用性的优点。实质性假设是个体效应在分位数上是常见的:\(\alpha_{i \tau}=\alpha_{i}\)。因此 \(\alpha_{i}\) 均匀地上下移动分位数回归。当 \(\alpha_{i}\) 表示省略的时不变变量且其系数在分位数之间不变化时,这是一个合理的假设。
考虑到这个假设,我们可以将分位数回归模型写为
\[ Y_{i t}=X_{i t}^{\prime} \beta(\tau)+\alpha_{i}+e_{i t} . \]
我们还可以使用 \(24.12\) 节的随机系数表示来写
\[ Y_{i t}=X_{i t}^{\prime} \beta\left(U_{i \tau}\right)+\alpha_{i} \]
其中 \(U_{i \tau} \sim U[0,1]\) 独立于 \(\left(X_{i t}, \alpha_{i}\right)\)。考虑条件期望,我们得到模型
\[ Y_{i t}=X_{i t}^{\prime} \theta+\alpha_{i}+u_{i t} \]
其中 \(\theta=\mathbb{E}\left[\beta\left(U_{i \tau}\right)\right]\) 和 \(u_{i t}\) 有条件均值为零。系数 \(\theta\) 是分位数回归系数 \(\beta(\tau)\) 的加权平均值。
Canay 的估计器采取以下步骤。 1. 通过固定效应 \(\widehat{\alpha}_{i}\) 估计 \(\alpha_{i}\),如 (17.51) 所示。 [通过内部估计器 \(\widehat{\theta}\) 和 \(\alpha_{i}\) 通过对每个人的 \(Y_{i t}-X_{i t}^{\prime} \widehat{\theta}\) 取平均值来估计 \(\theta\)。]
- 通过 \(Y_{i t}-\widehat{\alpha}_{i}\) 在 \(X_{i t}\) 上的分位数回归来估计 \(\beta(\tau)\)。
Canay 估计量的关键在于固定效应 \(\alpha_{i}\) 在分位数 \(\tau\) 上不变化的假设,这意味着固定效应可以通过传统的固定效应来估计。一旦消除,我们就可以应用传统的分位数回归。这种方法的主要缺点是 \(\alpha_{i}\) 不随分位数变化的假设是有限制的。一般来说,面板分位数回归主题是进一步计量经济学研究的潜在重要主题。
24.18 分位数回归
正如我们在第 12 章中所研究的,在许多结构经济模型中,一些回归变量可能是内生的,这意味着与回归误差共同相关。这种情况同样出现在分位数回归模型中。处理内生回归量的标准方法是工具变量回归,它依赖于一组满足不相关性或独立性条件的工具 \(Z\)。类似的方法可以应用于分位数回归,尽管这些技术在计算上更加困难,理论不够完善并且应用有限。
模型是
\[ \begin{aligned} Y &=X^{\prime} \beta_{\tau}+e \\ \mathbb{Q}_{\tau}[e \mid Z] &=0 \end{aligned} \]
其中\(X\) 和\(\beta_{\tau}\) 是\(k \times 1, Z\) 是\(\ell \times 1\),amd \(\ell \geq k\)。与传统分位数回归模型的区别在于,第二个方程以 \(Z\) 为条件,而不是 \(X\)。
对错误的假设意味着\(\mathbb{E}\left[\psi_{\tau}(e) \mid Z\right]=0\)。这与分位数回归模型的推导相同。这是一个条件矩方程。它意味着无条件矩方程\({ }^{5} \mathbb{E}\left[Z \psi_{\tau}(e)\right]=0\)。写成观测值和参数的函数
\[ \mathbb{E}\left[Z \psi_{\tau}\left(Y-X^{\prime} \beta_{\tau}\right)\right]=0 . \]
这是 \(k\) 参数的一组 \(\ell\) 矩方程。合适的估计方法是GMM。计算挑战是 \(\beta_{\tau}\) 中的矩条件函数是不连续的,因此传统的最小化技术会失败。
IV 分位数回归方法由 Chernozhukov 和 C. Hansen (2005) 阐述,欲了解更多详细信息,请参阅该方法。
24.19 技术证明*
定理 24.1 的证明:从 \(\mathbb{P}[Y=m]=0\) 开始,
\[ \mathbb{E}[\operatorname{sgn}(Y-m)]=\mathbb{E}[\mathbb{1}\{Y>m\}]-\mathbb{E}[\mathbb{1}\{Y<m\}]=\mathbb{P}[Y>m]-\mathbb{P}[Y<m]=\frac{1}{2}-\frac{1}{2}=0 \]
即(24.2)。
\({ }^{5}\) 事实上,假设对于任何函数 \(\phi\) 都意味着 \(\mathbb{E}\left[\phi(Z) \psi_{\tau}(e)\right]=0\)。我们假设已选择所需的工具并将其合并到向量 \(Z\) 中,如图所示。交换整合与差异化
\[ \frac{d}{d \theta} \mathbb{E}|Y-\theta|=\mathbb{E}\left[\frac{d}{d \theta}|Y-\theta|\right]=\mathbb{E}[\operatorname{sgn}(Y-\theta)]=0, \]
最终在 \(\theta=m\) 处等于 (24.2)。这是最优的一阶条件。由于 \(\mathbb{E}[\operatorname{sgn}(Y-\theta)]=\) \(1-2 \mathbb{P}[Y<\theta]\) 在 \(\theta\) 中全局递减,二阶条件表明 \(m\) 是唯一的最小化器。这就是(24.3)。
(24.4) 和(24.5) 后面是使用条件分布的类似论证。 (24.6) 是在假设 \(\operatorname{med}[Y \mid X]=X^{\prime} \beta\) 的情况下从 (24.5) 得出的。
定理 24.2 的证明:从 \(\mathbb{P}\left[Y=q_{\tau}\right]=0\) 开始,
\[ \mathbb{E}\left[\psi_{\tau}\left(Y-q_{\tau}\right)\right]=\tau-\mathbb{P}\left[Y<q_{\tau}\right]=0 \]
即(24.11)。
交换整合与差异化
\[ \frac{d}{d \theta} \mathbb{E}\left[\rho_{\tau}(Y-\theta)\right]=\mathbb{E}\left[\psi_{\tau}(Y-\theta)\right]=0, \]
最终在 \(\theta=q_{\tau}\) 处等于 (24.11)。这是最优的一阶条件。由于 \(\mathbb{E}\left[\psi_{\tau}(Y-\theta)\right]=\) \(\tau-\mathbb{P}[Y<\theta]\) 在 \(\theta\) 中全局递减,二阶条件表明 \(q_{\tau}\) 是唯一的最小化器。这是(24.12)。
(24.13)和(24.14)遵循使用条件分布的类似论点。 (24.15) 是在 \(\mathbb{Q}_{\tau}[Y \mid X]=X^{\prime} \beta\) 假设下从 (24.14) 得出的。
定理 24.3 的证明:分位数回归估计量是一个 m 估计量,因此我们求助于定理 22.3,它在五个条件下成立。假设满足条件 1 和 4,条件 2 成立,因为 \(\rho_{\tau}\left(Y-X^{\prime} \beta\right)\) 在 \(\beta\) 中是连续的,而 \(\rho_{\tau}(u)\) 是连续函数。对于条件 3,观察 \(\left|\rho_{\tau}\left(Y-X^{\prime} \beta\right)\right| \leq|Y|+\bar{\beta}\|X\|\) 其中 \(\bar{\beta}=\sup _{\beta \in B}\|\beta\|\)。右边在假设下有有限的期望。
对于条件 5,我们需要证明 \(\beta_{\tau}\) 唯一地最小化 \(M(\beta ; \tau)\)。它是 (24.16) 的最小化器。它是独一无二的,因为 \(M(\beta ; \tau)\) 是一个凸函数并且
\[ \frac{\partial^{2}}{\partial \beta \partial \beta^{\prime}} M\left(\beta_{\tau} ; \tau\right)=\mathbb{E}\left[X X^{\prime} f_{\tau}(0 \mid X)\right]>0 . \]
假设不等式成立;我们现在建立平等。
交换积分和微分,使用 \(\psi_{\tau}(x)=\frac{d}{d x} \rho_{\tau}(x)=\tau-\mathbb{1}\{x<0\}\)、迭代期望定律和条件分布函数 \(F_{\tau}(u \mid x)=\mathbb{E}[\mathbb{1}\{e<u\} \mid X]\)
\[ \begin{aligned} \frac{\partial}{\partial \beta} M(\beta ; \tau) &=-\mathbb{E}\left[X \psi_{\tau}\left(Y-X^{\prime} \beta\right)\right] \\ &=-\tau \mathbb{E}[X]+\mathbb{E}\left[X \mathbb{E}\left[\mathbb{1}\left\{Y<X^{\prime}\left(\beta-\beta_{\tau}\right)\right\} \mid X\right]\right] \\ &=-\tau \mathbb{E}[X]+\mathbb{E}\left[X F_{\tau}\left(X^{\prime}\left(\beta-\beta_{\tau}\right) \mid X\right)\right] . \end{aligned} \]
因此
\[ \frac{\partial^{2}}{\partial \beta \partial \beta^{\prime}} M(\beta ; \tau)=\frac{\partial}{\partial \beta^{\prime}} \mathbb{E}\left[X F_{\tau}\left(X^{\prime}\left(\beta-\beta_{\tau}\right) \mid X\right)\right]=\mathbb{E}\left[X X^{\prime} f_{\tau}\left(X^{\prime}\left(\beta-\beta_{\tau}\right) \mid X\right)\right] \]
(24.22) 的右侧有界于 \(\mathbb{E}\left[X X^{\prime}\right] D\) 下面,\(\mathbb{E}\left[X X^{\prime}\right] D\) 在假设下具有有限元。 (24.22) 对于所有 \(\beta\) 也是半正定的,因此 \(M(\beta ; \tau)\) 是全局凸的。在 \(\beta_{\tau}\) 上计算,(24.22) 等于 (24.20)。这表明 \(M(\beta ; \tau)\) 在最小值 \(\beta_{\tau}\) 处严格凸。因此后者是唯一的最小化器。
我们根据需要共同建立了定理 \(22.3\) 的五个条件。
定理 24.4 的证明:由于 \(\widehat{\beta}_{\tau}\) 是一个分数不连续的 m 估计量,我们验证定理 22.6 的条件,该条件在 \(1,2,3\) 条件下成立,以及定理 22.4 的 5、\(\left\|X \psi_{\tau}\left(Y-X^{\prime} \beta\right)\right\| \leq G(Y, X)\) 和 \(\mathbb{E}\left[G(Y, X)^{2}\right]<\infty\),再加一列出的四个类别中的一个。
观察一下是有用的,因为 \(\psi_{\tau}(u) \leq 1\),
\[ \left\|X \psi_{\tau}\left(Y-X^{\prime} \beta\right)\right\| \leq\|X\| . \]
我们验证条件 \(1,2,3\) 和定理 22.4 的 5。条件 1 成立,因为 (24.23) 隐含 \(\mathbb{E}\left[\|X\|^{2} \psi_{\tau}^{2}\right] \leq \mathbb{E}\|X\|^{2}<\infty\)。条件 2 成立 (24.18)。方程 (24.22) 表明,在 \(f_{\tau}(e \mid x)\) 在 \(e\) 中连续的假设下,\(\frac{\partial^{2}}{\partial \beta \partial \beta^{\prime}} M(\beta ; \tau)\) 是连续的,这意味着条件 3。条件 5 通过假设成立。
根据需要,上限 (24.23) 满足 \(\mathbb{E}\|X\|^{2}<\infty\)。仍有待验证定理 22.6 列出的四个类别之一。观察 \(\psi_{\tau}(u)\) 是有界变分函数,因此 \(\psi_{\tau}\left(Y-X^{\prime} \beta\right)\) 属于第二类。分数 \(X \psi_{\tau}\left(Y-X^{\prime} \beta\right)\) 是 Lipschitz 连续函数 \(X\) 和 \(\psi_{\tau}\left(Y-X^{\prime} \beta\right)\) 的乘积,因此属于第三类。这表明定理 \(22.6\) 可以应用。
我们已经验证了定理 \(22.6\) 的条件,因此渐近正态性如下。对于协方差矩阵,我们计算出
\[ \mathbb{E}\left[\left(X \psi_{\tau}\right)\left(X \psi_{\tau}\right)^{\prime}\right]=\mathbb{E}\left[X X^{\prime} \psi_{\tau}^{2}\right]=\Omega_{\tau} . \]
定理24.5的证明:通过分位数治疗效果的定义、因果效应的单调性(假设24.1.2)、因果效应的定义、治疗反应的单调性(假设24.1.3)以及分位数回归的定义函数,我们发现
\[ \begin{aligned} Q_{\tau}(x) &=\mathbb{Q}_{\tau}[C(X, U) \mid X=x] \\ &=C\left(x, \mathbb{Q}_{\tau}[U \mid X=x]\right) \\ &=h\left(1, x, \mathbb{Q}_{\tau}[U \mid X=x]\right)-h\left(0, x, \mathbb{Q}_{\tau}[U \mid X=x]\right) \\ &=\mathbb{Q}_{\tau}[h(1, X, U) \mid X=x]-\mathbb{Q}_{\tau}[h(0, X, U) \mid X=x] \\ &=q_{\tau}(1, x)-q_{\tau}(0, x) \\ &=D_{\tau}(x) \end{aligned} \]
正如所声称的那样。
24.20 练习
练习24.1 证明定理24.1中的(24.4)。
练习24.2 证明定理24.1中的(24.5)。
练习24.3 定义\(\psi(x)=\tau-\mathbb{1}\{x<0\}\)。让\(\theta\)满足\(\mathbb{E}[\psi(Y-\theta)]=0\)。 \(\theta\) 是 \(Y\) 分布的分位数吗?练习24.4 采用模型\(Y=X^{\prime} \beta+e\),其中给定\(X\),\(e\) 的分布关于零对称。
找到 \(\mathbb{E}[Y \mid X]\) 和 \(\operatorname{med}[Y \mid X]\)。
OLS 和 LAD 估计的是相同的系数 \(\beta\) 还是不同的系数?
在什么情况下您更喜欢 LAD 而不是 OLS?在什么情况下您更喜欢 OLS 而不是 LAD?解释。
练习 24.5 你对估计方程 \(Y=X^{\prime} \beta+e\) 感兴趣。您认为回归量是外生的,但您不确定误差的属性。您可以通过最小绝对偏差 (LAD) 和 OLS 来估计方程。一位同事建议您应该更喜欢 OLS 估计,因为它产生的 \(R^{2}\) 高于 LAD 估计。你的同事说得对吗?
习题 24.6 证明定理 24.2 中的 (24.13)。
习题 24.7 证明定理 24.2 中的 (24.14)。
练习 \(24.8\) 假设 \(X\) 是二进制的。证明 \(\mathbb{Q}_{\tau}[Y \mid X]\) 在 \(X\) 中是线性的。
练习24.9 假设\(X_{1}\)和\(X_{2}\)是二进制的。找到\(\mathbb{Q}_{\tau}\left[Y \mid X_{1}, X_{2}\right]\)。
练习 24.10 显示 (24.19)。
练习24.11 在正确的规范下证明\(\Omega_{\tau}=\mathbb{E}\left[X X^{\prime} \psi_{\tau}^{2}\right]\)满足化简\(\Omega_{\tau}=\) \(\tau(1-\tau) \boldsymbol{Q}\)
练习 24.12 采用定理 24.5 的治疗反应设置。假设 \(h\left(0, X_{2}, U\right)=0\),这意味着只要不进行治疗,响应变量 \(Y\) 就为零。证明假设 \(24.1 .3\) 对于定理 \(24.5\) 不是必需的。
练习 24.13 使用 cps09mar 数据集抽取受过 11 年或以上教育的西班牙裔男性样本。估计教育对数工资的线性分位数回归函数。解释你的发现。
练习 24.14 使用 cps09mar 数据集抽取受过 11 年或以上教育的西班牙裔女性样本。估计教育对数工资的线性分位数回归函数。解释。
练习 24.15 采用 Duflo、Dupas 和 Kremer (2011) 数据集 DDK2011 以及跟踪 = 1 的学生子样本。估计百分位数总分的线性分位数回归(后者是学生学年之前的考试成绩)。通过聚类引导计算标准误差。系数按分位数变化是否有意义?您如何解释这些结果?
练习 24.16 使用 cps09mar 数据集估计类似于图 \(24.6\) 的对数工资的分位数回归 \(5^{\text {th }}\) - 受过大学教育的黑人女性的经验阶多项式。对受过大学教育的白人女性重复上述步骤。解释你的发现。