第26章: 多重选择

26 多重选择

26.1 介绍

本章研究多项模型。这包括多项式响应、多项式 Logit、条件 Logit、嵌套 Logit、混合 Logit、多项式 Probit、有序响应、计数数据和 BLP 需求模型。

更详细的处理参见 Maddala (1983)、Cameron 和 Trivedi (1998)、Cameron 和 Trivedi (2005)、Train (2009) 和 Wooldridge (2010)。

26.2 多项式响应

多项式随机变量 \(Y\) 取有限集中的值,通常写为 \(Y \in\{1,2, \ldots, J\}\)。该集合的元素通常称为替代项。在大多数应用中,替代方案是分类的(汽车、自行车、飞机、火车)和无序的。当没有回归量时,模型由 \(J\) 概率 \(P_{j}=\mathbb{P}[Y=j]\) 完全描述。

\(Y\) 是多项式并且 \(X \in \mathbb{R}^{k}\) 是回归量时,我们通常将 \((Y, X)\) 对描述为多项式响应。给定 \(X\)\(Y\) 的条件分布由响应概率总结

\[ P_{j}(x)=\mathbb{P}[Y=j \mid X=x] . \]

响应概率是非参数确定的,可以是 \(x\) 的任意函数。

我们通过扩展上一章的婚姻状况示例来进行说明。 CPS变量婚姻记录有七类。我们将它们分为四种选择:“已婚”1、“离婚”、“分居”和“从未结婚”。令 \(X\) 为年龄。 \(j=1, \ldots, 4\)\(P_{j}(x)\) 是每种婚姻状态随年龄变化的概率。为了说明这一点,我们以受过大学教育的女性人口为例。

由于响应概率 \(P_{j}(x)\) 是非参数确定的,因此简单的估计方法是对每个类别分别进行二元响应。我们使用年龄的二次样条和 40 岁时的单结在图 26.1 (a) 中绘制对数估计。估计结果显示,“未婚”概率随年龄单调下降,“已婚”概率增加至38岁左右,然后缓慢下降,“离婚”概率随年龄单调上升,“分居”概率较低适合所有年龄段。

图 26.1(a) 估计的一个缺陷是四个估计概率的总和(显示为“总计”)不等于 1。这表明响应概率的单独估计忽略了系统信息。在本章的其余部分中,讨论的估计器不存在此缺陷。

\({ }^{1}\) 婚姻 \(=1,2,3,4\),其中包括丧偶。

  1. 二元响应估计

  1. 多项式 Logit

图 26.1:受过大学教育的女性在特定年龄下的婚姻状况概率

多项式响应通常是由潜在效用模型激发和导出的。假设替代方案 \(j\) 的效用等于

\[ U_{j}^{*}=X^{\prime} \beta_{j}+\varepsilon_{j} \]

其中 \(\beta_{j}\) 是系数,\(\varepsilon_{j}\) 是替代特定误差。系数 \(\beta_{j}\) 描述变量 \(X\) 如何影响个人对替代方案 \(j\) 的效用。错误 \(\varepsilon_{j}\) 是针对个人的,并且包含影响个人效用的未观察到的因素。在婚姻状况示例中(其中 \(X\) 是年龄),系数 \(\beta_{j}\) 描述了每种婚姻状况的效用如何随年龄变化,而误差 \(\varepsilon_{j}\) 包含未按年龄捕获的个体因素。

在潜在效用模型中,假设个人选择具有最高效用 \(U_{j}^{*}\) 的替代方案。因此,\(Y=j\) 如果 \(U_{j}^{*} \geq U_{\ell}^{*}\) 对于所有 \(\ell\)。在模型 (26.1) 中,如果我们将 \(X^{\prime} \gamma\) 添加到每个实用程序,则此选择不会改变。这意味着系数 \(\beta_{j}\) 不会单独识别,最多只能识别替代方案 \(\beta_{j}-\beta_{\ell}\) 之间的差异。识别是通过实施标准化来实现的;标准选择是将 \(\beta_{j}=0\) 设置为基本替代 \(j\),通常被视为最后一个类别 \(U_{j}^{*}\)。报告的系数 \(U_{j}^{*}\) 应解释为相对于基本替代方案的差异。

如果每个效用 (26.1) 乘以正常数,则选择也不会改变。这意味着系数 \(\beta_{j}\) 的规模未确定。为了实现识别,通常要修复错误的规模 \(\varepsilon_{j}\)。因此,系数 \(\beta_{j}\) 的范围没有解释意义。

两个经典的多项响应模型是 Logit 和 Probit。我们在下一节中介绍多项式 Logit,在 \(26.8\) 节中介绍多项式 Probit。

26.3 多项式Logit

简单的多项 Logit 模型是

\[ P_{j}(x)=\frac{\exp \left(x^{\prime} \beta_{j}\right)}{\sum_{\ell=1}^{J} \exp \left(x^{\prime} \beta_{\ell}\right)} . \]

该模型包括二进制 logit \((J=2)\) 作为特例。我们将(26.2)称为简单多项式 Logit,以将其与下一节的条件 Logit 模型区分开。

多项式 Logit 源自以下误差分布的潜在效用模型 (26.1)。

定义26.1 I型极值分布函数为

\[ F(\varepsilon)=\exp (-\exp (-\varepsilon)) . \]

定义 26.2 广义极值 (GEV) 联合分布为

\[ F\left(\varepsilon_{1}, \varepsilon_{2}, \ldots, \varepsilon_{J}\right)=\exp \left(-\left[\sum_{j=1}^{J} \exp \left(-\frac{\varepsilon_{j}}{\tau}\right)\right]^{\tau}\right) \]

\(0<\tau \leq 1\)

对于 \(J=1\),GEV 分布 (26.3) 等于 I 类极值。对于 \(J>1\)\(\tau=1\),GEV 分布等于独立 I 型极值分布的乘积。对于 \(J>1\)\(\tau<1\) GEV 随机变量的相关性等于 \(1-\tau^{2}\)(参见 Kotz 和 Nadarajah (2000))。参数 \(\tau\) 称为相异参数。该分布 (26.3) 是 McFadden (1981) 提出的“GEV 分布”的一个特例。此外,作者之间在符号和标签的选择上也存在异质性。上面使用的符号与Stata手册一致。相比之下,McFadden \((1978,1981)\) 使用 \(1-\sigma\) 代替 \(J=1\) 并将 \(J=1\) 称为相似性参数。 Cameron 和 Trivedi (2005) 使用 \(J=1\) 代替 \(J=1\) 并将 \(J=1\) 称为尺度参数。

以下结果由 McFadden \((1978,1981)\) 提供。

定理 26.1 假设替代 \(j\) 的效用为 \(U_{j}^{*}=X^{\prime} \beta_{j}+\varepsilon_{j}\),并且误差向量 \(\left(\varepsilon_{1}, \ldots, \varepsilon_{j}\right)\) 具有 GEV 分布(26.3)。那么响应概率等于

\[ P_{j}(X)=\frac{\exp \left(X^{\prime} \beta_{j} / \tau\right)}{\sum_{\ell=1}^{J} \exp \left(X^{\prime} \beta_{\ell} / \tau\right)} . \]

证明在第 26.13 节中。定理 \(26.1\) 中的响应概率是带有系数 \(\beta_{j}^{*}=\beta_{j} / \tau\) 的多项式 logit (26.2)。相异性参数 \(\tau\) 仅影响系数的规模,尚未确定。因此,GEV 错误意味着多项 Logit 模型,并且 \(\tau\) 未识别。

如上所述,当 \(\tau=1\) 时,GEV 分布 (26.3) 专门针对 i.i.d。 I 型极值。因此,定理 \(26.1\) 的特殊情况如下:如果错误 \(\varepsilon_{j}\) 是独立同分布的。 I 类极值则响应概率为多项式 logit (26.2),系数为 \(\beta_{j}\)。这是定理 \(26.1\) 最常用和最常表述的含义。

在当代选择模型中,一个常用的假设是效用是极值分布的。这样做是为了可以调用定理 \(26.1\) 来推断选择概率是多项式 logit。一个合理的推论是,这个假设是为了代数方便而做出的,而不是因为有人相信效用实际上是极值分布的。

给定随机样本 \(\left\{Y_{i}, X_{i}\right\}\) 的似然函数构建起来很简单。将响应概率 \(P_{j}(X \mid \beta)\) 写为参数向量 \(\beta=\left(\beta_{1}, \ldots, \beta_{J}\right)\) 的函数。 \(Y\) 的概率质量函数为

\[ \pi(Y \mid X, \beta)=\prod_{j=1}^{J} P_{j}(X \mid \beta)^{\mathbb{1}\{Y=j\}} . \]

对数似然函数是

\[ \ell_{n}(\beta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \mathbb{1}\left\{Y_{i}=j\right\} \log P_{j}\left(X_{i} \mid \beta\right) \]

最大似然估计量 (MLE) 为:

\[ \widehat{\beta}=\underset{\beta}{\operatorname{argmax}} \ell_{n}(\beta) . \]

没有代数解,因此需要通过数值方式找到 \(\widehat{\beta}\)。对数似然函数是全局凹的,因此最大化在数值上很简单。

为了说明这一点,我们使用多项 Logit 估计上一节的婚姻状况示例,并在图 26.1(b) 中显示估计的响应概率。这些估计与图 (a) 中的二元选择估计类似,但构造总和为 1。

多项选择模型的系数可能难以解释。因此,在应用中检查和报告边际效应可能很有用。我们可以计算 \({ }^{2}\) 边际效应为

\[ \delta_{j}(x)=\frac{\partial}{\partial x} P_{j}(x)=P_{j}(x)\left(\beta_{j}-\sum_{\ell=1}^{J} \beta_{\ell} P_{\ell}(x)\right) . \]

这是估计的

\[ \widehat{\delta}_{j}(x)=\widehat{P}_{j}(x)\left(\widehat{\beta}_{j}-\sum_{\ell=1}^{J} \widehat{\beta}_{\ell} \widehat{P}_{\ell}(x)\right) . \]

平均边际效应 \(\operatorname{AME}_{j}=\mathbb{E}\left[\delta_{j}(X)\right]\) 可以通过以下方式估计

\[ \widehat{\mathrm{AME}}_{j}=\frac{1}{n} \sum_{i=1}^{n} \widehat{\delta}_{j}\left(X_{i}\right) . \]

在Stata中,可以使用mlogit命令实现多项式logit。概率可以通过预测和平均边际效应 dydx 来计算。在 R 中,可以使用 mlogit 命令实现多项式 logit。

\({ }^{2}\) 参见练习 26.3。

26.4 条件逻辑

在上一节的简单多项 Logit 模型中,回归量 \(X\) (例如年龄)特定于个体,但不是替代变量(它们没有 \(j\) 下标)。然而,在大多数应用中,回归量因替代方案而异。一个典型的例子是替代品的价格或成本。在潜在效用模型中,可以合理地假设这些特定于替代方案的回归变量仅在选择特定替代方案时影响个人的效用。 McFadden 在 20 世纪 70 年代开发了一种选择模型,该模型允许不同替代方案之间存在不同的回归量,他将其称为条件 Logit 模型。

一个例子将有助于说明该设置。假设您(学生)需要选择一种从公寓到大学的出行方式。出行选择可能包括:步行、骑自行车、公共汽车、火车或汽车。你会选择哪一个?您的选择无疑取决于许多因素,其中特别重要的是每个选项的 \(\operatorname{cost}^{3}\)。我们可以通过指定替代 \(j\) 的效用 \(Y_{j}^{*}\) (26.1) 是其成本 \(X_{j}\) 的函数来对此进行建模。

作为一个具体示例,请考虑教科书网页上的数据集 Koppelman。这是与 R 包 mlogit 一起分发的数据集 ModeCanada 的删节版本,并在 Forinash 和 Koppelman (1993)、Koppelman 和 Wen (2000) 以及 Wen 和 Koppelman (2001) 的论文中使用。这些数据是对加拿大商务旅客针对多伦多-蒙特利尔走廊实际旅行选择进行的一项调查 \({ }^{4}\) 的回应。每个观察 \((n=2779)\) 都是进行特定旅行的特定个体。考虑了四种出行选择:火车、飞机、公共汽车和汽车。可用的回归变量包括每个替代方案的成本、每个替代方案的车内出行时间 (intime)、家庭收入以及行程终点之一是否为城市中心的指标。

条件 Logit 模型假设替代 \(j\) 的效用是回归量 \(X_{j}\) 的函数,回归量 \(X_{j}\) 随替代 \(j\) 的不同而变化:

\[ U_{j}^{*}=X_{j}^{\prime} \gamma+\varepsilon_{j} . \]

这里,\(\gamma\) 是系数,\(\varepsilon_{j}\) 是替代特定误差。请注意,与 (26.1) 相比,\(X_{j}\)\(j\) 上有所不同,而系数 \(\gamma\) 是常见的。例如,在 Koppelman 数据集中,为每个单独/替代对记录了变量 cost 和 intime。 (例如,样本中的第一个观察结果是一名旅行者可以选择乘坐火车出行,花费 \(\$ 58.25\),出行时间为 215 分钟;乘坐飞机出行,花费 \(\$ 142.80\),出行时间为 56 分钟;乘坐巴士出行,花费 \(\$ 27.52\),出行时间为 301 分钟,或乘汽车旅行 \(\$ 71.63\) 和 262 分钟。该旅客选择乘飞机旅行。)

为了理解多项 Logit 模型和条件 Logit 模型之间的差异,(26.1)描述了特定替代方案(例如结婚或离婚)的效用如何受到年龄等变量的影响。这需要每个替代方案都有一个单独的系数才能产生影响。相反,(26.6)描述了替代方案(例如火车或汽车)的效用如何受到成本和时间等因素的影响。这些变量在各个替代方案中具有共同的含义,因此系数共同的限制似乎是合理的。

更一般地,条件 Logit 模型允许某些回归量 \(X_{j}\) 在不同备选方案中变化,而其他回归量 \(W\)\(j\) 中不变。这个型号是

\[ U_{j}^{*}=W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma+\varepsilon_{j} . \]

例如,在 Koppelman 数据集中,变量 cost 和 intime 是 \(X_{j}\) 的组成部分,而变量 Income 和 Urban 是 \(W\) 的组成部分。

在模型 (26.7) 中,系数 \(\gamma\) 和系数差 \(\beta_{j}-\beta_{\ell}\) 按比例确定。通过标准化 \(\varepsilon_{j}\) 的规模并设置 \(\beta_{J}=0\) 作为基本替代 \(J\) 来实现识别。

\({ }^{3}\) 成本可以是多维的,例如包括货币成本和旅行时间。

\({ }^{4}\) 该调查由加拿大国家铁路运输公司进行,旨在评估高铁需求。条件 Logit 模型为 (26.6) 或 (26.7) 加上误差 \(\varepsilon_{j}\) 分布独立同分布的假设。 I 型极值 \({ }^{5}\)。从定理 \(26.1\) 我们推断概率响应函数等于

\[ P_{j}(w, x)=\frac{\exp \left(w^{\prime} \beta_{j}+x_{j}^{\prime} \gamma\right)}{\sum_{\ell=1}^{J} \exp \left(w^{\prime} \beta_{\ell}+x_{\ell}^{\prime} \gamma\right)} . \]

这是多项式 Logit,但带有回归量和系数 \(W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma\)

\(\theta=\left(\beta_{1}, \ldots \beta_{J}, \gamma\right)\).给定观测值 \(\left\{Y_{i}, W_{i}, X_{i}\right\}\) 其中 \(X_{i}=\left\{X_{1 i}, \ldots, X_{J i}\right\}\),对数似然函数为

\[ \ell_{n}(\theta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \mathbb{1}\left\{Y_{i}=j\right\} \log P_{j}\left(W_{i}, X_{i} \mid \theta\right) . \]

最大似然估计器 (MLE) \(\widehat{\theta}\) 最大化 \(\ell_{n}(\theta)\)。没有代数解,因此需要通过数值方式找到 \(\widehat{\theta}\)

使用 Koppelman 数据集,我们估计条件 Logit 模型。表 26.1 报告了估计值。回归变量包括成本、时间、收入和城市。基本的选择是乘火车旅行。前两个系数估计值为负,这意味着选择任何交通方式的概率在该出行方式的货币和时间成本方面都在下降。收入和城市变量不是特定于替代方案的,因此系数会因替代方案而异。航空的城市系数为正,汽车的城市系数为负,表明如果终点是城市,则航空旅行的概率相对于火车旅行增加,反之亦然。航空旅行的收入系数为正,巴士旅行的收入系数为负,这表明交通选择以预期的方式受到旅行者收入的影响。

如前所述,系数估计可能难以解释。计算平均边际效应等变换可能很有用。输入 \(W\) 的平均边际效应的估计如 (26.5) 中所示,其中 \(\widehat{P}_{\ell}\left(X_{i}\right)\) 替换为 \(\widehat{P}_{\ell}\left(W_{i}, X_{i}\right)\)。对于输入 \(X_{j}\),我们计算 \({ }^{6}\)

\[ \delta_{j j}(w, x)=\frac{\partial}{\partial x_{j}} P_{j}(w, x)=\gamma P_{j}(w, x)\left(1-P_{j}(w, x)\right) \]

对于 \(j \neq \ell\)

\[ \delta_{j \ell}(w, x)=\frac{\partial}{\partial x_{\ell}} P_{j}(w, x)=-\gamma P_{j}(w, x) P_{\ell}(w, x) . \]

请注意,它们是双索引的( \(j\)\(\ell\) )。例如,对于 \(X=\operatorname{cost}, j=\) 火车和 \(\ell=\) 航空,\(\delta_{j \ell}\) 是航空旅行成本变化对火车旅行概率的边际效应。在条件 Logit 模型中,计算 (26.10) 意味着对称响应 \(\delta_{j \ell}(w, x)=\delta_{\ell j}(w, x)\)。这意味着(例如)航空成本对火车旅行的边际效应等于火车成本对航空旅行的边际效应 \(^{7}\)。平均边际效应 \(\mathrm{AME}_{j \ell}=\mathbb{E}\left[\delta_{j \ell}(W, X)\right]\) 可以通过(26.5)中的类似样本平均值来估计。 (26.9) 和 (26.10) 的一个有用含义是,AME \({ }_{j j}\) 的分量与 \(j\) 的分量具有相同的符号,而 \(j\) 的分量具有相反的符号。因此,例如,如果成本变量的系数 \(j\) 为负,则自身价格效应为负,交叉价格效应为正。

为了说明这一点,我们在表 26.2 中报告了一组关于火车旅行概率的成本和时间因素的估计 AME。我们专注火车出行,因为高铁需求是人们关注的焦点

\({ }^{5}\) 如果误差是与相异参数 \(\tau\) 共同产生的 GEV,则模型不会改变。然而,\(\tau\) 未被识别,因此在不失一般性的情况下,假设\(\tau=1\)

\({ }^{6}\) 请参阅练习 \(26.5\)

\({ }^{7}\) 如果模型中包含非线性变换,这种对称性就会被破坏。表 26.1:交通选择的多项模型

原创研究。我们计算并报告火车、航空和汽车旅行的货币成本和旅行时间的 AME。要将 AME 转换为近似弹性(这可能更容易解释),请将每个 AME 除以火车旅行的概率 (0.17),然后乘以第一列中报告的因子的样本平均值。您可以计算出,火车旅行相对于火车成本的估计近似弹性为 \(-0.9\),相对于火车旅行时间的估计近似弹性为 \(-2.5\),相对于航空成本的估计近似弹性为 \(1.0\),相对于航空旅行时间的估计近似弹性为 \(1.0\)。 matheq4$,相对于汽车成本为 \(0.6\),相对于汽车行驶时间为 \(1.5\)。这些估计表明,火车旅行对其旅行时间敏感,对其货币成本和机票成本敏感,并且对汽车旅行的旅行时间敏感。我们可以使用估计的 AME 来计算成本和行程时间变化的粗略影响。例如,假设高铁将火车旅行时间减少了 \(33 %\),即平均减少 75 分钟,而价格不变。据估计,这将使火车旅行的概率增加 \(0.14\),即从 \(17 %\) 增加到 \(-0.9\),使用率接近翻倍。

在许多情况下,很自然地预期系数 \(\gamma\) 会因个体而异。我们在第 26.7 节中讨论随机 \(\gamma\) 模型。一个更简单的规范是允许 \(\gamma\) 随个体变化 表 26.2:火车旅行成本和时间的 AME

Effect of Mean Cond. Logit Mixed Logit Simple Multi. Probit Multi. Probit
Train Cost ($) {56 \(-0.27\) \(-0.28\) \(-0.32\) \(-0.08\)
\((0.04)\) \((0.05)\) \((0.04)\) \((0.03)\)
Train Time (min.) {224 \(-0.19\) \(-0.20\) \(-0.19\) \(-0.09\)
\((0.01)\) \((0.01)\) \((0.01)\) \((0.01)\)
Air Cost ($) {153 \(0.11\) \(0.11\) \(0.13\) \(0.05\)
{ \((0.02)\) \((0.02)\) \((0.02)\)
Air Time (min.) {54 \(0.08\) \(0.08\) \(0.08\) \(0.06\)
\((0.01)\) \((0.01)\) \((0.01)\) \((0.01)\)
Car Cost ($) {65 \(0.16\) \(0.17\) \(0.18\) \(0.02\)
\((0.01)\) \((0.03)\) \((0.02)\) \((0.01)\)
Car Time (min.) {232 \(0.11\) \(0.12\) \(0.11\) \(0.02\)
\((0.01)\) \((0.01)\) \((0.01)\) \((0.01)\)

注:为了便于阅读,报告的 AME 估计值已乘以 100。

特征\(W\)。例如,在交通应用中,旅行时间的机会成本可能与个人工资相关,而个人工资可以用家庭收入来代替。我们可以将其写为 \(\gamma=\gamma_{1}+\gamma_{2} X\)。代入(26.7)我们得到模型

\[ U_{j}^{*}=W \beta_{j}+X_{j} \gamma_{1}+X_{j} W \gamma_{2}+\varepsilon_{j} \]

为简单起见,我们假设 \(W\)\(X_{j}\) 是标量。这可以通过将 \(X_{j}\) 重新定义为 \(\left(X_{j}, X_{j} W\right)\) 来写成形式 (26.7),并应用相同的估计方法。在我们的应用中,该模型对 \(\gamma_{2}\) 产生负估计,表明旅行时间成本确实在收入中增加。

在 Stata 中,可以使用 cmclogit 估计模型 (26.7)。概率可以通过预测来计算,边际效应可以通过边际来计算。在 R 中,使用 mlogit。

26.5 不相关替代方案的独立性

多项 Logit 模型有一个不希望的限制。对于固定参数和回归量,两种选择的概率之比为

\[ \frac{P_{j}(W, X \mid \theta)}{P_{\ell}(W, X \mid \theta)}=\frac{\exp \left(W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma\right)}{\exp \left(W^{\prime} \beta_{\ell}+X_{\ell}^{\prime} \gamma\right)} . \]

该优势比仅是输入 \(X_{j}\)\(X_{\ell}\) 的函数,不依赖于任何特定于其他替代方案的输入,并且不会因其他替代方案的存在而改变。此属性称为不相关替代项的独立性 (IIA),这意味着选项 \(j\)\(\ell\) 之间的选择独立于其他替代项,因此后者与二元选择无关。该属性与多项 Logit 模型密切相关,因为后者是 Luce (1959) 根据 IIA 假设公理地推导出来的。

为了理解为什么 IIA 可能存在问题,思考具体的例子会有所帮助。就拿上一节的交通选择问题来说。 IIA条件是指选择火车与选择汽车的概率之比不受机票价格的影响。如果个人认为这组选择具有类似的可替代性,那么这可能是有道理的,但如果火车和航空是相近的替代品,那就没有意义了。在后一种情况下,低廉的机票可能使个人不太可能选择火车旅行,同时不影响他们选择汽车旅行的可能性。

此问题的一个著名示例是以下设置。假设替代方案是汽车和公共汽车,并假设替代方案的概率被分割 \(50 %-50 %\)。现在假设我们可以将巴士替代方案分为“红色巴士”和“蓝色巴士”,因此总共有三种替代方案。假设蓝色巴士和红色巴士非常相似:它们有相似的时间表、便利性和成本。在这种情况下,大多数人对蓝色和红色巴士几乎没有什么区别,因此这些替代方案将获得相似的概率。因此,预期这三个选择的概率接近 \(50 %-25 %-25 %\) 似乎是合理的。然而,IIA 条件意味着前两个概率的比率必须保持为 1,因此这意味着三个选择的概率将为 33%-33%-33%。我们推断,多项 Logit 模型意味着将“红色巴士”添加到选择列表中会导致汽车使用量从 \(50 %\) 减少到 \(33 %\)。这没有道理;这是一种不合理的暗示。这个例子被称为“红色巴士/蓝色巴士谜题”。

问题的根源在于IIA结构和多项logit模型排除了替代方案之间有区别的可替代性。当替代方案(例如公共汽车、火车和汽车)明显区分并且具有相当相似的可替代性程度时,这可能是合适的。当替代品的子集(例如红色巴士和蓝色巴士)是相近替代品时,这是不合适的。

部分问题是由于广义极值分布对误差施加的限制性相关模式造成的。为了允许诸如红色总线/蓝色总线之类的情况,我们需要更灵活的相关结构,该结构允许替代方案的子集具有差异相关性。

26.6 嵌套逻辑

嵌套 Logit 模型通过将备选方案分组来规避上一节中描述的 IIA 问题。组内的替代方案允许相关,但假设组间不相关。

该模型假定存在 \(J\) 组,每个组都有 \(K_{j}\) 替代项。我们使用 \(j\) 表示组,\(k\) 表示组内的替代方案,并使用“ \(j k\) ”表示特定的替代方案。让 \(W\) 表示个别特定的回归量,\(X_{j k}\) 表示因替代方案而异的回归量。 \(j k^{t h}\) 替代方案的效用是回归量加上误差的函数:

\[ U_{j k}^{*}=W^{\prime} \beta_{j k}+X_{j k}^{\prime} \gamma+\varepsilon_{j k} . \]

该模型假设个人选择具有最高效用 \(U_{j k}^{*}\) 的替代方案 \(j k\)

McFadden 的嵌套 Logit 模型假设误差具有以下 GEV 联合分布

\[ F\left(\varepsilon_{11}, \ldots, \varepsilon_{J K_{J}}\right)=\exp \left(-\sum_{j=1}^{J}\left[\sum_{k=1}^{K_{j}} \exp \left(-\frac{\varepsilon_{j k}}{\tau_{j}}\right)\right]^{\tau_{j}}\right) . \]

这是 GEV 分布 (26.3) 的概括。分布 (26.13) 是 \(J\) GEV 分布 (26.3) 的乘积,每个分布都具有相异参数 \(\tau_{j}\),这意味着每组内的误差都是具有相异参数 \(\tau_{j}\) 的 GEV 分布。各组之间的错误是独立的。当 \(\tau_{j}=1\) 对于所有 \(j\) 时,误差是相互独立的,并且联合模型等于条件 logit。当 \(\tau_{j}<1\) 对于某些 \(j\) 时,组 \(j\) 中的错误相关,但与其他错误不相关。如果一个组只有一个替代方案,则其相异性参数不会被识别,因此应设置为 1。

嵌套 Logit 模型 (26.12)-(26.13) 在结构上与条件 Logit 模型相同,只是误差分布是 (26.13) 而不是 (26.3)。系数 \(\beta_{j k}\)\(\gamma\) 具有与条件 Logit 模型中相同的解释。如所写,(26.12) 允许系数 \(\beta_{j k}\) 在替代方案 \(j k\) 中变化,而系数 \(\gamma\)\(j\)\(k\) 中是通用的。其他规格也是可能的。例如,可以更改模型以允许系数 \(\beta_{j}\) 和/或 \(\gamma_{j}\) 在组之间变化,但不允许在替代方案中变化。可变性程度是具有灵活性/简约性权衡的建模选择。也有可能(但在实践中不太常见)变量 \(\beta_{j k}\) 因组而异,但不因替代而异。这些可以包含在具有公共系数的模型中。

将备选方案划分为组是一个建模决策。具有高度可替代性的替代方案应放在同一组中。具有低可替代性的替代品应分为不同的组。

为了说明这一点,请考虑消费者购买汽车的选择。为简单起见,假设有四种选择:本田思域、福特 Fusion、本田 CR-V 和福特 Escape。前两种是紧凑型汽车,后两种是运动型多用途车(SUV)。因此,将前两者视为替代品,将后两者视为替代品是合理的。我们将这种嵌套显示为树形图,如图 26.2 所示。这显示了决策“汽车”分为“紧凑型”和“运动型多用途车”以及按型号的进一步划分。

图 26.2:嵌套选择

仅识别系数 \(\beta_{j k}\) 之间的差异。通过将一个替代方案 \(j k\) 设置为基本替代方案来实现识别。如果系数 \(\beta_{j}\) 被限制为按组变化,则通过设置基组来实现识别。系数的规模没有与 GEV 分布中隐含的误差的规模分开确定(26.13)。

一些作者将模型(26.12)解释为嵌套的顺序选择。个人首先选择一个组,然后选择组内的最佳选项。例如,在汽车选择示例中,您可以想象首先决定汽车的风格(紧凑型或 SUV),然后决定每个类别中的特定汽车(例如 Civic 与 Fusion 或 CR-V 与 Escape)。顺序选择解释可能有助于构建分组。然而,应谨慎使用顺序选择,因为它在技术上是不正确的。正确的解释是可替代性的程度,而不是决策的时间安排。

如果 \(W\) 上的系数 \(\beta_{j}\) 被限制为仅在不同组之间变化(例如,这是 Stata 中的默认值),则 (26.12) 中的效果 \(W^{\prime} \beta_{j}\) 会改变组内所有替代方案的效用,并且因此不会影响群体内替代方案的选择。在这种情况下,变量 \(W\) 可以描述为“影响组的选择”。

我们现在描述嵌套的 Logit 响应概率。

定理 26.2 假设替代方案 \(j k\) 的效用为 \(U_{j k}^{*}=\mu_{j k}+\varepsilon_{j k}\),且误差向量具有分布函数 (26.13)。那么响应概率等于 \(P_{j k}=P_{k \mid j} P_{j}\) 其中

\[ P_{k \mid j}=\frac{\exp \left(\mu_{j k} / \tau_{j}\right)}{\sum_{m=1}^{K_{j}} \exp \left(\mu_{j m} / \tau_{j}\right)} \]

\[ P_{j}=\frac{\left(\sum_{m=1}^{K_{j}} \exp \left(\mu_{j m} / \tau_{j}\right)\right)^{\tau_{j}}}{\sum_{\ell=1}^{J}\left(\sum_{m=1}^{K_{\ell}} \exp \left(\mu_{\ell m} / \tau_{\ell}\right)\right)^{\tau_{\ell}}} . \]

定理 \(26.2\) 表明响应概率等于两项的乘积:\(P_{k \mid j}\)\(P_{j}\)。第一个 \(P_{k \mid j}\) 是给定组 \(j\) 的替代 \(k\) 的条件概率,并采用标准条件 Logit 形式。第二个 \(P_{j}\) 是组 \(j\) 的概率。

\(\theta\) 为参数。对数似然函数是

\[ \ell_{n}(\theta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \sum_{k=1}^{K_{j}} \mathbb{1}\left\{Y_{i}=j k\right\}\left(\log P_{k \mid j}\left(W_{i}, X_{i} \mid \theta\right)+\log P_{j}\left(W_{i}, X_{i} \mid \theta\right)\right) . \]

MLE \(\widehat{\theta}\) 最大化 \(\ell_{n}(\theta)\)。没有代数解,因此需要通过数值方式找到 \(\widehat{\theta}\)

由于嵌套 Logit 模型的概率结构比条件 Logit 模型更复杂,因此可能难以解释系数估计。边际效应(原则上)可以计算,但这些是系数的复杂函数。

为了说明这一点,我们使用 Koppelman 数据集估计了交通选择的嵌套 Logit 模型。为了便于比较,我们估计与条件 Logit 相同的规格。不同之处在于,我们使用 GEV 分布 (26.13) 以及分组 \(\{\) 汽车、航空 \(\}\)\(\{\) 火车、公共汽车 \(\}\)。这增加了两个相异参数。结果报告在表 \(26.1\) 的第二列中。

\(\{\) 汽车、空气 \(\}\) 的相异参数估计值是 \(0.24\),很小。它意味着汽车和航空公用事业冲击之间存在 \(0.94\) 的相关性。这表明条件 Logit 模型(假设效用误差是独立的)被错误指定。 {train,bus} 的相异参数估计位于 \({ }^{8} 1.00\) 边界上,因此没有标准误差。

嵌套 Logit 建模受到选择分组的必要性的限制。通常没有独特的明显结构;因此,任何拟议的分组都可能出现错误指定。

在本节中,我们描述了具有一个嵌套层的嵌套 logit 模型。该模型扩展到多个嵌套层。不同之处在于,联合分布 (26.13) 被修改为允许与其他相异参数进行更高水平的交互。一个应用例子是 Goldberg (1995),他使用五层嵌套 Logit 模型来估计汽车的需求。她的分析中使用的水平是(1)买入/不买入; (2) 新的/二手的; (3)轿车类; (4) 国外/国内; (5) 车型。

在Stata中,嵌套logit模型可以通过nlogit来估计。

26.7 混合逻辑

条件 Logit 模型的推广允许替代变量回归量上的系数 \(\gamma\) 在个体之间是随机的,称为混合 Logit。该模型也称为条件混合 Logit 和随机参数 Logit。

回想一下,条件 Logit 模型是 \(U_{j}^{*}=W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma+\varepsilon_{j}\)\(\varepsilon_{j}\) i.i.d。极值。现在将 \(\gamma\) 替换为个人特定的随机变量 \(\eta\),分布为 \(F(\eta \mid \alpha)\) 和参数 \(\alpha\)。这个型号是

\[ \begin{aligned} U_{j}^{*} &=W^{\prime} \beta_{j}+X_{j}^{\prime} \eta+\varepsilon_{j} \\ \eta & \sim F(\eta \mid \alpha) . \end{aligned} \]

例如,在我们的交通选择应用程序中,变量 \(X_{j}\) 是每种替代方案的成本和旅行时间。上述模型允许成本和时间对效用的影响在个体之间是异质的。

\(\eta\) 最常见的分布假设是带有对角协方差矩阵 \(D\)\(\mathrm{N}(\gamma, D)\)。其他常见规范包括带有无约束协方差矩阵 \(\Sigma\)\(\mathrm{N}(\gamma, \Sigma)\),以及强制执行 \(\eta \geq 0\) 的对数正态分布 \(\eta\)。 (可以通过首先将相关回归量 \(X_{j}\) 乘以 -1 来施加约束 \(\eta \leq 0\)。)对 \(\eta\) 进行分区也很常见,以便某些变量具有随机系数,而其他变量具有固定系数。这些约束可能是理想的原因是简约和更简单的计算。

在正态性规范 \(\eta \sim \mathrm{N}(\gamma, D)\)\(\eta \sim \mathrm{N}(\gamma, \Sigma)\) 下,平均值 \(\gamma\) 等于总体中的平均随机系数,并且与条件 Logit 模型中的系数 \(\gamma\) 具有类似的解释。 \(D\)\(\Sigma\) 中的方差控制总体中 \(\eta\) 分布的离散度。较小的方差意味着 \(\eta\) 是轻度分散的;较大的方差意味着高度的分散性和异质性。

混合 Logit 模型的一个有用特征是随机系数引起备选方案之间的相关性。要查看这一点,请编写 \(\gamma=\mathbb{E}[\eta]\)\(V_{j}=X_{j}^{\prime}(\eta-\gamma)+\varepsilon_{j}\)。那么模型可以写成

\[ Y_{j}^{*}=W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma+V_{j} \]

这是传统的随机实用程序框架,但错误为 \(V_{j}\) 而不是 \(\varepsilon_{j}\)。一个重要的区别是,这些错误是有条件异方差的,并且在各个替代方案之间相关:

\[ \mathbb{E}\left[V_{j} V_{\ell} \mid X_{j}, X_{\ell}\right]=X_{j}^{\prime} \operatorname{var}[\eta] X_{\ell} . \]

\({ }^{8}\) 无约束最大化器超出了违反参数空间的值,因此可以有效地估计模型,将此相异参数限制为等于 1。这种非零相关性意味着 IIA 属性被部分破坏,从而使混合 Logit 模型比条件 Logit 模型更灵活地捕获选择行为。

\(\eta\) 为条件,响应概率由 (26.8) 得出

\[ P_{j}(w, x \mid \eta)=\frac{\exp \left(w^{\prime} \beta_{j}+x_{j}^{\prime} \eta\right)}{\sum_{\ell=1}^{J} \exp \left(w^{\prime} \beta_{\ell}+x_{\ell}^{\prime} \eta\right)} . \]

通过积分可以找到无条件响应概率。

\[ P_{j}(w, x)=\int P_{j}(w, x \mid \eta) d F(\eta \mid \alpha) . \]

对数似然函数是

\[ \ell_{n}(\theta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \mathbb{1}\left\{Y_{i}=j\right\} \log P_{j}\left(W_{i}, X_{i} \mid \theta\right) \]

其中 \(\theta\) 是包括 \(\eta\) 在内的所有参数的列表。

(26.14) 中的积分不能以封闭形式获得。标准数值实现 \({ }^{9}\) 是蒙特卡罗积分(通过模拟估计)。该技术的工作原理如下。令 \(\left\{\eta_{1}, \ldots, \eta_{G}\right\}\) 为一组 i.i.d。伪随机取自 \(F(\eta \mid \alpha)\)。 (26.14) 的模拟估计量为

\[ \widetilde{P}_{j}(w, x)=\frac{1}{G} \sum_{g=1}^{G} P_{j}\left(w, x \mid \eta_{g}\right) \]

随着 \(G\) 的增加,该概率收敛到 (26.14)。当 \(\eta\) 的维数为 3 或更大时,蒙特卡洛积分在计算上比数值积分更有效,但其计算强度比非随机条件 Logit 要大得多。

为了说明这一点,我们估计了交通应用的混合 Logit 模型,将旅行时间系数视为正态随机变量。表 \(26.1\) 中报告了系数估计值,表 \(26.2\) 中报告了估计的边际效应。结果与条件 Logit 模型类似。行程时间系数的平均值 \(-0.014\) 几乎与条件 Logit 估计相同,标准差 \(0.005\) 约为平均值的三分之一。这表明该系数在旅行者之间存在轻微异质性。该随机系数的解释是旅行者具有与旅行时间相关的异质成本。

在Stata中,混合logit可以通过cmmixlogit来估计。

26.8 简单多项式概率

简单多项式概率和简单条件多项式概率模型结合了潜在效用模型

\[ U_{j}^{*}=W^{\prime} \beta_{j}+\varepsilon_{j} \]

或者

\[ U_{j}^{*}=W^{\prime} \beta_{j}+X_{j}^{\prime} \gamma+\varepsilon_{j} \]

假设 \(\varepsilon_{j}\) 是 i.i.d. \(\mathrm{N}(0,1)\)。它们与 \(26.3\) 节的简单多项 Logit 模型和 \(26.4\) 节的条件 Logit 模型相同,只是误差分布是正态分布而不是极值分布。

\({ }^{9}\) 如果随机系数 \(\eta\) 是标量,则计算上更有效的方法是求积积分。简单多项式概率并不完全满足IIA,但其性质与IIA相似。该模型假设误差是独立的,因此不允许有两种选择,例如“红巴士”和“蓝巴士”,是相近的替代品。这意味着在实践中,简单多项式概率将产生与简单多项式 Logit 类似的结果。

辨识与多项 Logit 相同。系数 \(\beta_{j}\)\(\gamma\) 仅按比例确定,系数 \(\beta_{j}\) 仅相对于基本替代方案确定。

响应概率 \(P_{j}(W, X)\) 不以封闭形式提供。然而,正如我们现在所展示的,它可以表示为一维积分。

定理26.3 在简单多项式概率和简单条件多项式概率模型中,响应概率相等

\[ P_{j}(W, X)=\int_{-\infty}^{\infty} \prod_{\ell \neq j} \Phi\left(W^{\prime}\left(\beta_{j}-\beta_{\ell}\right)+\left(X_{j}-X_{\ell}\right)^{\prime} \gamma+v\right) \phi(v) d v \]

其中 \(\Phi(\nu)\)\(\phi(\nu)\) 是正态分布和密度函数。

证明在第 26.13 节中给出。定理 \(26.3\) 表明响应概率是正态分布函数的 \(J-1\) 倍积上的一维正态积分。该积分 (26.18) 可以直接通过求积方法进行数值计算。

\(\theta=\left(\beta_{1}, \ldots \beta_{J}, \gamma\right)\) 表示参数。给定样本 \(\left\{Y_{i}, W_{i}, X_{i}\right\}\),对数似然为

\[ \ell_{n}(\theta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \mathbb{1}\left\{Y_{i}=j\right\} \log P_{j}\left(W_{i}, X_{i} \mid \theta\right) . \]

最大似然估计器 (MLE) \(\widehat{\theta}\) 最大化 \(\ell_{n}(\theta)\)

为了说明这一点,我们使用与之前相同的规范来估计一个用于交通选择的简单条件多项概率模型。结果报告于表 26.1 的第四列中。我们在表 \(26.2\) 中报告了平均边际效应。我们看到估计的 AME 与条件 Logit 模型的 AME 非常接近。

在 Stata 中,简单的多元概率可以通过 mprobit 来估计。通过对积分 (26.18) 求积来计算响应概率和对数似然。简单条件多项式概率可以通过 cmmprobit 来估计。后者使用模拟最大似然法(在下一节中讨论),尽管数值计算可以使用一维积分(26.18)有效地实现。

26.9 一般多项式概率

避免多项式和嵌套 Logit 相关性约束的模型是一般多项式概率,其误差向量 \(\varepsilon \sim \mathrm{N}(0, \Sigma)\) 和无约束 \(\Sigma\) 为 (26.17)。

系数的识别与多项式 Logit 相同。系数 \(\beta_{j}\)\(\gamma\) 仅按比例进行识别,系数 \(\beta_{j}\) 仅相对于基本替代 \(J\) 进行识别。

协方差矩阵 \(\Sigma\) 的识别需要更多的关注。事实证明,根据差异效用重写模型是有用的,其中差异是相对于基本替代方案 \(J\) 而言的。不同的实用程序是

\[ U_{j}^{*}-U_{J}^{*}=W^{\prime}\left(\beta_{j}-\beta_{J}\right)+\left(X_{j}-X_{J}\right)^{\prime} \gamma+\varepsilon_{j J} \]

其中 \(\varepsilon_{j J}=\varepsilon_{j}-\varepsilon_{J}\).令\(\Sigma_{J}\)\(j=1, \ldots, J-1\)\(\varepsilon_{j J}\) 的协方差矩阵。例如,假设错误 \(\varepsilon_{j}\) 是独立同分布的。 \(N(0,1)\)。在这种情况下 \(\Sigma_{J}\) 等于

\[ \Sigma_{J}=\left[\begin{array}{cccc} 2 & 1 & \cdots & 1 \\ 1 & 2 & \cdots & 1 \\ \vdots & \vdots & \ddots & \vdots \\ 1 & 1 & \cdots & 2 \end{array}\right] . \]

(26.19) 的尺度未确定,因此 \(\Sigma_{J}\) 通过固定 \(\Sigma_{J}\) 的一个对角元素进行标准化。例如,在 Stata 中, cmmprobit 将一个元素的方差(“尺度替代”)归一化为 2 ,以匹配情况 (26.20)。因此,\(\Sigma_{J}\) 具有 \((J-1) J / 2-1\) 自由协方差参数。

具有一般协方差矩阵 \(\Sigma_{J}\) 的多项式概率比条件 Logit 和嵌套 Logit 更灵活。这种灵活性允许一般多项式概率逃脱 IIA 限制。

响应概率没有封闭式表达式,但可以写为 \(J-1\) 维积分。三维及更高维积分的数值计算在计算上是令人望而却步的。一种可行的替代方案是数值模拟。粗略地说,这个想法是从模型中模拟大量随机抽取,并计算满足所需不等式的频率。这给出了响应概率的模拟估计。暴力实现这个想法可能效率低下,因此引入了巧妙的技巧来产生计算上有效的估计。该标准实现是由 Geweke、Hajivassiliou 和 Keane 在一系列论文中开发的,被称为 GHK 模拟器。有关描述和参考,请参阅 Train (2009)。 GHK模拟器提供了一种可行的方法来估计似然函数,称为模拟最大似然。虽然可行,但模拟最大似然的计算量很大,因此优化找到 MLE 的似然的计算速度很慢。此外,似然度在参数中不是凹的,因此在某些应用中可能难以获得收敛。因此,谨慎使用更简单的方法(例如用于探索性分析的条件和嵌套 Logit 以及用于最终阶段估计的多项概率)可能是明智的。

为了说明这一点,我们估计了交通应用的一般多项式概率模型。我们将基础替代方案设置为火车,将规模替代方案设置为航空。表 \(26.1\) 报告了系数估计值,表 \(26.2\) 报告了边际效应。我们发现,成本和旅行时间方面的估计边际效应比条件 Logit 模型小得多。这表明价格弹性 \((-0.3)\) 和旅行时间弹性 \((-1.1)\) 大大降低。假设(正如我们在第 26.4 节中所考虑的)高铁将火车旅行时间减少了 \(33 %\)。多项概率估计意味着火车旅行从 \(17 %\) 增加到 \(24 %\) - 大约增加 \(40 %\)。这是相当大的,但只是条件 logit 估计的增长的一半。

具有四个备选方案的多项概率模型具有五个协方差参数。下面的 \(3 \times 3\) 表报告了交通应用的估算。对角线元素是方差估计,非对角线元素是相关性估计。一个有趣的发现是,航空旅行和汽车旅行之间的估计相关性为 \(0.99\),这与嵌套 Logit 模型的估计类似。在这两个框架中,估计结果表明航空旅行和汽车旅行之间存在高度相关性,这意味着具有独立误差的规范被错误指定。

在 Stata 中,多元概率可以通过 cmmprobit 来估计。它使用如上所述的 GHK 模拟最大似然。

26.10 有序响应

如果替代项具有序数(有序)解释,则多项式 \(Y\) 是有序的。例如,学生可能会被要求“评价你的[计量经济学]教授”,可能的回答是:差、一般、一般、好或优秀,编码为 \(\{1,2,3,4,5\}\)。这些反应是明确的,但也按顺序相关。我们可以使用标准多项式方法(例如多项式 logit 或 probit),但这忽略了序数结构,因此效率低下。

有序响应的标准方法基于潜变量框架

\[ \begin{aligned} U^{*} &=X^{\prime} \beta+\varepsilon \\ \varepsilon & \sim G \end{aligned} \]

其中 \(X\) 不包含截距。该模型指定响应 \(Y\)\(U^{*}\) 跨越一系列有序阈值 \(\alpha_{1}<\alpha_{2}<\cdots<\alpha_{J-1}\) 确定。因此

\[ \begin{array}{ccc} Y=1 & \text { if } & U^{*} \leq \alpha_{1} \\ Y=2 & \text { if } & \alpha_{1}<U^{*} \leq \alpha_{2} \\ \vdots & \vdots & \vdots \\ Y=J-1 & \text { if } & \alpha_{J-2}<U^{*} \leq \alpha_{J-1} \\ Y=J & \text { if } & \alpha_{J-1}<U^{*} . \end{array} \]

编写 \(\alpha_{0}=-\infty\)\(\alpha_{J}=\infty\),我们可以将这些 \(J\) 方程更紧凑地写为 \(Y=j\) if \(\alpha_{j-1}<U^{*} \leq \alpha_{j}\)。当 \(J=2\) 时,该模型专门用于二元选择。

标准解释是 \(U^{*}\) 是潜在的连续响应,\(Y\) 是离散版本。再考虑一下“评价你的教授”的例子。在模型中,\(U^{*}\) 是学生的真实评估。响应 \(Y\) 是离散化版本。阈值交叉模型假设潜在变量的响应正在增加,并且由阈值确定。

在标准有序响应框架中,假设错误 \(\varepsilon\) 的分布 \(G(x)\) 已知;在实践中,要么使用正态分布,要么使用逻辑分布。当 \(\varepsilon\) 正常时,该模型称为有序概率。当 \(\varepsilon\) 是逻辑时,模型称为有序 logit。系数和阈值仅按比例确定;标准归一化是固定 \(\varepsilon\) 的分布范围。

响应概率为

\[ \begin{aligned} P_{j}(x) &=\mathbb{P}[Y=j \mid X=x] \\ &=\mathbb{P}\left[\alpha_{j-1}<U^{*} \leq \alpha_{j} \mid X=x\right] \\ &=\mathbb{P}\left[\alpha_{j-1}-X^{\prime} \beta<\varepsilon \leq \alpha_{j}-X^{\prime} \beta \mid X=x\right] \\ &=G\left(\alpha_{j}-x^{\prime} \beta\right)-G\left(\alpha_{j-1}-x^{\prime} \beta\right) . \end{aligned} \]

解释累积响应概率可能更容易

\[ \mathbb{P}[Y \leq j \mid X=x]=G\left(\alpha_{j}-x^{\prime} \beta\right) . \]

边际效应是

\[ \frac{\partial}{\partial x} P_{j}(x)=\beta\left(g\left(\alpha_{j-1}-x^{\prime} \beta\right)-g\left(\alpha_{j}-x^{\prime} \beta\right)\right) \]

边际累积效应是

\[ \frac{\partial}{\partial x} \mathbb{P}[Y \leq j \mid X=x]=-\beta g\left(\alpha_{j}-x^{\prime} \beta\right) . \]

为了说明这一点,图 \(26.3\) 显示了如何确定响应概率。该图绘制了潜在效用 \(U^{*}\) 的分布函数,四个阈值 \(\alpha_{1}, \alpha_{2}, \alpha_{3}\)\(\alpha_{4}\) 显示在 x 轴上。响应 \(Y\) 由跨越每个阈值的 \(U^{*}\) 确定。每个阈值都映射到 \(y\) 轴上的一个点。每个结果的概率在 y 轴上标记为每个概率交叉之间的差异。

图 26.3:有序选择

参数是 \(\theta=\left(\beta, \alpha_{1}, \ldots \alpha_{J-1}\right)\)。给定样本 \(\left\{Y_{i}, X_{i}\right\}\),对数似然为

\[ \ell_{n}(\theta)=\sum_{i=1}^{n} \sum_{j=1}^{J} \mathbb{1}\left\{Y_{i}=j\right\} \log P_{j}\left(X_{i} \mid \theta\right) . \]

最大似然估计器 (MLE) \(\widehat{\theta}\) 最大化 \(\ell_{n}(\theta)\)

在 Stata 中,有序 probit 和 logit 可以通过 oprobit 和 ologit 进行估计。

26.11 计数数据

计数数据是指因变量是记录为正整数 \(Y \in\{0,1,2, \ldots\}\) 的“事件”数量的情况。例如,看医生的次数、事故的次数、专利注册的次数、缺勤的次数或银行倒闭的次数。计数数据模型通常用于计数为小整数的情况。

计数数据模型通过属性 \(\sum_{j=0}^{\infty} P_{j}(x)=1\) 指定 \(j=0,1,2, \ldots\) 的响应概率 \(P_{j}(x)=\mathbb{P}[Y=j \mid x]\)。基线模型是泊松回归。该模型指定 \(Y\) 服从条件泊松分布,泊松参数 \(\lambda\) 写为回归量线性函数的指数链接。使用指数链接来确保泊松参数严格为正。这个型号是

\[ \begin{aligned} P_{j}(x) &=\frac{\exp (-\lambda(x)) \lambda(x)^{j}}{j !} \\ \lambda(x) &=\exp \left(x^{\prime} \beta\right) . \end{aligned} \]

泊松分布具有均值和方差等于泊松参数 \(\lambda\) 的特性。因此

\[ \begin{aligned} \mathbb{E}[Y \mid X] &=\exp \left(X^{\prime} \beta\right) \\ \operatorname{var}[Y \mid X] &=\exp \left(X^{\prime} \beta\right) . \end{aligned} \]

第一个方程显示条件期望(例如回归函数)等于 \(\exp \left(X^{\prime} \beta\right)\)。这就是该模型被称为泊松回归的原因。

对数似然函数是

\[ \ell_{n}(\beta)=\sum_{i=1}^{n} \log P_{Y_{i}}\left(X_{i} \mid \beta\right)=\sum_{i=1}^{n}\left(-\exp \left(X_{i}^{\prime} \beta\right)+Y_{i} X_{i}^{\prime} \beta-\log \left(Y_{i} !\right)\right) \]

MLE \(\widehat{\beta}\) 是使 \(\ell_{n}(\beta)\) 最大化的值 \(\beta\)。其一阶导数和二阶导数为

\[ \begin{aligned} \frac{\partial}{\partial \beta} \ell_{n}(\beta) &=\sum_{i=1}^{n} X_{i}\left(Y_{i}-\exp \left(X_{i}^{\prime} \beta\right)\right) \\ \frac{\partial^{2}}{\partial \beta \partial \beta^{\prime}} \ell_{n}(\beta) &=-\sum_{i=1}^{n} X_{i} X_{i}^{\prime} \exp \left(X_{i}^{\prime} \beta\right) \end{aligned} \]

由于二阶导数是全局负定的,因此对数似然函数是全局凹的。因此,寻找 MLE 的数值优化在计算上是很简单的。

一般来说,没有理由期望泊松模型能够被正确指定。因此,我们应该将参数 \(\beta\) 视为最适合的伪真值。从最大化的一阶条件我们发现这个值满足

\[ \mathbb{E}\left[X\left(Y-\exp \left(X^{\prime} \beta\right)\right)\right]=0 . \]

这在条件期望假设 \(\mathbb{E}[Y \mid X]=\exp \left(X^{\prime} \beta\right)\) 下成立。如果正确指定后者,泊松回归将正确识别系数 \(\beta\),MLE 与该值一致,并且估计的响应概率与真实响应概率一致。

为了进一步探讨这个概念,假设真实的 CEF 是非参数的。由于它是非负的,我们可以使用指数链接 \({ }^{10}\) 将其写为 \(\mathbb{E}[Y \mid X]=\exp (m(x))\)。函数 \(m(x)\) 是非参数标识的,可以通过级数 \(x_{K}^{\prime} \beta_{K}\) 来近似。因此\(\mathbb{E}[Y \mid X] \simeq \exp \left(X_{K}^{\prime} \beta_{K}\right)\)。这表明,如果使用一组灵活的回归量(如串联回归)实现泊松回归,则模型将近似真实的 CEF,因此将一致地估计真实的响应概率。如果对所包含的回归量的函数形式给予适当的关注,那么这就是计数数据应用中泊松回归的广泛理由。

然而,由于该模型是近似值,因此传统的协方差矩阵估计器将不一致。因此,建议使用协方差矩阵和标准误差估计的稳健公式。

\({ }^{10} \mathrm{Or}\),相当于\(m(x)=\log (\mathbb{E}[Y \mid X])\)。为了获得更大程度的灵活性,可以推广泊松模型。一种类似于混合 Logit 的方法是将参数视为随机变量,从而获得混合概率模型。一种重要的特定混合模型是负二项式模型,其可以作为混合模型获得如下。将泊松参数指定为 \(\lambda(X)=V \exp \left(X^{\prime} \beta\right)\),其中 \(V\) 是具有伽玛分布的随机变量。这相当于将回归截距视为随机的 logGamma 分布。对 \(V\) 进行积分,得到的 \(Y\) 条件分布是负二项式。负二项式是计数数据回归的流行模型,其优点是 CEF 和方差分别变化。

有关更多详细信息,请参阅 Cameron 和 Trivedi (1998) 撰写的关于计数数据模型的优秀专着。

在Stata中,泊松和负二项回归可以通过泊松和nbreg来估计。还可以进行允许截断、固定效应和随机效应的概括。

26.12 BLP需求模型

20 世纪 90 年代的一项重大发展是将条件 Logit 扩展到市场总需求模型。许多想法都是在 Berry (1994) 以及 Berry、Levinsohn 和 Pakes (1995) 的开创性论文中提出的。有关评论,请参阅 Ackerberg、Benkard、Berry 和 Pakes (2007)。这种模型被广泛称为 BLP 模型 - 已在应用工业组织中流行起来。为了讨论实现,我们使用 Berry、Levinsohn 和 Pakes (1995) 以及 Nevo (2001) 中的应用程序作为示例。

背景是市场层面的观察。 “市场”通常是与位置匹配的时间段。例如,Berry、Levinsohn 和 Pakes(1995)中的市场是美国一个日历年。 Nevo (2001) 的一个市场每年有四分之一是美国 65 个城市之一。一个观察包含一组 \(J\) 商品。在 Berry、Levinsohn 和 Pakes(1995)中,商品是 997 种不同的汽车模型。 Nevo (2001) 中的商品是 25 种即食早餐谷物食品。观察通常包括每种商品的价格和销售数量、每种商品的一组特征,以及可能的有关市场人口的人口特征的信息。

该模型源自个人行为的条件 Logit 规范。标准假设是市场中的每个人购买一种 \(J\) 商品或不购买(后者称为外部替代品)。这需要对市场上的个人数量采取立场。例如,在 Berry、Levinsohn 和 Pakes(1995)中,个体数量是美国的总人口。他们的假设是每个人在每个日历年最多购买一辆汽车。 Nevo (2001) 中的人口是每个城市的人口数量。他假设每个人购买四分之一(91 天)的一种品牌早餐麦片,或者不购买早餐麦片(外部替代方案)。通过明确地将外部选项作为一种选择,这些作者对总需求进行了建模。或者,他们可以排除外部选择并检查 \(J\) 商品中的选择。这将模拟市场份额(占总购买量的百分比),而不是总需求。权衡是需要对市场上的个人数量采取立场。

该模型是每个人购买一组索引为 \(j=1, \ldots, J\)\(J\) 商品中的一个或未观察到的外部商品。好的 \(j\) 的实用程序采用混合 logit 形式:

\[ U_{j}^{*}=X_{j}^{\prime} \eta+\xi_{j}+\varepsilon_{j} \]

其中 \(X_{j}\) 包括优质 \(j\) 的价格和特征。与混合 Logit 模型一样,系数 \(\eta\) 是随机的(特定于个体)。变量 \(\xi_{j}\)\(\varepsilon_{j}\) 是未观察到的错误。 \(\xi_{j}\) 是市场层面的,\(\varepsilon_{j}\) 是针对个人的。市场误差 \(\xi_{j}\) 可能包含未观察到的产品特征,因此可能与产品价格相关。识别需要一个工具向量\(Z_{j}\),它满足

\[ \mathbb{E}\left[Z_{j} \xi_{j}\right]=0 . \]

Berry、Levinsohn 和 Pakes (1995) 建议将 \(X_{j}\) 中的非价格特征、同一公司销售的商品的特征总和以及其他公司销售的商品的特征总和作为工具。 Nevo(2001)还包括其他市场的商品价格,如果市场之间的需求冲击不相关,那么这是有效的。文献中对仪器的选择和构造给予了相当多的关注。

写入\(\gamma=\mathbb{E}[\eta], V=\eta-\gamma\),并假设\(V\)具有分布\(F(V \mid \alpha)\),参数为\(\alpha\)(通常为\(\mathrm{N}(0, \Sigma))\)。设置

\[ \delta_{j}=X_{j}^{\prime} \gamma+\xi_{j} . \]

由于模型是混合 logit,(26.14)表明给定 \(\delta=\left(\delta_{1}, \ldots, \delta_{J}\right)\) 的响应概率为

\[ P_{j}(\delta, \alpha)=\int \frac{\exp \left(\delta_{j}+X_{j}^{\prime} V\right)}{\sum_{\ell=1}^{J} \exp \left(\delta_{\ell}+X_{\ell}^{\prime} V\right)} d F(V \mid \alpha) d V . \]

正如 \(26.7\) 节中所讨论的,(26.14) 中的积分通常通过数值模拟来评估。令 \(\left\{V_{1}, \ldots, V_{G}\right\}\) 为 i.i.d.伪随机取自 \(F(V \mid \alpha)\)。仿真估计量为

\[ \widetilde{P}_{j}(\delta, \alpha)=\frac{1}{G} \sum_{g=1}^{G} \frac{\exp \left(\delta_{j}+X_{j}^{\prime} V_{g}\right)}{\sum_{\ell=1}^{J} \exp \left(\delta_{\ell}+X_{\ell}^{\prime} V_{g}\right)} . \]

在每个市场中,我们观察每种商品的购买数量 \(Q_{j}\),并且假设我们知道个人数量 \(M\)。优质 \(j\) 的市场份额定义为 \(S_{j}=Q_{j} / M\),它是 \(P_{j}\) 概率的直接估计。如果 \(M\) 的数量很大,则按 WLLN 计算,\(S_{j}\) 大约等于 \(P_{j}\)。 BLP 方法假设 \(M\) 足够大,我们可以将这两者视为相等。这意味着 \(Q_{j}\) 等式的集合

\[ S_{j}=\widetilde{P}_{j}(\delta, \alpha) \]

其中 \(S=\left(S_{1}, \ldots, S_{J}\right)\). (26.25) 的左边是观察到的好 \(j\) 的市场份额(即市场中个人的销售额比例)。右侧是在给定市场属性和参数的情况下选择商品的估计概率。由于 \(\delta\)\(S\) 中的每个元素都有 \(J\) 元素(并且 \(\widetilde{P}_{j}(\delta, \alpha)\)\(\delta\) 的每个元素中单调递增),因此 \(\delta\) 和 $ 之间存在一对一且可逆的映射数学9$。因此,给定市场份额 \(S=\left(S_{1}, \ldots, S_{J}\right)\) 和参数 \(S=\left(S_{1}, \ldots, S_{J}\right)\),我们可以数值计算求解 \(S=\left(S_{1}, \ldots, S_{J}\right)\) 方程 (26.25) 的元素 \(S=\left(S_{1}, \ldots, S_{J}\right)\)。 Berry、Levinsohn 和 Pakes (1995) 表明,可以通过迭代获得解决方案

\[ \delta_{j}^{i}=\delta_{j}^{i-1}+\log S_{j}-\log \widetilde{P}_{j}\left(\delta^{i-1}, \alpha\right) . \]

解是一组隐式的 \(J\) 方程 \(\delta_{j}=\delta_{j}(S, \alpha)\)

我们将 \(\delta_{j}=\delta_{j}(S, \alpha)\) 与 (26.23) 结合起来获得类似回归的表达式 \(\delta_{j}(S, \alpha)=X_{j}^{\prime} \gamma+\xi_{j}\)。结合(26.22)我们得到力矩方程

\[ \mathbb{E}\left[Z_{j}\left(\delta_{j}(S, \alpha)-X_{j}^{\prime} \gamma\right)\right]=0 \]

\(j=1, \ldots, J\)。通过非线性 GMM 进行估计。观察结果是以 \(t=1, \ldots, T\) 为索引的市场,包括数量 \(Q_{j t}\)、价格和特征 \(X_{j t}\) 以及工具 \(Z_{j t}\)。市场份额为 \(S_{j t}=Q_{j t} / M_{t}\),其中 \(M_{t}\) 是市场中的个人数量。让 \(S_{t}=\left(S_{1 t}, \ldots, S_{J t}\right)\).力矩方程为

\[ \bar{g}(\gamma, \alpha)=\frac{1}{T J} \sum_{t=1}^{T} \sum_{j=1}^{J} Z_{j t}\left(\delta_{j t}\left(S_{t}, \alpha\right)-X_{j t}^{\prime} \gamma\right) . \]

GMM 估计器 \((\widehat{\gamma}, \widehat{\alpha})\) 最小化权重矩阵 \(\boldsymbol{W}\) 的标准 \(\bar{g}(\gamma, \alpha)^{\prime} \boldsymbol{W} \bar{g}(\gamma, \alpha)\)

我们之前提到,观察结果可能包括人口统计信息。这可以如下合并。我们可以将个人特征(例如收入)添加到效用模型(26.21)中,作为与产品特征 \(X_{j}\) 的交互。由于个体特征是不可观察的,因此它们可以被视为随机的,但具有已知的分布(取自已知的市场水平人口统计数据)。例如,Berry、Levinsohn 和 Pakes(1995)将个人收入视为对数正态分布。然后将这些随机变量与随机系数一起处理,而估计方法没有发生有效改变。

Berry、Linton 和 Pakes (2004) 提出的渐近理论表明,在某些假设下,该 GMM 估计量与 \(J \rightarrow \infty\) 一致且渐近正态。这意味着估计器可以应用于小 \(T\) 和大 \(J\) 的上下文中,以及大 \(T\) 的上下文中。

为了在 Stata 中估计 BLP 模型,有一个附加命令 blp。 R 中有一个 BLPestimatoR 包。 Python 中有一个包 PyBLP。

26.13 技术证明*

定理 26.1 的证明:定义 \(\mu_{j \ell}=X^{\prime}\left(\beta_{j}-\beta_{\ell}\right)\)。观察一下会很有用

\[ P_{j}(X)=\frac{\exp \left(X^{\prime} \beta_{j} / \tau\right)}{\sum_{\ell=1}^{J} \exp \left(X^{\prime} \beta_{\ell} / \tau\right)}=\left(\sum_{\ell=1}^{J} \exp \left(-\frac{\mu_{j \ell}}{\tau}\right)\right)^{-1} . \]

定义

\[ \begin{aligned} F_{j}\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right) &=\frac{\partial}{\partial \varepsilon_{j}} F\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right) \\ &=\exp \left(-\left[\sum_{\ell=1}^{J} \exp \left(-\frac{\varepsilon_{\ell}}{\tau}\right)\right]^{\tau}\right)\left[\sum_{\ell=1}^{J} \exp \left(-\frac{\varepsilon_{\ell}}{\tau}\right)\right]^{\tau-1} \exp \left(-\frac{\varepsilon_{j}}{\tau}\right) \end{aligned} \]

如果所有 \(\ell\) 都出现 \(U_{j}^{*} \geq U_{\ell}^{*}\),则事件 \(Y=j\) 发生,而当 \(\varepsilon_{\ell} \leq \varepsilon_{j}+\mu_{j \ell}\) 发生时,事件 \(Y=j\) 发生。概率 \(\mathbb{P}[Y=j]\) 是区域 \(\varepsilon_{\ell} \leq \varepsilon_{j}+\mu_{j \ell}\) 上联合密度 \(f\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right)\) 的积分。这是

\[ \mathbb{P}[Y=j]=\mathbb{P}\left[\varepsilon_{\ell} \leq \varepsilon_{j}+\mu_{j \ell}, \text { all } \ell\right]=\int_{-\infty}^{\infty}\left[\int_{-\infty}^{\varepsilon_{j}+\mu_{j 1}} \cdots \int_{-\infty}^{\varepsilon_{J}+\mu_{j J}} f\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right) d \varepsilon_{1} d \varepsilon_{2} \cdots d \varepsilon_{J}\right] d \varepsilon_{j} \]

其中外积分超过 \(\varepsilon_{j}\)\(J-1\) 内部积分集等于 \(F_{j}\left(\varepsilon_{j}+\mu_{j 1}, \ldots, \varepsilon_{j}+\mu_{j J}\right)\)。因此

\[ \mathbb{P}[Y=j]=\int_{-\infty}^{\infty} F_{j}\left(\varepsilon_{j}+\mu_{j 1}, \ldots, \varepsilon_{j}+\mu_{j J}\right) d \varepsilon_{j} . \]

接下来,我们将上面的表达式替换为 \(F_{j}\) 并收集项以发现 (26.27) 等于

\[ \begin{aligned} &\int_{-\infty}^{\infty} \exp \left(-\left[\sum_{\ell=1}^{J} \exp \left(-\frac{\varepsilon_{\ell}+\mu_{j \ell}}{\tau}\right)\right]^{\tau}\right)\left[\sum_{\ell=1}^{J} \exp \left(-\frac{\varepsilon_{\ell}+\mu_{j \ell}}{\tau}\right)\right]^{\tau-1} \exp \left(-\frac{\varepsilon_{j}}{\tau}\right) d \varepsilon_{j} \\ &=\int_{-\infty}^{\infty} \exp \left(-\exp \left(-\varepsilon_{j}\right) P_{j}(X)^{-\tau}\right) P_{j}(X)^{1-\tau} \exp \left(-\frac{\varepsilon_{j}}{\tau}\right)^{\tau-1} \exp \left(-\frac{\varepsilon_{j}}{\tau}\right) d \varepsilon_{j} \\ &=\int_{-\infty}^{\infty} \exp \left(-\exp \left(-\varepsilon_{j}-\log P_{j}(X)^{\tau}\right)\right) P_{j}(X)^{1-\tau} \exp \left(-\varepsilon_{j}\right) d \varepsilon_{j} \\ &=P_{j}(X)^{1-\tau} \int_{-\infty}^{\infty} \exp \left(-\exp \left(-\varepsilon_{j}-\log P_{j}(X)^{\tau}\right)\right) \exp \left(-\varepsilon_{j}\right) d \varepsilon_{j} \\ &=P_{j}(X) \int_{-\infty}^{\infty} \exp (-\exp (-u)) \exp (-u) d u \\ &=P_{j}(X) \end{aligned} \]

倒数第二个相等使变量 \(u=\varepsilon_{j}+\log P_{j}(X)^{\tau}\) 发生变化。最终使用 \(\exp (-\exp (-u)) \exp (-u)\) 是积分为 1 的 I 型极值密度这一事实。正如所声称的,这显示了 \(\mathbb{P}[Y=j]=P_{j}(X)\)

定理26.2的证明:证明方法与定理26.1类似。误差的联合分布为

\[ F\left(\varepsilon_{11}, \ldots, \varepsilon_{J K_{J}}\right)=\exp \left(-\sum_{\ell=1}^{J}\left[\sum_{m=1}^{K_{\ell}} \exp \left(-\frac{\varepsilon_{\ell m}}{\tau_{\ell}}\right)\right]^{\tau_{\ell}}\right) . \]

关于 \(\varepsilon_{j k}\) 的导数是

\[ \begin{aligned} F_{j k}\left(\varepsilon_{11}, \ldots, \varepsilon_{J K_{J}}\right) &=\frac{\partial}{\partial \varepsilon_{j k}} F\left(\varepsilon_{11}, \ldots, \varepsilon_{J K_{J}}\right) \\ &=\exp \left(-\sum_{\ell=1}^{J}\left[\sum_{m=1}^{K_{\ell}} \exp \left(-\frac{\varepsilon_{\ell m}}{\tau_{\ell}}\right)\right]^{\tau_{\ell}}\right)\left[\sum_{m=1}^{K_{j}} \exp \left(-\frac{\varepsilon_{j m}}{\tau_{j}}\right)\right]^{\tau_{j}-1} \exp \left(-\frac{\varepsilon_{j k}}{\tau_{j}}\right) . \end{aligned} \]

对于所有 \(\ell\)\(m\),如果 \(U_{j k}^{*} \geq U_{\ell m}^{*}\) 则发生事件 \(Y_{j k}=1\),当 \(\varepsilon_{\ell m} \leq \varepsilon_{j k}+\mu_{j k}-\mu_{l m}\) 时发生事件 \(Y_{j k}=1\)。设置 \(I_{j}=\sum_{m=1}^{K_{j}} \exp \left(\mu_{j m} / \tau_{j}\right)\)\(I=\sum_{\ell=1}^{J} I_{\ell}^{\tau_{\ell}}\) 我们发现

\[ \begin{aligned} \mathbb{P}\left[Y_{j k}=1\right] &=\int_{-\infty}^{\infty} F_{j k}\left(v+\mu_{j k}-\mu_{11}, \ldots, v+\mu_{j k}-\mu_{J K_{J}}\right) d v \\ &=\int_{-\infty}^{\infty} \exp \left(-\sum_{\ell=1}^{J}\left[\sum_{m=1}^{K_{\ell}} \exp \left(-\frac{v+\mu_{j k}-\mu_{\ell m}}{\tau_{\ell}}\right)\right]^{\tau_{\ell}}\right)\left[\sum_{m=1}^{K_{j}} \exp \left(-\frac{v+\mu_{j k}-\mu_{j m}}{\tau_{j}}\right)\right]^{\tau_{j}-1} \exp \left(-\frac{v}{\tau_{j}}\right) d v \\ &=I_{j}^{\tau_{j}-1}\left(\exp \left(-\mu_{j k}\right)\right)^{\frac{\tau_{j}-1}{\tau_{j}}} \int_{-\infty}^{\infty} \exp \left(-\exp \left(-v-\mu_{j k}\right) \sum_{\ell=1}^{J} I_{\ell}^{\tau_{\ell}}\right) \exp (-v) d v \\ &=\frac{\exp \left(\mu_{j k} / \tau_{j}\right) I_{j}^{\tau_{j}-1}}{I} \int_{-\infty}^{\infty} \exp \left(-\exp \left(-v-\mu_{j k}+\log I\right)\right) \exp \left(-v-\mu_{j k}+\log I\right) d v \\ &=\frac{\exp \left(\mu_{j k} / \tau_{j}\right) I_{j}^{\tau_{j}-1}}{I}=P_{k \mid j} P_{j} \end{aligned} \]

正如所声称的那样。定理 26.3 的证明:我们通过 (26.27) 遵循定理 \(26.1\) 的证明,在这种情况下 \(\mu_{j \ell}=\) \(X^{\prime}\left(\beta_{j}-\beta_{\ell}\right)+\left(Z_{j}-Z_{\ell}\right)^{\prime} \gamma\)

\[ F_{j}\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right)=\frac{\partial}{\partial \varepsilon_{j}} F\left(\varepsilon_{1}, \ldots, \varepsilon_{J}\right)=\prod_{\ell \neq j} \Phi\left(\mu_{j \ell}+\varepsilon_{j}\right) \phi\left(\varepsilon_{j}\right) \]

因此

\[ \mathbb{P}[Y=j]=\int_{-\infty}^{\infty} \prod_{\ell \neq j} \Phi\left(\mu_{j \ell}+v\right) \phi(v) d v \]

正如所声称的那样。

26.14 练习

练习26.1 对于多项logit模型(26.2)表明\(0 \leq P_{j}(x) \leq 1\)\(\sum_{j=1}^{J} P_{j}(x)=1\)

练习 26.2 证明多项 Logit 模型 (26.2) 中的 \(P_{j}(x)\) 仅取决于系数差 \(\beta_{j}-\beta_{J}\)

练习 26.3 对于多项 Logit 模型(26.2)表明边际效应相等(26.4)。

练习26.4 证明(26.8)对于条件logit模型成立。

练习26.5 对于条件logit模型(26.8)表明边际效应是(26.9)和(26.10)。

练习26.6 表明条件logit模型(26.8)中的\(P_{j}(w, x)\)仅取决于系数差\(\beta_{j}-\beta_{J}\)和变量差\(x_{j}-x_{J}\)

练习26.7 在条件logit模型中找到\(\mathrm{AME}_{j j}\)的估计量。

练习26.8 显示(26.11)。

练习 26.9 在没有替代不变回归量 \(W\) 的条件 Logit 模型中,表明 (26.11) 隐含 \(P_{j}(x) / P_{\ell}(x)=\exp \left(\left(x_{j}-x_{\ell}\right)^{\prime} \gamma\right)\)

练习26.10 采用嵌套logit模型。如果 \(k\)\(\ell\) 是同一组 \(j\) 中的替代项,则表明比率 \(P_{j k} / P_{j \ell}\) 独立于其他组中的变量。这是什么意思?

练习26.11 采用嵌套logit模型。对于组 \(j\)\(\ell\),证明比率 \(P_{j} / P_{\ell}\) 独立于其他组中的变量。这是什么意思?

练习26.12 使用cps09mar数据集和男性子集。估计婚姻状况的多项 Logit 模型,类似于图 \(26.1\) 作为年龄的函数。您的研究结果与女性的研究结果相比如何?

练习 26.13 使用 cps09mar 数据集和年龄不超过 35 岁的女性子集。将婚姻状况的多项 Logit 模型估计为年龄和教育的线性函数。解释你的结果。

练习 26.14 使用 cps09mar 数据集和女性子集。估计作为年龄函数的婚姻状况的嵌套 Logit 模型。描述您如何决定备选方案的分组。练习26.15 使用Koppelman数据集。估计条件 Logit 模型类似于表 \(26.1\) 中报告的模型,但进行以下修改。对于每种情况,报告成本和时间变量的估计系数和标准误差、对数似然,并描述结果如何变化。

  1. 使用相同的变量复制条件 Logit 表 \(26.1\) 的结果。注意:表 \(26.1\) 中使用的回归量是成本、intime、收入和城市。

  2. 添加变量 outtime,即离开车辆的时间。

  3. 将 intime 替换为 time=intime+outtime。

  4. 将 cost 和 intime 替换为 \(\log (\cos t)\)\(\log (\) intime \()\)

练习26.16 使用Koppelman数据集。估计类似于表 \(26.1\) 中报告的嵌套 logit 模型,但进行以下修改。对于每种情况,报告成本和时间变量的估计系数和标准误差、对数似然,并描述结果如何变化。

  1. 使用相同的变量复制嵌套 logit 表 \(26.1\) 的结果。注意:您需要约束 \(\{\) 火车、公共汽车 \(\}\) 的相异性参数。

  2. 将 cost 和 intime 替换为 \(\log (\cos t)\)\(\log (\) intime \()\)

  3. 使用分组 \(\{\) 汽车 \(\}\)\(\{\) 火车、公共汽车、航空 \(\}\)。为什么(或为什么不)这种嵌套有意义?

  4. 使用分组{air} 和{train,bus,car}。为什么(或为什么不)这种嵌套有意义?

练习26.17 使用Koppelman数据集。估计类似于表 \(26.1\) 中报告的混合 Logit 模型,但进行以下修改。对于每种情况,报告成本和时间变量的估计系数和标准误差、对数似然,并描述结果如何变化。

  1. 使用相同变量复制表 \(26.1\) 的混合 logit 的结果。

  2. 将 intime 替换为 time=intime+outtime 。

  3. 将 intime 上的系数视为对数正态随机变量的负数。 (将 intime 替换为 nintime =-intime 并将系数视为对数正态分布。)您如何比较估计模型的结果?

练习26.18 使用Koppelman数据集。估计类似于表 \(26.1\) 中报告的一般多项式概率模型,但进行以下修改。对于每种情况,报告成本和时间变量的估计系数和标准误差、对数似然,并描述结果如何变化。

  1. 对于具有相同变量的多项式概率,复制表 \(26.1\) 的结果。

  2. 将 cost 和 intime 替换为 \(\log (\) cost \()\)\(\log (\) intime \()\)