计算题:交通事故案例

虚拟变量回归模型+约束回归

交通事故案例,虚拟变量回归模型+约束回归
计算题
虚拟变量
2022fall
作者

胡华平

发布于

2025年12月22日

1 案例分析题

交通事故案例:一项研究希望交通事故问题及其相关影响因素,共收集了1981年1月到1989年12月期间的月度样本数n=108的数据集(部分数据集见 表 1 ):

表 1: 交通事故案例数据集部分示例(总样本数n=108)
year month prcfat unem
1981 JAN 0.9009899 7.9
1981 FEB 0.9130266 8.0
1981 MAR 0.9149970 7.4
1981 APR 0.9788058 7.2
1981 MAY 0.9145713 6.1
1981 JUN 1.0848329 6.7
1981 JUL 1.2168285 7.4
1989 JUL 1.0232056 5.8
1989 AUG 0.9798468 4.7
1989 SEP 0.9471751 5.0
1989 OCT 0.8669214 4.6
1989 NOV 0.8254987 4.9
1989 DEC 0.8359611 4.8


其中,相关变量的具体定义见下 表 2):

表 2: 变量定义及说明
变量 定义 取值
year 年份 整数,1981 ~ 1989年
month 月度 定性变量,月份缩写(如JAN表示1月)
prcfat 交通事故数量 定量变量,发生致命交通事故(至少1人死亡)的百分数占比
unem 失业率 定量变量,百分数值(%)


为了便于分析,研究人员首先把定性变量\(month\)处理成12个虚拟变量,分别为\(JAN_i, FEB_i, MAR_i, APR_i, MAY_i, JUN_i, JUL_i, AUG_i, SEP_i, OCT_i, NOV_i, DEC_i\)。其中:

\[ \begin{align} JAN_i= \begin{cases} 1 \quad \text{是1月份}\\ 0 \quad \text{不是1月份} \end{cases} ; \quad FEB_i= \begin{cases} 1 \quad \text{是2月份}\\ 0 \quad \text{不是2月份} \end{cases} \quad \cdots \quad DEC_i= \begin{cases} 1 \quad \text{是12月份}\\ 0 \quad \text{不是12月份} \end{cases} \end{align} \]


研究人员尝试构建了如下的线性回归模型(见 式 1 ):

\[ \begin{aligned} \begin{split} PRCFAT_t=&+\beta_{1}+\beta_{2}FEB_t+\beta_{3}MAR_t+\beta_{4}APR_t+\beta_{5}MAY_t+\beta_{6}JUN_t+\beta_{7}JUL_t\\&+\beta_{8}AUG_t+\beta_{9}SEP_t+\beta_{10}OCT_t+\beta_{11}NOV_t+\beta_{12}DEC_t+\beta_{13}UNEM_t+u_t \end{split} \end{aligned} \tag{1}\]

然后采用OLS方法进行估计,并得到如下@ref(fig:eq-season)所示的EViews报告。

图 1: OLS回归报告

下面计算题都是基于以上案例情景和数据集。请认真读题并按要求作答。


1.(5分)根据回归模型 式 1 ,请你指出基础组是什么?请你写出基础组的期望致命交通事故率的理论表达式。(要求:写出主要过程。)






2.(5分)给定失业率\(UNEM_i = 10\),请根据上述EViews的回归结果(见 图 1 )计算十月份(也即\(OCT_i=1\))致命交通事故率的估计值是多少。(要求:写出主要计算过程;结果保留两位小数。)






3.(9分)请分别计算上述EViews的回归结果(见 图 1 )中的空白项a、空白项b和空白项c。(要求:写出主要计算过程;结果保留4位小数。)









4.(6分)研究人员还尝试构建了如下的线性回归模型(见 式 2 ):

\[ \begin{aligned} \begin{split} PRCFAT_t=&+\alpha_{1}+\alpha_{2}JAN_t+\alpha_{3}FEB_t+\alpha_{4}MAR_t+\alpha_{5}APR_t+\alpha_{6}MAY_t+\alpha_{7}JUN_t\\&+\alpha_{8}JUL_t+\alpha_{9}AUG_t+\alpha_{10}SEP_t+\alpha_{11}OCT_t+\alpha_{12}NOV_t+\alpha_{13}UNEM_t+u_t \end{split} \end{aligned} \tag{2}\]

请你结合目前的两次建模(见 式 1式 2 ),以及 图 1 的报告结果,分别计算出参数估计值\(\hat{\alpha}_1\)\(\hat{\alpha}_{11}\)\(\hat{\alpha}_{13}\)。(要求:写出主要计算过程;结果保留4位小数。)








5.(5分)研究者怀疑最初的建模(见 式 1 )存在一阶自相关性问题,也即\(u_t=\rho u_{t-1} + \epsilon_t\)(其中\(\epsilon_t \sim N(0, \sigma^2)\))。因此,对OLS分析报告(见 图 1 )的残差做了进一步辅助建模分析。辅助建模分析结果如下(见下 图 2

图 2: 辅助回归报告

请你根据辅助建模分析报告结果(见 图 2 )进行序列1阶自相关性检验,并得出检验结论。同时,请你计算出自协方差系数的估计值\(\hat{\rho}\)。(要求:写出原假设和备择假设;写出主要检验步骤;得到检验结论。计算结果保留4位小数。)







6.(6分)已知给定95%置信度水平下,\(d_L=1.42\),\(d_U=1.94\)。请你根据OLS分析报告结果(见 图 1 )进行德宾-沃森检验(Durbin-Waston)。同时,请你进一步计算自协方差系数的估计值\(\tilde{\rho}\)。(要求:写出原假设和备择假设;写出主要检验步骤;得到检验结论。计算结果保留4位小数。)







7.(4分)研究者试图进行自相关性问题矫正并得到如下的分析报告。

图 3: 某种矫正方法下的回归报告

请你指出这种矫正方法是什么?并简要说明矫正前后的主要变化有哪些?







2 参考答案

1.(小计5分)答:

(1)(2分)基础组是一月(JAN);

(2)(3分)基础组的期望致命交通事故率的理论表达式为:

\[\begin{align} &E[PRCFAT_t|(FEB=\cdots=DEC=0,UNEM_t)]\\ &=+\beta_{1}+\beta_{2}FEB_t+\beta_{3}MAR_t+\beta_{4}APR_t+\beta_{5}MAY_t+\beta_{6}JUN_t+\beta_{7}JUL_t\\ &\quad +\beta_{8}AUG_t+\beta_{9}SEP_t+\beta_{10}OCT_t+\beta_{11}NOV_t+\beta_{12}DEC_t+\beta_{13}UNEM_t\\ &=+\beta_{1} + \beta_{13}UNEM_t \end{align}\]

2.(小计5分)答:

给定失业率\(UNEM_i = 10\),根据EViews的回归结果,可以计算出十月份(也即\(OCT_i=1\))致命交通事故率的估计值为:

\[\begin{align} &\widehat{PRCFAT_t}|(FEB=\cdots=DEC=0,OCT_t=1,UNEM_t=10)\\ &=+\hat{\beta}_{1}+\hat{\beta}_{2}FEB_t+\hat{\beta}_{3}MAR_t+\hat{\beta}_{4}APR_t+\hat{\beta}_{5}MAY_t+\hat{\beta}_{6}JUN_t+\hat{\beta}_{7}JUL_t\\ &\quad +\hat{\beta}_{8}AUG_t+\hat{\beta}_{9}SEP_t+\hat{\beta}_{10}OCT_t+\hat{\beta}_{11}NOV_t+\hat{\beta}_{12}DEC_t+\hat{\beta}_{13}UNEM_t\\ &=+\hat{\beta}_{1} + \hat{\beta}_{10} + \hat{\beta}_{13}UNEM_t \\ &=0.7291 + 0.1147 + 0.0102\times 10 \\ &= 0.95 \end{align}\]

3.(小计9分)答:

(1)(3分)EViews的回归结果中的空白项a为t统计量,其结果计算如下:

\[\begin{align} T^{\ast} = \frac{\hat{\beta}_{13}}{S_{\hat{\beta}_{13}}} = \frac{0.0102}{0.0040} = 2.5725 \end{align}\]

(2)(3分)EViews的回归结果中的空白项b为调整判定系数,已知判定系数\(R^2\),则其结果计算如下(方法1:利用判定系数):

\[\begin{align} \overline{R^2} &= 1- \frac{(1-R^2) /(n-k)}{1/(n-1)} \\ &= 1- (1-R^2)\frac{(n-1)}{(n-k)} \\ &= 1 - (1-0.5418)\frac{108-1}{(108-13)} \\ & = 0.4839 \end{align}\]

判卷说明:本题还有其他多种解法,例如(解法2)利用公式\(\bar{R}^{2}=1-\frac{\hat{\sigma}^{2}}{S_{Y}^{2}}\);(解法3)利用公式\(\bar{R}^{2}=1-\frac{RSS/(n-k)}{TSS/(n-1)}\)。计算方法和计算结果正确,则判定相应得分。

(3)(3分)EViews的回归结果中的空白项c为F统计量,已知判定系数\(R^2\),则其结果计算如下(解法1:利用判定系数):

\[\begin{align} F^{\ast} &= \frac{R^2 /(k-1)}{\left(1-R^2\right) /(n-k)} \\ &= \frac{0.5418 /12}{\left(1- 0.5418\right) /(108-13)} \\ & = 9.3618 \end{align}\]

判卷说明:本题还有其他多种解法,例如(解法2)\(F^{\ast}=\frac{ESS/(k-1)}{RSS/(n-k)}=\frac{(TSS-RSS)/(k-1)}{RSS/(n-k)}\)。计算方法和计算结果正确,则判定相应得分。

4.(小计6分)答:

根据题意已知,两个模型之间只是基础组不同,因此利用基础组和比较组系数关系,可以对应地写出所有月份组的对应关系。

(1)(2分)第二次建模中,截距\(\hat{\alpha}_1\)表示的是基础组(12月份,\(DEC\))的水平,也即:

\[\begin{align} \hat{\alpha}_1 = \hat{\beta}_1 + \hat{\beta}_{12} = 0.7291 + 0.0191 = 0.7483 \end{align}\]

(2)(2分)第二次建模中,截距\(\hat{\alpha}_{11}\)表示的是比较组(10月份,\(OCT\))的与基础组(12月份)的差值水平,也即:

\[\begin{align} \hat{\alpha}_{11} = (\hat{\beta}_1 + \hat{\beta}_{10}) - \hat{\alpha}_1 = 0.7291 + 0.1147 - 0.7483 = 0.0956 \end{align}\]

(3)(2分)第二次建模中,截距\(\hat{\alpha}_{13}\)表示的是平行系数(定量变量\(UNEM\)的斜率)。易知,两次建模中平行斜率系数不会发生改变,因此:

\[\begin{align} \hat{\alpha}_{13} = \hat{\beta}_{13} = 0.0102 \end{align}\]

5.(小计5分)答:

根据辅助建模分析报告结果,可以进行如下的序列1阶自相关性检验。

(1)辅助检验模型\(u_t=\rho u_{t-1} + \epsilon_t\)(其中\(\epsilon_t \sim N(0, \sigma^2)\)

(2)原假设和备择假设:\(H_0:\rho =0\)(不存在自相关性);\(H_1:\rho \neq 0\)(存在自相关性)

(3)检验依据及结论:存在一阶正自相关性。根据辅助回归方程报告,t检验结果表明\(t^{\ast}=7.2093\),对应的概率\(p=0.0000\)表明显著拒绝原假设。

(4)根据辅助回归方程报告,自协方差系数估计量为\(\hat{\rho}=0.5696\)

6.(小计6分)答:

根据EViews分析报告结果,可以进行德宾-沃森检验(Durbin-Waston)1阶自相关性检验。

(1)辅助检验模型\(u_t=\rho u_{t-1} + \epsilon_t\)(其中\(\epsilon_t \sim N(0, \sigma^2)\)

(2)原假设和备择假设:\(H_0:\rho =0\)(不存在自相关性);\(H_1:\rho \neq 0\)(存在自相关性)

(3)检验依据及结论:存在一阶正自相关性。根据回归方程报告,德宾-沃森检验(Durbin-Waston)统计量\(dw=0.84430\),而且已知\(d_L=1.42\),\(d_U=1.94\),因此有\(0< dw< d_L\),表明存在一阶正自相关性。

(4)根据回归方程报告,自协方差系数估计量为\(\tilde{\rho}=1-\frac{dw}{2}=1- \frac{0.84430}{2}=0.5778\)

7.(小计4分)答:

(1)(2分)这种矫正方法称为稳健标准误法(或者尼威-威斯特标准误法;或异方差-自相关一致性标准误法)。

(2)(2分)稳健标准误法与OLS估计法相比,回归系数估计结果是一致的,只是对回归系数的估计标准误进行了调整(矫正)。