一元回归OLS估计与SSE函数

复现3.5节内容

一元回归
复现
作者

胡华平

发布于

2025年9月18日

修改于

2025年9月19日

摘要
本节内容主要复现Hansen 3.5节一元回归OLS估计与残差平方和函数。

在计量经济学中,最小二乘法(Least Squares)是估计线性回归模型参数的基本方法。本节我们考虑最简单的情况:只有一个解释变量的一元回归模型。

1 模型设定和OLS估计量

考虑一元回归模型: \[ Y_i = X_i \beta + \varepsilon_i \]

其中:

  • \(Y_i\) 是被解释变量
  • \(X_i\) 是解释变量(标量)
  • \(\beta\) 是回归系数(标量)
  • \(\varepsilon_i\) 是误差项

最小二乘估计的目标是找到参数 \(\beta\) 的估计值 \(\hat{\beta}\),使得残差平方和(Sum of Squared Errors, SSE)最小:

\[ \hat{\beta} = \arg\min_{\beta} \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]

2 OLS估计量推导

对于二次函数 \(a - 2bx + cx^2\),其最小值点为 \(x = b/c\)

因此,\(\text{SSE}(\beta)\) 的最小值点为: \[ \hat{\beta} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]

这就是一元回归的OLS估计量。

注记仅截距项模型

\(X_i = 1\) 时(截距项模型),OLS估计量简化为:

\[ \hat{\beta} = \frac{\sum_{i=1}^{n} 1 \cdot Y_i}{\sum_{i=1}^{n} 1^2} = \frac{1}{n}\sum_{i=1}^{n} Y_i = \bar{Y} \]

即样本均值。

3 残差平方和函数

残差平方和函数为:

\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i - X_i \beta)^2 \]

展开平方项:

\[ \text{SSE}(\beta) = \sum_{i=1}^{n}(Y_i^2 - 2Y_i X_i \beta + X_i^2 \beta^2) \]

整理得到: \[ \text{SSE}(\beta) = \left(\sum_{i=1}^{n} Y_i^2\right) - 2\beta\left(\sum_{i=1}^{n} X_i Y_i\right) + \beta^2\left(\sum_{i=1}^{n} X_i^2\right) \]

这是一个关于 \(\beta\) 的二次函数,可以写成:

\[ \text{SSE}(\beta) = a - 2b\beta + c\beta^2 \]

其中:

  • \(a = \sum_{i=1}^{n} Y_i^2\)
  • \(b = \sum_{i=1}^{n} X_i Y_i\)
  • \(c = \sum_{i=1}^{n} X_i^2\)

残差平方和函数最小值点的求解过程:

\(\text{SSE}(\beta)\) 关于 \(\beta\) 求导: \[ \frac{d}{d\beta}\text{SSE}(\beta) = \frac{d}{d\beta}(a - 2b\beta + c\beta^2) = -2b + 2c\beta \]

令导数等于零: \[ -2b + 2c\beta = 0 \]

解得: \[ 2c\beta = 2b \quad \Rightarrow \quad \beta = \frac{b}{c} \]

因此,残差平方和函数最小值点为: \[ \hat{\beta} = \frac{b}{c} = \frac{\sum_{i=1}^{n} X_i Y_i}{\sum_{i=1}^{n} X_i^2} \]

这其实就是OLS估计量。

4 R代码复现过程

4.1 1. 数据生成

根据教材脚注,我们生成模拟数据: - \(X \sim U[0,1]\)(均匀分布) - \(Y \sim N(3X, 1)\)(正态分布,均值为3X,方差为1)

我们估计如下无截距模型:

\[ Y_i = \beta_2 X_i + \varepsilon_i \]

模拟数据集如下:

4.2 2. OLS估计

根据公式(3.7)计算OLS估计量。

以下是R估计结果的初始报告摘要:


Call:
lm(formula = Y ~ 0 + X, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.55675 -0.59042  0.08146  0.79300  1.80784 

Coefficients:
  Estimate Std. Error t value Pr(>|t|)    
X   2.5407     0.3461   7.341 5.87e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9749 on 19 degrees of freedom
Multiple R-squared:  0.7393,    Adjusted R-squared:  0.7256 
F-statistic: 53.89 on 1 and 19 DF,  p-value: 5.866e-07

对上述结果进行整理得到如下估计方程表达式:

\[ \begin{alignedat}{999} \begin{split} &\widehat{Y}=&&+0.6163&&+1.6851X_i\\ &(s)&&(0.4383)&&(0.6959)\\ &(t)&&(+1.41)&&(+2.42)\\ &(over)&&n=20&&\hat{\sigma}=0.9508\\ &(fit)&&R^2=0.2457&&\bar{R}^2=0.2038\\ &(Ftest)&&F^*=5.86&&p=0.0262 \end{split} \end{alignedat} \]

4.3 3. 计算拟合值和残差

根据OLS估计量计算拟合值和残差。

以下是拟合值和残差的计算结果表:

4.4 4. 绘制图形1:Deviation from Fitted Line

根据拟合值和残差计算结果绘制图形1。图形如下:

图 1: 数据点、样本回归线与残差

4.5 5. 绘制图形2:Sum of Squared Error Function

图 2: SSE函数关于 \(\beta\) 的二次函数形状

5 复现结果评注

通过本次复现,我们得到了以下结果:

  1. OLS估计量:通过最小化残差平方和,我们得到了回归系数 \(\hat{\beta}_2 = 2.5407\)

  2. 图形分析

    • 图1显示了数据点、拟合线和残差(垂直虚线),直观展示了最小二乘估计的几何意义
    • 图2显示了SSE函数关于 \(\beta\) 的二次函数形状,最小值点对应OLS估计量
  3. 理论验证:通过验证SSE函数的二次形式,确认了数学推导的正确性。

这个复现完整地展示了最小二乘估计的理论基础和实际应用,为后续多元回归的学习奠定了坚实基础。