【统计学中残差平方和】在统计学中,残差平方和(Residual Sum of Squares, RSS)是一个重要的概念,广泛应用于回归分析中。它用于衡量模型对数据的拟合程度,数值越小,表示模型与实际数据之间的差异越小,拟合效果越好。
残差平方和是每个观测值与其对应预测值之差的平方和。通过计算这一指标,可以评估模型的准确性,并与其他统计量如总平方和(TSS)和回归平方和(ESS)进行比较,以判断模型的解释能力。
残差平方和的基本定义
设有一个线性回归模型:
$$
y_i = \beta_0 + \beta_1 x_i + \epsilon_i
$$
其中:
- $ y_i $ 是因变量的实际观测值;
- $ \hat{y}_i $ 是根据模型预测的值;
- $ \epsilon_i $ 是误差项,即残差。
那么,残差 $ e_i $ 为:
$$
e_i = y_i - \hat{y}_i
$$
残差平方和(RSS)定义为所有残差的平方和:
$$
RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2
$$
残差平方和的意义
| 指标 | 含义 | 作用 |
| 残差平方和(RSS) | 观测值与预测值之间的差异平方和 | 衡量模型拟合优度,越小越好 |
| 总平方和(TSS) | 观测值与均值之间的差异平方和 | 表示数据的总变异 |
| 回归平方和(ESS) | 预测值与均值之间的差异平方和 | 表示模型解释的变异 |
三者之间有如下关系:
$$
TSS = ESS + RSS
$$
这说明,总变异可以分解为模型能解释的部分(ESS)和未被解释的部分(RSS)。
残差平方和的应用场景
| 应用领域 | 说明 |
| 线性回归 | 判断模型是否准确拟合数据 |
| 模型比较 | 用于比较不同模型的拟合效果 |
| 残差分析 | 检查模型假设是否成立(如正态性、同方差性等) |
| 交叉验证 | 在模型选择中作为评价指标之一 |
如何计算残差平方和?
以一个简单例子说明:
假设有以下数据:
| x | y | 预测值 $\hat{y}$ | 残差 $e = y - \hat{y}$ | 残差平方 $e^2$ |
| 1 | 2 | 1.5 | 0.5 | 0.25 |
| 2 | 3 | 2.8 | 0.2 | 0.04 |
| 3 | 5 | 4.2 | 0.8 | 0.64 |
| 4 | 6 | 5.5 | 0.5 | 0.25 |
| 5 | 7 | 6.8 | 0.2 | 0.04 |
则:
$$
RSS = 0.25 + 0.04 + 0.64 + 0.25 + 0.04 = 1.22
$$
小结
残差平方和是评估回归模型拟合效果的重要指标,其数值越小,说明模型对数据的拟合越好。在实际应用中,通常会结合其他统计量如R²、调整R²等进行综合分析,以全面评估模型的表现。
| 关键词 | 含义 |
| RSS | 残差平方和 |
| TSS | 总平方和 |
| ESS | 回归平方和 |
| R² | 决定系数,反映模型解释的变异比例 |
通过合理使用这些指标,可以更有效地进行数据分析与建模。


