2.8 小结
在本章,我们学习了线性回归,这是一种让我们能在有监督学习环境下拟合线性模型的方法,在这种环境下,我们有一些输入特征和一个数值型的输出。简单线性回归是对只有一个输入特征的情况的命名,而多元线性回归则描述了具有多个输入特征的情况。线性回归是解决回归问题很常用的第一步骤。它假定输出是输入特征的线性加权组合,再加上一个无法化简、符合正态分布、具有0均值和常数方差的误差项。这种模型也假设特征是相互独立的。线性回归的性能可以通过一组不同的衡量指标来进行评价,从更标准的MSE到诸如R2 统计量等其他指标。我们探讨了几种模型诊断和显著性检验方法,它们用于检测从不成立的假设到离群值等问题。最后,我们还讨论了如何用逐步回归进行特征选择,以及利用岭回归和lasso进行正则化。
线性回归模型具有多种优势,包括快速和开销小的参数计算过程,以及易于解释和推断的模型,这是因为它具有形式简单的优点。有很多检验方法可以用来诊断关于模型拟合的问题,并对系数的显著性进行假设检验。总体来说,可以认为它是低方差的一种方法,因为它对于数据中的小误差比较健壮(robust)。就其不足之处而言,因为它作出了非常严格的假设,尤其是输出函数在模型参数里必须是线性的,所以它就会引入很高程度的偏误,对于比较复杂或高度非线性的一般函数,这种方法往往就表现不佳。此外,我们也看到了,当输入特征数量变得很多时,我们就不能依赖于系数的显著性检验。当我们在一个高维特征空间里工作时,这个事实再加上特征之间的独立性假设,就会使线性回归成为相对较差的一种选择。
在下一章,我们会学习逻辑回归,它是一种用于分类问题的重要方法。
时间: 2024-09-11 20:02:45