前言
实用机器学习
本书侧重于数据分析和机器学习的实践,涉及从原始数据搜集到建立模型解决问题再到算法性能评估的全过程。书中主要介绍实践中最常用的4类算法,包括回归算法、分类算法、推荐算法和排序算法。此外,书中还会介绍集成学习。集成学习是一类通过综合多个模型取长补短以取得更好效果的方法,对于回归、分类、推荐和排序问题都适用。在实践中,充分掌握这4类算法和集成学习即可解决相当多的实际问题。由于篇幅所限,聚类分析、关联规则等其他相关内容书中并没有一一介绍。
对于每种算法,本书首先介绍算法的原理。在理解算法原理和算法优缺点的基础上,读者在实践中就可以根据数据的特点和问题的具体需求选用合适的算法。为了突出算法的实践性,本书使用R语言中的软件包来介绍机器学习算法,特别是介绍了如何使用各种算法。R语言是一种开源和免费的解释型语言,其最大的优点是提供了各种软件包,实现了各种不同的算法。机器学习中很多强大的算法在R中都有相应的程序包。我们在讲解各种机器学习算法时,都介绍了R中相应的软件包,并提供了相应的R程序来帮助读者学习这些软件包的使用。这样读者就可以通过R来直接使用相应的算法,获得数据分析的第一手建模经验。
除了介绍这4类机器学习算法之外,本书涵盖了使用机器学习解决实际问题的整个流程,包括数据探索、数据预处理、使用机器学习算法所构建的模型的评价和选择等。在实际使用机器学习处理数据的过程中,数据的探索和预处理是非常重要的步骤,在很多场合甚至比建立模型本身更加重要,从原始数据中提取出一个好的特征在很多时候能够显著地提高模型的性能。得到构建的模型后,我们还需要评价和选择模型。本书还会介绍不同类型算法对应的评价标准以及如何进行模型选择,并介绍R中的相关工具(如caret包),以帮助读者直接上手。
我们尽量使用简单通俗的语言来介绍机器学习中的基本概念和各种常用算法,并通过介绍R中对应的软件包来帮助读者迅速了解和掌握各种算法的使用。为了准确地介绍各类算法,不可避免地要用到一些数学知识,本书在第3章特别介绍了一些相关的数学知识。
本书的所有R代码(包括生成书中图的大部分R代码)都可以从人民邮电出版社异步社区网站上获得。
本书的出版得到了国家自然科学基金(61300122、61502145)的支持,得到了人民邮电出版社编辑杨海玲女士的支持和帮助,在此表示诚挚的谢意。成稿的关键时期适逢我们各自的女儿降生,在此衷心感谢双方家人的理解与支持。因水平和时间所限,书中难免有错误或不当之处,恳请广大读者不吝指正。
目录
第1章 引论
1.1 什么是机器学习
1.2 机器学习算法的分类
1.3 实际应用
1.4 本书概述
第2章 R语言
第3章 数学基础
第4章 数据探索和预处理
第5章 回归分析
第6章 分类算法
第7章 推荐算法
第8章 排序学习
第9章 集成学习