前言
自本书第1版出版以来,我们的社会已进入大数据时代,数据分析方法越来越受到人们的重视,许多学校选用了本书作为教材,并取得了良好的教学效果。同时分析数据的MATLAB软件也在不断地升级与更新,功能越来越强大、越来越智能化。为了让读者更好地学习与掌握数据分析方法,我们对第1版进行了修订。这次修订仍然保持原教材的基本框架与内容体系,但对部分章节的例题数据进行了更新,涉及软件更新的部分也对原书的程序进行改编与优化,补充了部分更具有现实意义的数据分析例题与习题,力求体现三方面的特点:
第一,通过例题或案例进一步加强数据分析理论与方法的应用,着重培养学生解决实际数据分析问题的能力,提高综合分析问题的素质。
第二,通过对原教材的例题、实验问题与习题进行调整,更新数据和增加不同领域的数据分析问题,使得涉及的问题更贴近实际,从而进一步提高学生的学习兴趣和学习效率。
第三,通过补充、完善原教材的理论与方法内容,以适应软件工具的升级与更新,使得教学更简便、过程更有效,进一步培养学生的创新能力。
这次修订工作仍由吴礼斌、李柏年担任主编,所有例题程序均在MATLAB(2014a)中验证通过,并打包放在华章网站(http://www.hzbook.com)供下载使用。
编者
教学建议
在教学过程中,一要重视数据分析原理的介绍,二要重视MATLAB程序编写的算法分析,三要重视每章的综合性实验教学。学生应具有计算机高级语言编程基础,学习过高等数学、线性代数、概率论与数理统计等课程。建议总教学时数为54学时,其中综合实验为24学时。建议课堂教学在计算机多媒体机房内完成,实现“讲与练”结合,实验课要求学生提交实验报告。具体各章的教学时数、内容和要求可作如下安排:
第1章 MATLAB基础 (6学时,其中2学时实验)
教学内容:MATLAB与数据分析;MATLAB的基本界面操作;矩阵的基本运算;MATLAB编程与M文件;MATLAB与Excel数据的读写交换。
教学要求:熟练掌握MATLAB的基本界面操作;理解运算符、操作符、基本数学函数命令等的功能与调用格式;掌握矩阵的运算;熟练掌握选择、循环语句的编程;掌握建立M文件的方法;了解MATLAB与Excel数据的读写交换。
第2章 数据描述性分析(8学时,其中2学时实验)
教学内容:基本统计量(如均值、方差、分位数等)与数据可视化;数据分布与检验(一元与多元数据);数据变换(无量纲化、Box-Cox变换等)。
教学要求:熟练掌握利用MATLAB计算基本统计量与数据可视化;掌握jbtest与lillietest关于数据的正态性检验;掌握协方差矩阵相等的检验方法;理解数据变换的意义与方法。
第3章 回归分析(8学时,其中4学时实验)
教学内容:一元回归模型(线性与非线性回归模型);多元线性回归模型;逐步回归分析;残差分析。
教学要求:理解回归分析的原理;熟练掌握MATLAB回归分析的命令;会应用MATLAB回归模型类建立回归模型;掌握非线性回归的基本方法以及MATLAB实现;掌握逐步回归的MATLAB方法;掌握残差分析。
第4章 判别分析(8学时,其中4学时实验)
教学内容:距离判别分析;贝叶斯判别分析;判别准则的评价。
教学要求:理解判别分析的原理;熟练掌握MATLAB软件进行距离判别与贝叶斯判别的方法和步骤;掌握判别分析的回代误判率与交叉误判率的计算;掌握解决实际判别问题的建模方法。
第5章 主成分分析与典型相关分析(8学时,其中4学时实验)
教学内容:主成分分析的原理(总体主成分的定义、计算、性质,样本主成分计算方法);主成分分析的应用(基于主成分分析的综合评价、分类、信号分离等);典型相关分析(原理,典型相关系数计算、检验,样本数据典型相关变量);典型相关分析应用实例;时间序列的趋势性与列联表分析。
教学要求:理解主成分与典型相关分析的原理;熟练掌握利用MATLAB进行主成分分析的计算步骤;掌握MATLAB进行典型相关分析的计算步骤;掌握具体实际问题典型相关分析结果的合理解释;了解趋势性与列联表分析。
第6章 聚类分析(8学时,其中4学时实验)
教学内容:距离聚类分析(向量距离、类间距离);谱系聚类与K均值聚类;模糊均值聚类(模糊C均值聚类,模糊减法聚类);聚类的有效性。
教学要求:理解聚类的思想与原理;熟练掌握MATLAB关于各种样品距离与类间距离的计算方法;会作谱系聚类图;掌握应用MATLAB计算各种聚类的命令;掌握聚类效果分析方法及程序的实现。
第7章 数值模拟分析(8学时,其中4学时实验)
教学内容:蒙特卡罗方法与应用(思想及应用、MATLAB的伪随机数);BP神经网络与应用(神经网络的概念、BP神经网络、MATLAB神经网络工具箱、BP神经网络的预测与判别)。
教学要求:理解蒙特卡罗方法;掌握用MATLAB生成伪随机数的方法;掌握伪随机数的应用;理解神经网络的基本思想;掌握MATLAB实现神经网络的预测与判别。
目录
第1章 MATLAB基础
1.1 数据分析与MATLAB1
1.2 MATLAB基础概述
1.3 MATLAB基本语法
1.4 数组和矩阵运算
1.5 M文件与编程
1.6 MATLAB通用操作实例
第2章 数据描述性分析
2.1 基本统计量与数据可视化
2.2 数据分布及其检验
2.3 数据变换
第3章 回归分析
3.1 一元回归模型
3.2 多元线性回归模型
3.3 逐步回归
3.4 回归诊断
第4章 判别分析111
4.1 距离判别分析111
4.1.1 判别分析的概念111
4.1.2 距离的定义111
4.1.3 两个总体的距离判别分析114
4.1.4 多个总体的距离判别分析119
4.2 判别准则的评价121
4.3 贝叶斯判别分析124
4.3.1 两个总体的贝叶斯判别124
4.3.2 多个总体的贝叶斯判别128
4.3.3 平均误判率130
4.4 K近邻判别与支持向量机135
习题4141
实验3 距离判别与贝叶斯判别分析145
第5章 主成分分析与典型相关分析147
5.1 主成分分析147
5.1.1 主成分分析的基本原理147
5.1.2 样本主成分分析154
5.2 主成分分析的应用158
5.2.1 主成分分析用于综合评价158
5.2.2 主成分分析用于分类161
5.2.3 主成分分析用于信号分离163
5.3 典型相关分析166
5.3.1 典型相关分析的基本原理166
5.3.2 样本的典型变量与典型相关系数169
5.3.3 典型相关系数的显著性检验170
5.3.4 典型相关分析实例172
5.4 趋势性与属性相关分析应用实例177
5.4.1 Cox-Stuart趋势检验177
5.4.2 属性数据分析178
习题5180
实验4 主成分分析与典型相关分析184
第6章 聚类分析187
6.1 距离聚类187
6.1.1 聚类的思想187
6.1.2 样品间的距离188
6.1.3 变量间的相似系数190
6.1.4 类间距离与递推公式192
6.2 谱系聚类193
6.2.1 谱系聚类的思想193
6.2.2 谱系聚类的步骤194
6.2.3 谱系聚类的MATLAB实现196
6.3 K均值聚类200
6.3.1 K均值聚类的思想200
6.3.2 K均值聚类的步骤200
6.3.3 K均值聚类的MATLAB实现201
6.4 模糊均值聚类203
6.4.1 模糊C均值聚类203
6.4.2 模糊减法聚类205
6.5 聚类的有效性207
6.5.1 谱系聚类的有效性207
6.5.2 K均值聚类的有效性209
6.5.3 模糊聚类的有效性211
习题6212
实验5 聚类方法与聚类有效性215
第7章 数值模拟分析217
7.1 蒙特卡罗方法与应用217
7.1.1 蒙特卡罗方法的基本思想217
7.1.2 随机数的产生与MATLAB的伪随机数218
7.1.3 蒙特卡罗方法应用实例219
7.2 BP神经网络及应用227
7.2.1 人工神经元及人工神经元网络227
7.2.2 BP神经网络228
7.2.3 MATLAB神经网络工具箱230
7.2.4 BP神经网络应用实例232
习题7239
实验6 数值模拟240
参考文献241