IBM SPSS Statistics多变量预测建模

1. 应用背景

1.1 解决的问题

1)">大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试。如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现?

2)随着资源使用的增长,CPU、内存、硬盘、I/O 等资源互相影响并存在潜在关联。如何洞察其关联来指导企业做出合理的容量规划?

3)伴随业务扩展,企业生产环境的负载日益增加。 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估?

4)如何提供自动化、自适应的建模过程与预测分析,为企业用户打造针对个性化场景自动建立、自动调整的预测模型来降低使用复杂度? 如何保证预测分析的有效性和准确性?

1.2 商业价值

1)避免过多地投入测试资源,最大化测试资源价值,实现测试与生产的资源整合。

2)优化企业数据中心资源利用率,各项资源合理配比,提供更精准的性能分析和容量规划方案以节约成本。

3)合理预测业务增长,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。

4)提升业务可持续性与用户体验,为企业提供基于源数据的自动化选型、建模、调整、验证的全生命周期解决方案。

2. 数据准备

应用某网站在新业务上线前,通过测试环境的结果预测其生产环境上线后的资源利用率场景。从小范围入手,首先针对一台服务器,选取相关指标数据进行关联分析与预测建模的研究。例如在众多的服务器中,选取其中的一台 web 服务器(192.168.119.9)。对该台服务器在 2013 年 1 月 1 日 00:00~24:00 的各项指标,采集单位为分钟,共 1440 条数据进行量化分析。

本文的主要目的是预测用户访问频率 Frequency_User 的未来发展趋势。因此,需要考虑用户访问频率 Frequency_User、内存利用率 MEM、硬盘利用率 DISK 与 CPU 利用率的关系。将数据文件的信息合并为一个新的数据文件,数据整理后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 1 所示,其中包含以下字段:日期 DATE、时间 TIME(采集单位:分钟)、用户访问频率 Frequency_User(单位 : 次)、内存利用率 MEM(单位:%)、硬盘利用率 DISK(单位:%)、用户 CPU 利用率 CPU(单位:%)。

图 1. 数据文件变量

3. IBM SPSS Statistics 使用过程

3.1 多变量关联分析

本文通过偏相关分析,判断用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的关联关系。偏相关分析是当两个变量同时与其他多个变量相关时,将其他多个变量的影响剔除,只分析另外两个变量之间相关程度的过程 。因此,针对于本文中包含的多个变量的关联分析,可利用偏相关分析展开研究。例如分析其中的两个变量访问频率 Frequency_User 与 CPU 利用率的关联关系,需要剔除内存利用率 MEM 与硬盘利用率 DISK 的影响,只针对于访问频率 Frequency_User 与 CPU 利用率进行偏相关分析。通过相关系数 r,判断 Frequency_User 与 CPU 是否线性相关。若线性相关,则可得出关联关系。若不线性相关,则利用回归判断出目标变量与其他多个变量间的影响关系,即判断预测变量的重要性对于目标变量。多变量关联分析流程图,如下图 2 所示 。

图 2. 多变量关联分析流程图

3.1.1 偏相关分析

1) 偏相关分析步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 相关 > 偏相关, 就进入“偏相关” 模块方法界面,如图 3 所示。

图 3. 偏相关分析界面

在“偏相关”对话框中,选择 Frequency_User 与 CPU 进入“变量”框,选择 MEM 与 DISK 进入“控制”框。在“显著性检验”框中可选相关系数的单侧(One-tailed)或双侧(Two-tailed)检验, 本文选双侧检验,如图 4 所示。

图 4. 选择变量与参数

点击“选项”按钮弹出“偏相关性:选项”对话框,可设置相关统计量,如图 5 所示。本文设置 Frequency_User、CPU、MEM 与 DISK 输出“均数与标准差”以及“零阶相关系数”,点击“继续”按钮返回“偏相关”对话框。

图 5. 偏相关性选项

2)结果描述

根据偏相关分析的结果,Frequency_User 的均值为 85778.15992,标准差为 43387.93355;CPU 的均值为 33.84895%,标准差为 9.304364;MEM 的均值为 36.93768%,标准差为 6.954192;DISK 的均值为 30.71943%,标准差为 13.372261,如图 6 所示。

图 6. 描述性统计量

以下展示了两种偏相关关系的结果,如图 7 所示。首先,在没有控制变量的情况下,展示了 Frequency_User、CPU、MEM 与 DISK 两两对应的相关系数、双侧检验的概率与自由度。其次,在设定 MEM 与 DISK 为控制变量情况下,展示了 Frequency_User 与 CPU 两两对应的相关系数、双侧检验的概率与自由度。根据两种偏相关情况下的结果可以看出,若不剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.622;若剔除 MEM 与 DISK 对 Frequency_User、CPU 的影响,Frequency_User 与 CPU 的相关性系数为 0.771。

图 7. 相关性

其中,相关性的值为通常所指的相关系数 r。相关系数 r 较好地度量了两变量间的线性相关程度,相关系数 r 属于 [1,+1]。若 0<r ≤ 1,表明变量之间存在正相关关系;若 1 ≤ r<0,表明变量之间存在负相关关系。r = 1 完全正相关;r =-1:完全负相关;这两种情况说明变量之间存在函数关系。r = 0 无线性关系。|r|>0.8:强相关;|r|<0.3:弱相关,可视为不相关。本文中 Frequency_User 与 CPU 的相关性的值为 0.771,还需利用回归分析进一步研究。

3.1.2 回归分析

1)回归分析步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 回归 > 自动线性建模,就进入“自动线性 建模”模块方法界面,如图 8 所示。

图 8. 自动线性建模界面

在“自动线性建模”对话框中,选择 Frequency_User 为目标,CPU、DISK 与 MEM 为预测变量(输入),进行自动线性建模,如图 9 所示。

图 9. 自动线性建模界面

2)结果描述

根据预测变量的重要性,关联分析出 CPU 对 Frequency_User 的重要性达到 80% 以上,DISK 与 MEM 的重要性均没有超过 20%,如图 10 所示。充分表明 CPU 与 Frequency_User 的相关性最强,对其的解释能力最高。

图 10. 预测变量重要性

3.2 预测建模

本文选取用户访问频率 Frequency_User 进行预测模型的研究。首先,判断出目标预测变量 Frequency_User 与其他多个变量 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 间的影响关系。根据 3.1 节中多变量关联分析的结果,确定 Frequency_User 预测过程中的相关变量为 CPU 利用率。其次,筛选出最优预测模型。利用专家预测模型与 ARIMA 预测模型进行建模。再次,进行模型参数调整。最后,根据预测结果,判断用户的满意度。若用户满意预测结果,则选取此模型为最优模型;若用户不满意预测结果,则将专家预测模型与 ARIMA 预测模型的所有参数提供给用户,允许用户进行预测模型选择及参数调整,不断循环以上步骤,直到用户对预测结果满意为止。预测模型的建模流程图,如图 11 所示。

图 11. 预测模型的建模流程图

筛选出最优预测模型

1) 建模步骤

打开 IBM SPSS Statistics,在菜单中选择:分析 > 预测 > 创建模型,就进入 “时间序列建模器”模块方法界面,如图 12 所示。在“时间序列建模器”对话框中,选择 Frequency_User 为因变量,CPU 为自变量,建立多种预测模型。

图 12. 时间序列建模器

在“统计量”标签中选择输出的拟合度量指标,例如:R 方,均方根误差,平均绝对误差百分比。在“图表”标签中选择每张图显示的内容为:观察值,预测值和拟合值。在“保存”标签中,一方面,设置保存预测模型的预测结果在 SAV 文件中;另一方面,将预测模型保存为 xml 格式,当有新的数据需要预测时,可直接使用此保存结果,不用重新构造模型,如图 13 所示。在“选项”标签中指定未来希望预测到的时间点,例如本文有 1 至 1440 分钟的观测值,指定预测值为 1500 分钟即可获得 1441 至 1500 分钟的预测值。

图 13. 保存预测模型

2)结果描述

根据拟合结果,选取最优的 ARIMA(1,1,0)预测模型进行建模,如图 14 所示。

图 14. 模型描述

输出的拟合度量指标,例如:R 方,均方根误差(RMSE),平均绝对误差百分比(MAPE),如图 15 所示。本文选取指标 R 方,RMSE,MAPE 对预测结果进行评价:R 方越接近于 1,MAPE 越接近于 0 表明模型的拟合程度越好;均方根误差说明了样本的离散程度。

图 15. 模型统计量

Frequency_User 的观察值、预测值和拟合值,如图 16 所示。其中,横坐标代表时间(间隔:分钟),纵坐标代表用户访问频率 Frequency_User(单位:次)。

图 16. 预测模型的预测结果

模型参数调整

在“时间序列建模器”对话框,点击“条件”按钮,如图 17 所示。将进行预测模型的参数调整。

图 17. 模型参数调整

进入“时间序列建模器:ARIMA 条件”。ARIMA(p,d,q)称为差分自回归移动平均模型,AR 是自回归,p 为自回归项;MA 为移动平均,q 为移动平均项数,d 为时间序列成为平稳时所做的差分次数。 p、d、q 取值范围一般均为 [0,2],如图 18 所示。可设置不同的参数值进行预测建模。

图 18.ARIMA 预测模型的分类

结束语

智能容量规划管理解决方案通过使用 IBM SPSS Statistics 中的分析功能,对用户访问频率 Frequency_User 进行预测。一方面,充分考虑了用户访问频率 Frequency_User 与 CPU 利用率、内存利用率 MEM、硬盘利用率 DISK 之间的影响,精确的分析出了用户增长与资源之间的关联关系,利用关联关系来指导企业做出可靠的容量分析;另一方面,合理预测用户访问频率 Frequency_User 的业务发展趋势,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。

时间: 2024-12-22 16:41:41

IBM SPSS Statistics多变量预测建模的相关文章

IBM SPSS Statistics如何使用购买倾向分析来选择客户

介绍如何使用客户直销分析模块中的购买倾向分析功能和对数据进行评分功能来选择客户,从而帮助您针对不同的客户制定 Smart http://www.aliyun.com/zixun/aggregation/12474.html">营销策略提供更可靠的依据. IBM SPSS Statistics 客户直销模块介绍 IBM SPSS Statistics 统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,在全球

IBM SPSS Statistics: 如何使用控制包装检验来优化市场营销效果

IBM SPSS Statistics http://www.aliyun.com/zixun/aggregation/10341.html">统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,在全球有大量的企业和个人用户. 虽然 IBM SPSS Statistics 中的统计分析功能强大,但需要依赖于丰富的统计分析背景知识进行操作,因此不便于一般的商业用户使用.为此在 18 版本后,IBM SPSS

IBM SPSS Statistics洞察关联分析与预测建模

1. 简介 本文提出的智能容量规划管理解决方案旨在帮助企业更精准有效地匹配测试和生产环境,寻找各种性能指标的潜在关联关系,分析业务负载对容量的影响,建立预测模型进行实时验证.使企业科学地实施容量改革,合理地规划与配置资源,大量地节约企业成本,提高资源的可用性与http://www.aliyun.com/zixun/aggregation/17812.html">可持续性. 2. 应用背景 解决的问题 1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试.如何保证测

使用IBM SPSS Statistics的Direct Marketing模块RFM分析流程

对客户进行分组是一种自然趋势.公司希望知道哪些客户是他们的最佳客户.哪些客户是最差客户.谁具有潜力.谁是新客户,等等.市场营销和销售部门会定期且经常这么做.他们的目标是扩大有限的工作,以实现最大的回报(在本例中为销售额). 分类和分组客户可能是人类本性和业务运营的一项自然功能,但做好它是一个研究.讨论和实践主题.内置于 IBM SPSS Statistics 中的向导中的一种分类模型是最新性.频率和货币价值 (RFM) 分类.RFM 是一种基于客户行为来将其分组的久经考验且广泛使用的方法.在按

IBM SPSS Modeler 与数据库集成建模及优化(三)

IBM SPSS Modeler 与数据库集成建模及优化 在这个由三部分组成的关于 IBM SPSS Modeler 与数据库集成建模及优化系列的前两部分中,我们谈到了与数据库相关的基本操作及集成建模,本部分将重点关注 SPSS Modeler 集成使用数据库的过程中的性能优化,包括多种功能的介绍和技巧的使用: 数据操作回送 模型回送 数据库插件 - 评分服务适配器 调用数据库函数 重新排列执行顺序 性能提升技巧总结 本文假设读者熟悉在 SPSS Modeler 中如何建立数据库连接及其他一些基

IBM SPSS Modeler与数据库集成建模及优化

在这个由三部分组成的关于 IBM® SPSS® Modeler 与数据库集成建模及优化系列的前两部分中,我们谈到了与数据库相关的基本操作及集成建模,本部分将重点关注 SPSS Modeler 集成使用数据库的过程中的http://www.aliyun.com/zixun/aggregation/14109.html">性能优化,包括多种功能的介绍和技巧的使用: • 数据操作回送 • 模型回送 • 数据库插件 - 评分服务适配器 • 调用数据库函数 • 重新排列执行顺序 • 性能提升技巧总结

IBM SPSS Modeler与数据库集成建模及优化(一)

IBM SPSS Modeler 与数据库集成和配置 作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型 ,并将其应用于商业活动,从而改进决策过程. 其可对企业级海量数据进行处理与建模,通过强大的数据库集成功能更可以直 接与企业已有的数据库集成进行数据挖掘.不仅避免了企业资金重复投入, 而且可以获取更好的数据挖掘性能. 比如某公司经过多年的积累,有非常庞大的数据且存储于数据库中  ,希望能使用 SP

IBM SPSS Modeler与数据库集成建模及优化(二)

了解 IBM SPSS Modeler 与数据库集成和优化 在这个由三部分组成的关于 IBM SPSS Modeler 与数据  库集成建模及优化系列的第一部分中,我们谈到了使用数据库  节点对数据库进行写入及读取数据操作.接下来,我们将介绍使用 SPSS   Modeler 应用程序在数据库中构建.评分和存储模型.通过集成,可将  SPSS Modeler 的分析功能和易用性与数据库的强大性能相结合,同时还  可运用数据库提供商提供的数据库自有算法进行建模.通过 SPSS Modeler  

如何通过IBM SPSS Modeler对数据进行处理和建模

由于目前http://www.aliyun.com/zixun/aggregation/18046.html">企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理和建模,就需要将这些存储在不同数据库之间的数据进行有效的整合,本文将介绍通过 IBM SPSS Modeler 如何对不同数据库之间的数据进行整合,然后进行建模处理. IBM SPSS Modeler 介绍 IBM SPSS Modele