IBM SPSS Statistics洞察关联分析与预测建模

1. 简介

本文提出的智能容量规划管理解决方案旨在帮助企业更精准有效地匹配测试和生产环境,寻找各种性能指标的潜在关联关系,分析业务负载对容量的影响,建立预测模型进行实时验证。使企业科学地实施容量改革,合理地规划与配置资源,大量地节约企业成本,提高资源的可用性与">可持续性。

2. 应用背景

解决的问题

1)大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试。如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现?

2)随着资源使用的增长,CPU,内存,硬盘,I/O 等资源互相影响并存在潜在关联。如何洞察其关联来指导企业做出合理的容量规划?

3)伴随业务扩展,企业生产环境的负载日益增加。 如何帮助企业通过对未来业务量和用户量的增长预测而做出相应的容量预估?

4)如何提供自动化、自适应的建模过程与预测分析,为企业用户打造针对个性化场景自动建立、自动调整的预测模型来降低使用复杂度? 如何保证预测分析的有效性和准确性?

商业价值

1)避免过多地投入测试资源,最大化测试资源价值,实现测试与生产的资源整合。

2)优化企业数据中心资源利用率,各项资源合理配比,提供更精准的性能分析和容量规划方案以节约成本。

3)合理预测业务增长,提高企业对未来业务的洞察力,帮助企业制定更完备的容量预估和应急方案。

4)提升业务可持续性与用户体验,为企业提供基于源数据的自动化选型、建模、调整、验证的全生命周期解决方案。

数据准备

2.1 数据描述

应用某网站在新业务上线前,通过测试环境的测试结果预测其生产环境上线后的资源利用率场景。

从小范围入手,首先针对一台服务器,选取相关指标数据进行关联分析与预测建模的研究。例如在众多的服务器中,选取其中的一台 web 服务器(192.168.119.9),对该台服务器在 9 月 22 日 21:00~22:00 的 Access log 文件与 nmon 文件进行量化分析。

Access log文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 1 所示,其中包含以下字段:日期 date,时间 time(采集单位:分钟),访问 Server 的 IP 地址 server_ip,存储资源 Source 的 IP 地址 source_ip。

图 1.nmon 文件变量视图

nmon 文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 2 所示,其中包含以下字段:日期 date,时间 time(采集单位:分钟),用户 cpu 利用率 cpu_User ( 单位 :%) ,系统 cpu 利用率 cpu_Sys( 单位 :%) ,等待 cpu 利用率 cpu_Wait ( 单位 :%) ,空闲 cpu 利用率 cpu_Idel ( 单位 :%) ,请求类型 request_params( 如:/emall/SNGetIsUserLogonView),返回类型 from_params( 如:http://search.suning.com/emall/strd.do?ci=247504&cityId=9264),响应长度 response_len,响应时间 response_time。

图 2.nmon 文件变量视图

2.2 数据预处理

本文选取用户对 Server 的 IP 访问频率 frequency_User 与用户 cpu 利用率 cpu_User 进行关联分析,需要将以上两个数据文件的信息合并为一个新的数据文件。合并后的文件被保存成 IBM SPSS Statistics 的 SAV 格式的存储文件,如图 3 所示,其中包含以下字段:日期 date,时间 time(采集单位:分钟),用户 cpu 利用率 cpu_User ( 单位 :%),用户对 Server 的 IP 访问频率 frequency_User。

图 3. 合并文件变量视图

时间: 2024-10-26 12:11:29

IBM SPSS Statistics洞察关联分析与预测建模的相关文章

IBM SPSS Statistics多变量预测建模

1. 应用背景 1.1 解决的问题 1)http://www.aliyun.com/zixun/aggregation/15530.html">大型企业的 IT 系统对每一次应用程序的升级都会预先在其测试环境上进行测试.如何保证测试的有效性?如何通过测试的结果推测其在生产环境上的表现? 2)随着资源使用的增长,CPU.内存.硬盘.I/O 等资源互相影响并存在潜在关联.如何洞察其关联来指导企业做出合理的容量规划? 3)伴随业务扩展,企业生产环境的负载日益增加. 如何帮助企业通过对未来业务量和

使用IBM SPSS Statistics的Direct Marketing模块RFM分析流程

对客户进行分组是一种自然趋势.公司希望知道哪些客户是他们的最佳客户.哪些客户是最差客户.谁具有潜力.谁是新客户,等等.市场营销和销售部门会定期且经常这么做.他们的目标是扩大有限的工作,以实现最大的回报(在本例中为销售额). 分类和分组客户可能是人类本性和业务运营的一项自然功能,但做好它是一个研究.讨论和实践主题.内置于 IBM SPSS Statistics 中的向导中的一种分类模型是最新性.频率和货币价值 (RFM) 分类.RFM 是一种基于客户行为来将其分组的久经考验且广泛使用的方法.在按

IBM SPSS Statistics如何使用购买倾向分析来选择客户

介绍如何使用客户直销分析模块中的购买倾向分析功能和对数据进行评分功能来选择客户,从而帮助您针对不同的客户制定 Smart http://www.aliyun.com/zixun/aggregation/12474.html">营销策略提供更可靠的依据. IBM SPSS Statistics 客户直销模块介绍 IBM SPSS Statistics 统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,在全球

IBM SPSS Statistics: 如何使用控制包装检验来优化市场营销效果

IBM SPSS Statistics http://www.aliyun.com/zixun/aggregation/10341.html">统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,在全球有大量的企业和个人用户. 虽然 IBM SPSS Statistics 中的统计分析功能强大,但需要依赖于丰富的统计分析背景知识进行操作,因此不便于一般的商业用户使用.为此在 18 版本后,IBM SPSS

如何通过IBM SPSS Modeler对数据进行处理和建模

由于目前http://www.aliyun.com/zixun/aggregation/18046.html">企业客户的业务量和数据量都在不断的提高,随着企业的发展,很多企业的数据存储都不局限于同一个数据库上,如果要对这些存储在不同数据库上的数据进行处理和建模,就需要将这些存储在不同数据库之间的数据进行有效的整合,本文将介绍通过 IBM SPSS Modeler 如何对不同数据库之间的数据进行整合,然后进行建模处理. IBM SPSS Modeler 介绍 IBM SPSS Modele

利用IBM SPSS CaDS的自动化功能来简化业务分析流程

企业随着业务数据的不断更新,需要及时快速的做出决策.IBM SPSS CaDS 拥有一套独立的 Automation 流程.本文将通过http://www.aliyun.com/zixun/aggregation/13989.html">电信行业客户挽留方案详细介绍如何利用 IBM SPSS CaDS 的 Automation 功能来简化业务分析流程,快速生成数据分析结果,从而为企业做决策提供有力支撑.文章同时还详述了 Automation 和第三方系统的无缝集成.在客户历史数据更新后,第

IBM SPSS Data Collection纸张问卷解决方案

本文是系列文章的第一部分,将介绍 IBM SPSS Data Collection 针对纸张问卷的解决方案,以及定义初级的纸张问卷元数据. 纸张问卷调查 , 或者说纸笔访问(PAPI),一般是调查人员预备一套针对特定目的而设计的系列问题,并打印在纸张上,从而让调查对象可以自己使用笔在纸上直接填写回答的方式.纸张问卷调查的过程非常直接简单而且便捷,即使在http://www.aliyun.com/zixun/aggregation/14054.html">信息技术更新飞快的今天,这样的调查形

IBM SPSS Data Collection社交媒体分析网页问卷调查

基于这些热门词汇,我们就可以通过 Data Collection 产品制作出一系列有针对性的调查问卷,帮助对这些话题比较关注的客户进一步的了解和分析消费者的想法 , 从而根据市场需求更快.更有效地推出新产品. 社交媒体(Social Media),也称为社会化媒体.社会性媒体,指允许人们撰写.分享.评价.讨论.相互沟通的网站和技术.社交媒体的产生依赖的是 WEB2.0的发展.现阶段主要包括 博客.论坛.播客等等.近年来,通过大量网民("草根阶层")自发贡献.提取.创造成为热点新闻.然后

IBM SPSS通过业务分析制定良好决策

IBM SPSS® 和 IBM ILOG® CPLEX® 等顶级的统计和优化软件包证明 IBM 一直致力于开发http://www.aliyun.com/zixun/aggregation/13782.html">业务分析技术解决方案,帮助您使用和理解支持您业务的数据.有了访问触手可及的数据的独特能力后,IT 服务的下一个重要任务就是很好地利用这些数据. 当我还是孩子的时候,我想成为一名宇航员.那时的生活很简单,但简单有简单的后果:我相信我估算的 pi 比后铜器时代文化的估算结果长 &qu