帮助您亲自了解预测分析的一些新应用(一)

这两种类型的知识都可增强您的决策制定能力。预测分析能够发现人类专家可能无法看到的数据中的隐藏模式。预测分析实际上是向数据应用数学知识的结果。因此,熟练的数学方法和良好的数据都对预测分析有很大帮助。考虑到我们可将预测分析应用到不同行业和垂直领域中的无数数据集中,本文将帮助您亲自了解预测分析的一些新应用。

本文是有关预测分析的 4 部分系列文章中的第 1 部分。第 1 部分对预测分析进行了总体概述。第 2 部分将重点介绍预测建模技术,这些技术是构成预测分析的核心内容的数学算法。第 3 部分将介绍这些技术的实际应用并描述预测解决方案的构建过程。最后,第 4 部分将重点介绍预测分析的部署,也就是将预测解决方案投入使用的过程。

分析简介

如今,我们生活在一个不断扩大的数据海洋中。为了在其中安全地徜徉,我们使用分析。没有分析,我们就会淹没其中,无法真正了解发生了什么或将会发生什么。在本文中,我们重点介绍从分析获取的知识,这些知识可分为描述性或预测性两类。描述性分析使我们能够知道过去发生了什么,而预测性分析专注于接下来将发生什么。

我们对了解过去的事件的需求催生了一门新学科,我们现在称之为商业智能。该学科使我们能够基于从历史数据获取的统计信息来制定决策。例如:

由于过去 6 个星期内的裁员,有
多少客户已流失或脱离? 由于过去 3 个月中存在的欺诈,损失了多少钱? 创建支持票的频率有多高? 客户位于何处(可能使用谷歌地图显示)?

描述性分析对基于事实(而不是感觉)而制定合理的">业务决策大有帮助。但是描述性分析还不足够。在我们如今生活的社会中,至关重要的是决策必需高度准确且可重复。为此,公司正在使用预测分析来真正地探索未来,并在此过程中定义合理的业务决策和流程。

作为一门学科,预测分析 已存在了几十年。作为学术界中多年来的一个热门主题,随着从人员(例如从在线交易和社交网络)和传感器(例如从 GPS 移动设备)采集的数据量以及经济高效的处理能力(无论是基于云还是基于 Hadoop)的增长,预测分析在行业中的相关性也在不断增长。

数据驱动的知识与专家知识

一想起知识以及我们对知识的传递和使用就觉得趣味无穷。在传统上,我们依靠领域专家来帮助我们最有效地利用特定流程。专家知识基于经验,所有公司每天都使用专家知识来影响日常运营。因为我们可将专家知识转换为一组业务规则,所以构建了基于决策的系统来自动应用从人类专家获取的知识。IBM ILOG 是一个将专家知识转换为一组可立即应用的 IF-THEN 语句的系统的绝佳示例。

另一方面,顾名思义,数据驱动的知识基于数据(通常是大量数据)。几十年前诞生了一系列统计技术,意欲揭示人眼通常看不到的数据模式。考虑到我们如今捕获的数据量越来越大,这些技术经证明对从数据中提取价值,使流程可重复和准确不可或缺。

电影点球成金 很好地体现了这一事实。在该影片中,一些经验丰富的招聘代理人提供了有关应吸引哪些选手加入团队的第一手知识和直觉。这与数据驱动的方法形成了鲜明的对比,在数据驱动的方法中会从每个选手的可用数据中提取知识,然后依据该知识组建一个团队。尽管点球成金 优先选择了一种类型的知识,但在大多数情况下,我们确实应结合使用专家知识和数据驱动的知识。

分析能够生成合理的统计信息、预测和分数。但是,需要由一个基于规则的系统来确定使用所有这些数据驱动的知识做什么。例如,我们可使用一系列规则,依据一个预测模型获得的输出来触发业务决策。例如,如果有一个模型用于预测客户流失或脱离的风险,那么我们可以部署已知能减轻流失率的规则来代替依据不同的风险级别定义特定的业务决策。因此,如果风险很高,我们可为客户的下一次购买提供 20% 的折扣,但如果风险非常高,我们则可提供 50% 的折扣。

什么是预测模型?

预测模型简单来讲是一个数学函数,它能够获悉一组输入数据变量(通常绑定到一个记录)与一个响应或目标变量之间的映射关系。

我们将这种学习称为监督式学习,因为在培训期间,数据会提供给一个具有输入数据和期望输出或结果的预测模型。培训会反复进行,直到该模型获悉了给定输入与期望输出之间的映射关系为止。使用监督式学习的预测模型示例包括反向神经网络、支持矢量机和决策树。预测模型也可使用非监督式学习。在这种情况下,仅为预测模型提供输入数据。然后,预测模型的任务是确定不同的输入数据记录彼此之间的关联。集群是最常用的预测模型类型,使用的是非监督式学习。

例如,试想一下您希望创建一个预测模型,该模型将能够确定您的哪位客户最可能流失(为这些人提供 20% 还是 50% 的折扣?)。首先返回到历史数据中,搜索可用于构建一个模型来实现此目标的特性。通过查看数据库,您能够为现有客户和已流失的过去的客户编制一个裁员相关特性的列表。该列表可能包含前 6 个月的投诉数量、前 4 个星期中公开的支持票数量、客户花钱购买商品或服务(在线或在店内)的频率和所花的金额,以及年龄、性别和人口统计等一般信息。图 1 显示了两个这样的客户和所获取的其中每位客户的特性。客户 1 是一个现有客户且似乎很满意。但是客户 2 已流失。

图 1. 两个客户及其各自的输入特性

时间: 2024-12-06 07:18:34

帮助您亲自了解预测分析的一些新应用(一)的相关文章

帮助您亲自了解预测分析的一些新应用(二)

对未来的预测可以追溯到看手相的时代.预测分析需要对大量的历史数据进行分析和预处理,然后将结果提交给预测技术进行培训.一个预测模型需要将数据与良好的数学方法结合起来解决特定的问题.假设有一个明确定义的问题和一个旨在解决此问题的模型,那么必须详尽地衡量和评估所有预测错误.因此使用模型评估确定模型的准确度.随后使用评估结果选出最佳模型并设定理想的鉴别阈值.当结合业务规则后,预测模型将能够真正地对您的企业的底线产生影响.预测解决方案就是将数据.良好的数学方法和业务规则组合在一起,它们共同交付增强的业务决

帮助您亲自了解预测分析的一些新应用(四)

在整个社会范围内,数据正在呈现指数级增长.IBM 指出,如今 90% 的数据都是在过去两年内产生的.幸运的是,有许多预测建模技术都可用于将这些数据转换为洞察和价值,这些技术包括神经网络 (NN).集群.支持向量机 (SVM) 和关联规则.这些技术是通过学习大量历史数据中隐含的模式来实现这一点的.完成学习后,将生成一个预测模型.对模型进行验证后,就意味着该模型能够归纳所学习的知识并将归纳结果应用到新的情景中.由于预测建模技术可以学习过去并根据学习结果预测未来,因此可用于解决各种问题,如http:/

帮助您亲自了解预测分析的一些新应用(三)

过去,实际应用预测解决方案是一项非常繁杂的过程,需要投入大量的时间和资源.预测模型标记语言 (PMML) 的出现彻底改变了这一局面.构建解决方案的http://www.aliyun.com/zixun/aggregation/7155.html">开发人员现在可以在几分钟之内就将预测解决方案投入使用.作为预测分析的事实标准,PMML 受到所有顶级数据挖掘供应商的支持,包括商业和开源的供应商.构建好预测模型后,可以很轻松地将其导出到一个 PMML 文件中.之后,您可以直接将该文件部署到一个基

《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题

第2章 通过理解数据来了解问题 Python机器学习--预测分析核心算法新数据集(问题)就像一个包装好的礼物,它充满了承诺和希望.一旦你能解决它,你就收获了喜悦.但是直到你打开它,它都一直保持着神秘.本章就是告诉你怎么"打开"新的数据集,看清楚里面都有什么,知道如何处置这些数据,并且开始思考如何利用这些数据构建相应的模型. 本章有两个目的:一是熟悉这些数据集,这些数据集被用来作为解决各种类型问题的例子,主要是利用第4章和第6章介绍的算法:另一个目的就是展示Python中分析数据的工具包

《Python机器学习——预测分析核心算法》——1.1 为什么这两类算法如此有用

1.1 为什么这两类算法如此有用 有几个因素造就了惩罚线性回归和集成方法成为有用的算法集.简单地说,面对实践中遇到的绝大多数预测分析(函数逼近)问题,这两类算法都具有最优或接近最优的性能.这些问题包含:大数据集.小数据集.宽数据集(wide data sets)[1].高瘦数据集(tall skinny data sets)[2].复杂问题.简单问题,等等.Rich Caruana及其同事的两篇论文为上述论断提供了证据. 1."An Empirical Comparison of Supervi

SAP被评为“大数据”预测分析领军企业

本文讲的是SAP被评为"大数据"预测分析领军企业,2013年1月24日,SAP公司日前宣布:在Forrester Research 发布的"The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013"(<The Forrester Wave:2013 年第一季度大数据预测分析解决方案>)报告中,SAP被评为该领域的领军企业.此次评选活动中,SAP 凭借强大的架构和战略被誉为市场

预测分析:R语言实现.

数据科学与工程技术丛书 预测分析:R语言实现 Mastering Predictive Analytics with R [希] 鲁伊·米格尔·福特(Rui Miguel Forte) 著 吴今朝 译 图书在版编目(CIP)数据 预测分析:R语言实现/(希)鲁伊·米格尔·福特(Rui Miguel Forte)著:吴今朝译. -北京:机械工业出版社,2016.10 (数据科学与工程技术丛书) 书名原文:Mastering Predictive Analytics with R ISBN 978-

《Python机器学习——预测分析核心算法》——2.4 基于因素变量的实数值预测:鲍鱼的年龄

2.4 基于因素变量的实数值预测:鲍鱼的年龄 探测未爆炸的水雷数据集的工具同样可以用于回归问题.在给定物理测量值的情况下,预测鲍鱼的年龄就是此类问题的一个实例.鲍鱼的属性中包括因素属性,下面将说明属性中含有因素属性后与上例有什么不同. 鲍鱼数据集的问题是根据某些测量值预测鲍鱼年龄.当然可以对鲍鱼进行切片,然后数年轮获得鲍鱼年龄的精确值,就像通过数树的年轮得到树的年龄一样.但是问题是这种方法代价比较大,耗时(需要在显微镜下数年轮).因此更方便经济的方法是做些简单的测量,如鲍鱼的长度.宽度.重量等指

预测分析:R语言实现导读

前 言 预测分析以及更一般意义上的数据科学当前正处于被追捧的热潮中,因为像垃圾邮件过滤.单词补全和推荐引擎这样的预测性技术已经被广泛运用于日常生活.这些技术现在不仅越来越被我们所熟悉,还赢得了我们的信任.在计算机处理能力和软件方面(例如R语言及其大量专用的扩展包)的发展产生了这样的局面:用户经过培训就可以使用这些工具,而无需具备统计学的高级学位,也不需要使用公司或大学实验室专用的硬件.技术的成熟度和基础软硬件的可用性结合起来,让很多该领域的从业者倍感兴奋,他们感到可以为自己的领域和业务设计一些能