这两种类型的知识都可增强您的决策制定能力。预测分析能够发现人类专家可能无法看到的数据中的隐藏模式。预测分析实际上是向数据应用数学知识的结果。因此,熟练的数学方法和良好的数据都对预测分析有很大帮助。考虑到我们可将预测分析应用到不同行业和垂直领域中的无数数据集中,本文将帮助您亲自了解预测分析的一些新应用。
本文是有关预测分析的 4 部分系列文章中的第 1 部分。第 1 部分对预测分析进行了总体概述。第 2 部分将重点介绍预测建模技术,这些技术是构成预测分析的核心内容的数学算法。第 3 部分将介绍这些技术的实际应用并描述预测解决方案的构建过程。最后,第 4 部分将重点介绍预测分析的部署,也就是将预测解决方案投入使用的过程。
分析简介
如今,我们生活在一个不断扩大的数据海洋中。为了在其中安全地徜徉,我们使用分析。没有分析,我们就会淹没其中,无法真正了解发生了什么或将会发生什么。在本文中,我们重点介绍从分析获取的知识,这些知识可分为描述性或预测性两类。描述性分析使我们能够知道过去发生了什么,而预测性分析专注于接下来将发生什么。
我们对了解过去的事件的需求催生了一门新学科,我们现在称之为商业智能。该学科使我们能够基于从历史数据获取的统计信息来制定决策。例如:
由于过去 6 个星期内的裁员,有
多少客户已流失或脱离? 由于过去 3 个月中存在的欺诈,损失了多少钱? 创建支持票的频率有多高? 客户位于何处(可能使用谷歌地图显示)?
描述性分析对基于事实(而不是感觉)而制定合理的">业务决策大有帮助。但是描述性分析还不足够。在我们如今生活的社会中,至关重要的是决策必需高度准确且可重复。为此,公司正在使用预测分析来真正地探索未来,并在此过程中定义合理的业务决策和流程。
作为一门学科,预测分析 已存在了几十年。作为学术界中多年来的一个热门主题,随着从人员(例如从在线交易和社交网络)和传感器(例如从 GPS 移动设备)采集的数据量以及经济高效的处理能力(无论是基于云还是基于 Hadoop)的增长,预测分析在行业中的相关性也在不断增长。
数据驱动的知识与专家知识
一想起知识以及我们对知识的传递和使用就觉得趣味无穷。在传统上,我们依靠领域专家来帮助我们最有效地利用特定流程。专家知识基于经验,所有公司每天都使用专家知识来影响日常运营。因为我们可将专家知识转换为一组业务规则,所以构建了基于决策的系统来自动应用从人类专家获取的知识。IBM ILOG 是一个将专家知识转换为一组可立即应用的 IF-THEN 语句的系统的绝佳示例。
另一方面,顾名思义,数据驱动的知识基于数据(通常是大量数据)。几十年前诞生了一系列统计技术,意欲揭示人眼通常看不到的数据模式。考虑到我们如今捕获的数据量越来越大,这些技术经证明对从数据中提取价值,使流程可重复和准确不可或缺。
电影点球成金 很好地体现了这一事实。在该影片中,一些经验丰富的招聘代理人提供了有关应吸引哪些选手加入团队的第一手知识和直觉。这与数据驱动的方法形成了鲜明的对比,在数据驱动的方法中会从每个选手的可用数据中提取知识,然后依据该知识组建一个团队。尽管点球成金 优先选择了一种类型的知识,但在大多数情况下,我们确实应结合使用专家知识和数据驱动的知识。
分析能够生成合理的统计信息、预测和分数。但是,需要由一个基于规则的系统来确定使用所有这些数据驱动的知识做什么。例如,我们可使用一系列规则,依据一个预测模型获得的输出来触发业务决策。例如,如果有一个模型用于预测客户流失或脱离的风险,那么我们可以部署已知能减轻流失率的规则来代替依据不同的风险级别定义特定的业务决策。因此,如果风险很高,我们可为客户的下一次购买提供 20% 的折扣,但如果风险非常高,我们则可提供 50% 的折扣。
什么是预测模型?
预测模型简单来讲是一个数学函数,它能够获悉一组输入数据变量(通常绑定到一个记录)与一个响应或目标变量之间的映射关系。
我们将这种学习称为监督式学习,因为在培训期间,数据会提供给一个具有输入数据和期望输出或结果的预测模型。培训会反复进行,直到该模型获悉了给定输入与期望输出之间的映射关系为止。使用监督式学习的预测模型示例包括反向神经网络、支持矢量机和决策树。预测模型也可使用非监督式学习。在这种情况下,仅为预测模型提供输入数据。然后,预测模型的任务是确定不同的输入数据记录彼此之间的关联。集群是最常用的预测模型类型,使用的是非监督式学习。
例如,试想一下您希望创建一个预测模型,该模型将能够确定您的哪位客户最可能流失(为这些人提供 20% 还是 50% 的折扣?)。首先返回到历史数据中,搜索可用于构建一个模型来实现此目标的特性。通过查看数据库,您能够为现有客户和已流失的过去的客户编制一个裁员相关特性的列表。该列表可能包含前 6 个月的投诉数量、前 4 个星期中公开的支持票数量、客户花钱购买商品或服务(在线或在店内)的频率和所花的金额,以及年龄、性别和人口统计等一般信息。图 1 显示了两个这样的客户和所获取的其中每位客户的特性。客户 1 是一个现有客户且似乎很满意。但是客户 2 已流失。
图 1. 两个客户及其各自的输入特性