在整个社会范围内,数据正在呈现指数级增长。IBM 指出,如今 90% 的数据都是在过去两年内产生的。幸运的是,有许多预测建模技术都可用于将这些数据转换为洞察和价值,这些技术包括神经网络 (NN)、集群、支持向量机 (SVM) 和关联规则。这些技术是通过学习大量历史数据中隐含的模式来实现这一点的。完成学习后,将生成一个预测模型。对模型进行验证后,就意味着该模型能够归纳所学习的知识并将归纳结果应用到新的情景中。由于预测建模技术可以学习过去并根据学习结果预测未来,因此可用于解决各种问题,如">推荐系统、欺诈和滥用检测,以及疾病和事故预防。“大数据” 技术和经济高效的处理功能的出现正在将数据驱动的预测性技术扩展到不同行业中。在这个过程中,精妙的数学应用正在帮助越来越多的企业实现企业数据的真正潜力。
世界各地的公司和个人正在使用预测分析从通过人员和传感器获得的历史数据中提取价值。人员数据包括结构化客户交易(例如,来自在线采购)或从社交媒体获得的非结构化数据。另一方面,传感器数据来自各种用于监视道路、桥梁、楼宇、机器、电网以及大气和气候的设备。在本文中,我们将重点介绍预测建模技术。这些技术都是一些数学算法,用于 “学习” 所有这些数据中隐含的模式。
构建完一个预测模型并进行验证后,该模型将能够对从历史数据中学到的知识进行概括并用于预测未来。例如,通过这种方法可以根据人员数据预测客户流失或背离的风险,或者根据传感器数据预测机器故障的风险。诸如此类的模型可以通过实现某种回归函数来计算评分或风险。预测模型还可用于实现分类函数,这种函数将产生一个类别或分类。
不管使用何种模型类型,有一点是肯定的:不管我们去哪里和干什么,预测模型已经能够对我们的经验进行归纳。根据人们对某种特定疾病的敏感性,预测模型还可帮助医疗供应商设计和实现预防性的救护措施。
预测模型的诞生
只要将数据用于培训某种预测建模技术,都会生成预测模型。更正式的解释是 “数据 + 预测建模技术 = 模型”。
预测模型就是将数据与数学应用结合在一起,其中,对数据的学习可以转换为一组输入数据字段与某个响应或目标变量之间的映射函数。
要构建一个预测模型,首先需要整理将要用于培训的数据集。要实现这个目的,举例而言,需要将一组表示某位客户的输入字段汇集为一条记录。该记录可能包含某些特性,如年龄、性别、邮政编码、最近六个月购买的商品数和退货的商品数,同时还包括一个目标变量,用于通知我们该客户在过去是否流失。然后,可以将一个客户记录通过数学方法描述为多维特性空间内的一个向量,这是因为需要使用多个特性来定义类型客户的对象。当将所有客户记录汇总到一块时,将成为包含数百万条记录的数据集。图 1 显示了一些输入向量或客户对象的二维表示(使用 “年龄” 和 “购买的商品数” 特性)。
图 1. 输入向量的二维表示,每个向量或客户对象使用一个黄色星星表示
预测建模技术允许构建准确的预测模型,前提是有足够的数据可用并且数据质量良好。无论预测技术有多么高超,但不良数据总会产生不好的模型。因此可以这样说:“无用输入导致无用输出”。
常见的预测建模技术
如今,有多种预测技术可用于构建模型。不同的系统和供应商支持不同的技术,但是大约有 6 种技术受到大多数商业或开源模型构建环境的支持。尽管有些技术专门解决特定的一类问题,但是还有些技术是通用的,可用于广泛的应用程序。例如,支持向量机 (SVM) 就是其中一种。
SVM 将输入数据映射到一个更高的维度空间,在该空间中将构建一个用于分离数据的 “最优超平面”。在这个超平面的每个面上将构建两个并行超平面。图 2 显示了一个示例,在该示例中使用一个最优超平面分离了两个数据类别(三角形和正方形)。最优分离超面可以最大化两个并行超平面之间的距离。这两个超平面之间的距离越大,模型的准确度就越高。两个并行超平面中定义最大距离的平面上的数据点称为支持向量。
图 2. 分离数据和支持向量的最优超平面的二维视图
尽管数学原理不尽相同,但是 SVM,以及 NN 和逻辑回归模型都是非常强大的泛型技术,可以生成有点类似的效果。决策树是另一种泛型预测建模技术,因其能够解释输出背后的基本原理而脱颖而出。由于使用简单、易于理解,因此决策树是最常用的预测建模技术。