帮助您亲自了解预测分析的一些新应用(四)

在整个社会范围内,数据正在呈现指数级增长。IBM 指出,如今 90% 的数据都是在过去两年内产生的。幸运的是,有许多预测建模技术都可用于将这些数据转换为洞察和价值,这些技术包括神经网络 (NN)、集群、支持向量机 (SVM) 和关联规则。这些技术是通过学习大量历史数据中隐含的模式来实现这一点的。完成学习后,将生成一个预测模型。对模型进行验证后,就意味着该模型能够归纳所学习的知识并将归纳结果应用到新的情景中。由于预测建模技术可以学习过去并根据学习结果预测未来,因此可用于解决各种问题,如">推荐系统、欺诈和滥用检测,以及疾病和事故预防。“大数据” 技术和经济高效的处理功能的出现正在将数据驱动的预测性技术扩展到不同行业中。在这个过程中,精妙的数学应用正在帮助越来越多的企业实现企业数据的真正潜力。

世界各地的公司和个人正在使用预测分析从通过人员和传感器获得的历史数据中提取价值。人员数据包括结构化客户交易(例如,来自在线采购)或从社交媒体获得的非结构化数据。另一方面,传感器数据来自各种用于监视道路、桥梁、楼宇、机器、电网以及大气和气候的设备。在本文中,我们将重点介绍预测建模技术。这些技术都是一些数学算法,用于 “学习” 所有这些数据中隐含的模式。

构建完一个预测模型并进行验证后,该模型将能够对从历史数据中学到的知识进行概括并用于预测未来。例如,通过这种方法可以根据人员数据预测客户流失或背离的风险,或者根据传感器数据预测机器故障的风险。诸如此类的模型可以通过实现某种回归函数来计算评分或风险。预测模型还可用于实现分类函数,这种函数将产生一个类别或分类。

不管使用何种模型类型,有一点是肯定的:不管我们去哪里和干什么,预测模型已经能够对我们的经验进行归纳。根据人们对某种特定疾病的敏感性,预测模型还可帮助医疗供应商设计和实现预防性的救护措施。

预测模型的诞生

只要将数据用于培训某种预测建模技术,都会生成预测模型。更正式的解释是 “数据 + 预测建模技术 = 模型”。

预测模型就是将数据与数学应用结合在一起,其中,对数据的学习可以转换为一组输入数据字段与某个响应或目标变量之间的映射函数。

要构建一个预测模型,首先需要整理将要用于培训的数据集。要实现这个目的,举例而言,需要将一组表示某位客户的输入字段汇集为一条记录。该记录可能包含某些特性,如年龄、性别、邮政编码、最近六个月购买的商品数和退货的商品数,同时还包括一个目标变量,用于通知我们该客户在过去是否流失。然后,可以将一个客户记录通过数学方法描述为多维特性空间内的一个向量,这是因为需要使用多个特性来定义类型客户的对象。当将所有客户记录汇总到一块时,将成为包含数百万条记录的数据集。图 1 显示了一些输入向量或客户对象的二维表示(使用 “年龄” 和 “购买的商品数” 特性)。

图 1. 输入向量的二维表示,每个向量或客户对象使用一个黄色星星表示

预测建模技术允许构建准确的预测模型,前提是有足够的数据可用并且数据质量良好。无论预测技术有多么高超,但不良数据总会产生不好的模型。因此可以这样说:“无用输入导致无用输出”。

常见的预测建模技术

如今,有多种预测技术可用于构建模型。不同的系统和供应商支持不同的技术,但是大约有 6 种技术受到大多数商业或开源模型构建环境的支持。尽管有些技术专门解决特定的一类问题,但是还有些技术是通用的,可用于广泛的应用程序。例如,支持向量机 (SVM) 就是其中一种。

SVM 将输入数据映射到一个更高的维度空间,在该空间中将构建一个用于分离数据的 “最优超平面”。在这个超平面的每个面上将构建两个并行超平面。图 2 显示了一个示例,在该示例中使用一个最优超平面分离了两个数据类别(三角形和正方形)。最优分离超面可以最大化两个并行超平面之间的距离。这两个超平面之间的距离越大,模型的准确度就越高。两个并行超平面中定义最大距离的平面上的数据点称为支持向量。

图 2. 分离数据和支持向量的最优超平面的二维视图

尽管数学原理不尽相同,但是 SVM,以及 NN 和逻辑回归模型都是非常强大的泛型技术,可以生成有点类似的效果。决策树是另一种泛型预测建模技术,因其能够解释输出背后的基本原理而脱颖而出。由于使用简单、易于理解,因此决策树是最常用的预测建模技术。

时间: 2024-09-23 16:04:20

帮助您亲自了解预测分析的一些新应用(四)的相关文章

帮助您亲自了解预测分析的一些新应用(一)

这两种类型的知识都可增强您的决策制定能力.预测分析能够发现人类专家可能无法看到的数据中的隐藏模式.预测分析实际上是向数据应用数学知识的结果.因此,熟练的数学方法和良好的数据都对预测分析有很大帮助.考虑到我们可将预测分析应用到不同行业和垂直领域中的无数数据集中,本文将帮助您亲自了解预测分析的一些新应用. 本文是有关预测分析的 4 部分系列文章中的第 1 部分.第 1 部分对预测分析进行了总体概述.第 2 部分将重点介绍预测建模技术,这些技术是构成预测分析的核心内容的数学算法.第 3 部分将介绍这些

帮助您亲自了解预测分析的一些新应用(二)

对未来的预测可以追溯到看手相的时代.预测分析需要对大量的历史数据进行分析和预处理,然后将结果提交给预测技术进行培训.一个预测模型需要将数据与良好的数学方法结合起来解决特定的问题.假设有一个明确定义的问题和一个旨在解决此问题的模型,那么必须详尽地衡量和评估所有预测错误.因此使用模型评估确定模型的准确度.随后使用评估结果选出最佳模型并设定理想的鉴别阈值.当结合业务规则后,预测模型将能够真正地对您的企业的底线产生影响.预测解决方案就是将数据.良好的数学方法和业务规则组合在一起,它们共同交付增强的业务决

帮助您亲自了解预测分析的一些新应用(三)

过去,实际应用预测解决方案是一项非常繁杂的过程,需要投入大量的时间和资源.预测模型标记语言 (PMML) 的出现彻底改变了这一局面.构建解决方案的http://www.aliyun.com/zixun/aggregation/7155.html">开发人员现在可以在几分钟之内就将预测解决方案投入使用.作为预测分析的事实标准,PMML 受到所有顶级数据挖掘供应商的支持,包括商业和开源的供应商.构建好预测模型后,可以很轻松地将其导出到一个 PMML 文件中.之后,您可以直接将该文件部署到一个基

《Python机器学习——预测分析核心算法》——第2章 通过理解数据来了解问题

第2章 通过理解数据来了解问题 Python机器学习--预测分析核心算法新数据集(问题)就像一个包装好的礼物,它充满了承诺和希望.一旦你能解决它,你就收获了喜悦.但是直到你打开它,它都一直保持着神秘.本章就是告诉你怎么"打开"新的数据集,看清楚里面都有什么,知道如何处置这些数据,并且开始思考如何利用这些数据构建相应的模型. 本章有两个目的:一是熟悉这些数据集,这些数据集被用来作为解决各种类型问题的例子,主要是利用第4章和第6章介绍的算法:另一个目的就是展示Python中分析数据的工具包

《Python机器学习——预测分析核心算法》——1.1 为什么这两类算法如此有用

1.1 为什么这两类算法如此有用 有几个因素造就了惩罚线性回归和集成方法成为有用的算法集.简单地说,面对实践中遇到的绝大多数预测分析(函数逼近)问题,这两类算法都具有最优或接近最优的性能.这些问题包含:大数据集.小数据集.宽数据集(wide data sets)[1].高瘦数据集(tall skinny data sets)[2].复杂问题.简单问题,等等.Rich Caruana及其同事的两篇论文为上述论断提供了证据. 1."An Empirical Comparison of Supervi

SAP被评为“大数据”预测分析领军企业

本文讲的是SAP被评为"大数据"预测分析领军企业,2013年1月24日,SAP公司日前宣布:在Forrester Research 发布的"The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013"(<The Forrester Wave:2013 年第一季度大数据预测分析解决方案>)报告中,SAP被评为该领域的领军企业.此次评选活动中,SAP 凭借强大的架构和战略被誉为市场

预测分析:R语言实现.

数据科学与工程技术丛书 预测分析:R语言实现 Mastering Predictive Analytics with R [希] 鲁伊·米格尔·福特(Rui Miguel Forte) 著 吴今朝 译 图书在版编目(CIP)数据 预测分析:R语言实现/(希)鲁伊·米格尔·福特(Rui Miguel Forte)著:吴今朝译. -北京:机械工业出版社,2016.10 (数据科学与工程技术丛书) 书名原文:Mastering Predictive Analytics with R ISBN 978-

《Python机器学习——预测分析核心算法》——2.4 基于因素变量的实数值预测:鲍鱼的年龄

2.4 基于因素变量的实数值预测:鲍鱼的年龄 探测未爆炸的水雷数据集的工具同样可以用于回归问题.在给定物理测量值的情况下,预测鲍鱼的年龄就是此类问题的一个实例.鲍鱼的属性中包括因素属性,下面将说明属性中含有因素属性后与上例有什么不同. 鲍鱼数据集的问题是根据某些测量值预测鲍鱼年龄.当然可以对鲍鱼进行切片,然后数年轮获得鲍鱼年龄的精确值,就像通过数树的年轮得到树的年龄一样.但是问题是这种方法代价比较大,耗时(需要在显微镜下数年轮).因此更方便经济的方法是做些简单的测量,如鲍鱼的长度.宽度.重量等指

预测分析:R语言实现导读

前 言 预测分析以及更一般意义上的数据科学当前正处于被追捧的热潮中,因为像垃圾邮件过滤.单词补全和推荐引擎这样的预测性技术已经被广泛运用于日常生活.这些技术现在不仅越来越被我们所熟悉,还赢得了我们的信任.在计算机处理能力和软件方面(例如R语言及其大量专用的扩展包)的发展产生了这样的局面:用户经过培训就可以使用这些工具,而无需具备统计学的高级学位,也不需要使用公司或大学实验室专用的硬件.技术的成熟度和基础软硬件的可用性结合起来,让很多该领域的从业者倍感兴奋,他们感到可以为自己的领域和业务设计一些能