探索PMML预测分析和开放式标准的强大功能

PMML 受多种顶级统计工具的支持。因此,将预测分析模型应用于实践的过程非常简单,因为您可以在一个工具中建立一个模型,然后立即在另一个工具中对其进行部署。在这个传感器和">数据收集日益普遍深入的世界,像 PMML 这样的预测分析和标准使人们可以从智慧解决方案中受益,并真正改变他们的生活。

如果现在有人问您是否使用过预测分析,您可能会回答 “没有”。其实并非如此,您可能每天都在使用预测分析,却对它一无所知。当您刷信用卡或在网上使用信用卡时,一个预测分析模型检查这笔交易是否是欺诈行为。如果您在网上租借 DVD,很有可能是一个预测分析模型为您推荐了一部特别的电影。事实上预测分析已成为我们生活的一部分,将来它的应用必定会为您提供更多的帮助。

随着桥梁、建筑、工业生产流程和机械传感数据的生成,预测解决方案必定可以提供一个更加安全的环境,其中预测可以在潜在故障和问题发生之前对您提出警告。传感器还可用于监控人类,如应用于特护病房。IBM® 和 University of Ontario Institute of Technology 现在正在合作实现一个用于监控早产儿的数据分析和预测解决方案,其中采用生物医学读取可以最多提前 24 小时检测危急生命的传染。

但是仅预测分析可以起作用吗?视情况而定。开放式标准是其中最重要的组成部分。要使您可以充分享受预测解决方案和数据分析带来的益处,系统和应用程序需要通过下列标准轻松交换信息。PMML 支持在应用程序与系统之间共享预测分析模型。

主要分析供应商对 PMML 的采用是支持互操作性公司中的典型例子。IBM、SAS、Microstrategy、Equifax、NASA 和 Zementis 都是数据挖掘群组(Data Mining Group,DMG)中的成员,DMG 是使 PMML 成形的委员会。KNIME 和 Rapid-Iare 等开放源码公司同样是该委员会的成员。PMML 可以塑造预测分析世界,并使其成为一个对您来说更加美好的地方。

PMML 基础知识

PMML 是一种事实标准语言,用于呈现数据挖掘模型。预测分析模型 和数据挖掘模型 是指代数学模型的术语,这些模型采用统计技术了解大量历史数据中隐藏的模式。预测分析模型采用定型过程中获取的知识来预测新数据中是否有已知模式。PMML 允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,在 PMML 中对其进行表达,然后将其移动到另一个系统中,并在该系统中使用上述模型预测机器失效的可能性等。

PMML 是数据挖掘群组的产物,该群组是一个由供应商领导的委员会,由各种商业和开放源码分析公司组成。因此,现在的大部分领先数据挖掘工具都可以导出或导入 PMML。作为一个已发展 10 多年的成熟标准,PMML 既可以呈现用于从数据中了解模型的统计技术(如人工神经网络和决策树),也可以呈现原始输入数据的预处理以及模型输出的后处理(参见 图 1)。

图 1. PMML 包含数据预处理和数据后处理以及预测模型本身

PMML 文件的结构遵从了用于构建预测解决方案的常用步骤,包括:

数据词典,这是一种数据分析阶段的产品,可以识别和定义哪些输入数据字段对于解决眼前的问题是最有用的。这可以包括数值、顺序和分类字段。 挖掘架构,定义了处理缺少值和离群值的策略。这非常有用,因为通常情况,当将模型应用于实践时,所需的输入数据字段可能为空或者被误呈现。 数据转换,定义了将原始输入数据预处理至派生字段所需的计算。派生字段(有时也称为特征检测器)对输入字段进行合并或修改,以获取更多相关信息。例如,为了预测停车所需的制动压力,一个预测模型可能将室外温度和水的存在(是否在下雨?)作为原始数据。派生字段可能会将这两个字段结合起来,以探测路上是否结冰。然后结冰字段被作为模型的直接输入来预测停车所需的制动压力。 模型定义,定义了用于构建模型的结构和参数。PMML 涵盖了多种统计技术。例如,为了呈现一个神经网络,它定义了所有的神经层和神经元之间的连接权重。对
于一个决策树来说,它定义了所有树节点及简单和复合谓语。 输出,定义了预期模型输出。对于一个分类任务来说,输出可以包括预测类及与所有可能类相关的概率。 目标,定义了应用于模型输出的后处理步骤。对于一个回归任务来说,此步骤支持将输出
转变为人们很容易就可以理解的分数(预测结果)。 模型解释,定义了将测试数据传递至模型时获得的性能度量标准(与训练数据相对)。这些度量标准包括字段相关性、混淆矩阵、增益图及接收者操作特征(ROC)曲线图。 模型验证,定义了一个包含输入数据记录和预期模型输出的示例集。这是非常重要的一个步骤,因为在应用程序之间移动模型时,该模型需要通过匹配测试。这样就可以确保,在呈现相同的输入时,新系统可以生成与旧系统同样的输出。如果实际情况是这样的话,一个模型将被认为经过了验证,且随时可用于实践。

考虑到 PMML 支持预测解决方案被整体表达(包括数据预处理、数据后处理和建模技术),难怪其结构和主要元素是上述八大步骤的反映。

时间: 2024-10-15 20:59:31

探索PMML预测分析和开放式标准的强大功能的相关文章

预测分析:R语言实现.

数据科学与工程技术丛书 预测分析:R语言实现 Mastering Predictive Analytics with R [希] 鲁伊·米格尔·福特(Rui Miguel Forte) 著 吴今朝 译 图书在版编目(CIP)数据 预测分析:R语言实现/(希)鲁伊·米格尔·福特(Rui Miguel Forte)著:吴今朝译. -北京:机械工业出版社,2016.10 (数据科学与工程技术丛书) 书名原文:Mastering Predictive Analytics with R ISBN 978-

预测分析:R语言实现1.3 预测建模的过程

1.3 预测建模的过程 通过观察模型的某些不同特征,我们已经对预测建模过程的各种步骤有所了解.在本节,我们要顺序讲解这些步骤,并理解每个步骤是如何对该任务的整体成功起作用的. 1.3.1 定义模型的目标 简而言之,每个项目的第一步是准确找出期望的结果是什么,因为这样有助于引导我们在项目的进展过程中做出正确的决定.在一个预测分析学项目里,这个问题包括深入研究我们要进行的预测的类型,以及从细节上去理解任务.例如,假定我们要尝试创建一个模型来预测某公司的雇员流失.我们首先需要准确定义这个任务,同时尽量

Swift 性能探索和优化分析

Swift 性能探索和优化分析 本文首发在 CSDN<程序员>杂志,订阅地址 http://dingyue.programmer.com.cn/. Apple 在推出 Swift 时就将其冠以先进,安全和高效的新一代编程语言之名.前两点在 Swift 的语法和语言特性中已经表现得淋漓尽致:像是尾随闭包,枚举关联值,可选值和强制的类型安全等都是 Swift 显而易见的优点.但是对于高效一点,就没有那么明显了.在 2014 年 WWDC 大会上 Apple 宣称 Swift 具有超越 Object

《Python机器学习——预测分析核心算法》——1.1 为什么这两类算法如此有用

1.1 为什么这两类算法如此有用 有几个因素造就了惩罚线性回归和集成方法成为有用的算法集.简单地说,面对实践中遇到的绝大多数预测分析(函数逼近)问题,这两类算法都具有最优或接近最优的性能.这些问题包含:大数据集.小数据集.宽数据集(wide data sets)[1].高瘦数据集(tall skinny data sets)[2].复杂问题.简单问题,等等.Rich Caruana及其同事的两篇论文为上述论断提供了证据. 1."An Empirical Comparison of Supervi

SAP被评为“大数据”预测分析领军企业

本文讲的是SAP被评为"大数据"预测分析领军企业,2013年1月24日,SAP公司日前宣布:在Forrester Research 发布的"The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013"(<The Forrester Wave:2013 年第一季度大数据预测分析解决方案>)报告中,SAP被评为该领域的领军企业.此次评选活动中,SAP 凭借强大的架构和战略被誉为市场

预测分析:R语言实现导读

前 言 预测分析以及更一般意义上的数据科学当前正处于被追捧的热潮中,因为像垃圾邮件过滤.单词补全和推荐引擎这样的预测性技术已经被广泛运用于日常生活.这些技术现在不仅越来越被我们所熟悉,还赢得了我们的信任.在计算机处理能力和软件方面(例如R语言及其大量专用的扩展包)的发展产生了这样的局面:用户经过培训就可以使用这些工具,而无需具备统计学的高级学位,也不需要使用公司或大学实验室专用的硬件.技术的成熟度和基础软硬件的可用性结合起来,让很多该领域的从业者倍感兴奋,他们感到可以为自己的领域和业务设计一些能

预测分析:R语言实现1.1 模型

1.1 模型 模型是预测分析学的核心,因此,本书一开始会讨论各种模型及其形式.简而言之,模型是我们要理解和分析的状态.流程或系统的一种表现形式.我们创建模型的目的是根据它得出推论以及(在本书中对我们更为重要的一点)对世界进行预测.模型的格式和风格有很多种,我们在本书中会探讨这种多样性中的一部分.模型可以是和我们能够观察或测量的数量值相关的一些方程,也可以是一套规则.我们大部分人在学校都熟悉的一个简单模型是牛顿第二运动定律.该定律表明,一个物体受到的合力会使之在合力作用的方向加速,加速度和合力大小

《 营销数据科学: 用R和Python进行预测分析的建模技术》——导读

前 言 "人总会失去养育自己的一切,自然界的事物莫不如此.勇敢的人总是从容应对,静观其变,而不会溜之大吉." --2012年美国电影<南方的野兽>中赫什帕皮(奎温简妮·沃利斯饰) 以前的市场营销教材编写者总会推广"营销理念",说营销既不是销售也不是买卖,而是去了解和满足顾客需求.他们往往把"营销研究(市场调查)"和"市场研究"区分开,把前者列为一门商业学科,而把后者划入经济学的范畴."营销研究"

掌握描述性数据分析 让预测分析锦上添花

据业务技术咨询公司Wikibon的信息,在过去数年间大数据总收入已呈指数级增长,且到2017年将达到500亿美元.Forbes引用了一份2015年的Capgemini全球研究报告,该研报预测未来三年在大数据投资上会有56%的增长.而Computer Science Corp.估计到2020年总的数据生产量会是2009年的44倍. 数据分析有数据协同工作的分析增长同样迅速.但分析的方法有很多种,其中描述性和预测性的品种是最大和最有用的.然而,描述性的方法要比预测性的方法更企业欢迎. 如今,90%的