PMML从原始数据转到预测解决方案

在本文中,我们首先介绍这个标准直接支持的预言性建模技术。然而,由于预言性解决方案远不止于它所依赖的统计技术,所以我们接着通过阐述用于表现完整预言性解决方案的数据预处理和 PMML 建模的使用方法来深入分析语言,并介绍其用于处理数据的转换与功能。

现在,传感器正变得无处不在,从智能家用仪表到诸如深水石油钻井设备和构筑物的监控。为了使从这些传感器收集的所有数据发挥作用,预言性分析呼唤开放的标准,这些标准考虑到了实现系统之间不受私有代码和不兼容性阻碍进行畅通通信的条件。PMML 是用于表现预言性分析或数据挖掘模型的标准。通过 PMML,预言性解决方案可以在一个系统上构建,然后部署到另一个位置快速地进行工作。

对于石油和化工行业,预言性维护指的是一个应用程序,它能够对从传感器采集的数据进行预处理,然后将数据用于构建预言性解决方案,这些解决方案能够在出现机械故障之前发现问题。墨西哥湾">漏油事件出现后,预言性分析和开放标准还能够提供另一个保证安全性和处理可靠性的工具。

作为表现预言性解决方案的事实标准,PMML 允许模型和数据转换以同一个简单的方法来表现。当用于表现构成一个预言性解决方案的所有计算时,PMML 不仅是数据分析、模型构建和部署系统之间通信的桥梁,而且还是公司内部与分析过程相关的所有人员和团队之间沟通的桥梁。这是极为重要的,因为它可用于传播知识和最佳实践方法,同时保证透明性。

预言性建模技术

这一节关注于具体的 PMML 元素所涉及的所有预言性建模技术。虽然每年都有无数不同的技术出现,但是它们在成为标准之前需要被广大的数据挖掘社区参与者认同和采纳。PMML 在 2009 年发布了 4.0 版本,它为以下的建模或统计技术规定了具体的元素:

关联规则:AssociationModel 元素 集群模型:ClusteringModel 元素 决策树:TreeModel 元素 Naïve Bayes 分级器:NaïveBayesModel 元素 神经网络:NeuralNetwork 元素 回归:RegressionModel 和 GeneralRegressionModel 元素 规则集:RuleSetModel 元素 序列:SequenceModel 元素 支持矢量机器:SupportVectorMachineModel 元素 内容模型:TextModel 元素 时间序列:TimeSeriesModel 元素

通过这些技术,您能够从历史数据发现对于人来说不是很明显的模式。例如,关联规则 经常用于发现大型交易数据的产品之间的规则或关系。对于超市的销售数据,关联规则将用于发现购买 A 和 B 商品的顾客还会购买 C 商品。然后由关联规则发现的信息就可以驱动市场活动,以及商店内产品的摆放位置。

另一方面,顾名思义,集群模型 会基于预定义的相似性评估将数据聚集到特定的位置。集群模型可以是集中的,这个集群中心是由数据矢量定义的;或者可以是分布式,它的中心是由统计定义的。在实际工作中,集群模型将通过最近的中心把采集的数据分配到集群。

另一个通常使用的建模技术是决策树,它实现了一个类似于树的结构,其中数据是通过一系列的决策节点分割的。叶节点定义了分类树的的特定类。决策树非常适合那些需要解决预言性决策背后的基本原理的应用程序。developerWorks 文章 “What is PMML?” 关注于另一个技术,即神经网络,它提供了一种非线性的发现数据域之间关系的方法。尽管与所使用的建模技术无关,但它的目标很清晰:为了发现数据中的模式,或对尝试预言的输入和输出数据之间的复杂关系进行建模。

预言分析的最新趋势是组合几种统计技术来解决一个问题,也称为模型团体。在这种情况下,每一个模型都会产生一个预言,然后它会被组合到一个总体结果中。古人云,三个臭皮匠,顶一个诸葛亮。这样看来,不同技术是从不同数学概念看待数据的,因此它们的组合可以提升预言的性能。为了避免使用多个技术或模型来解决一个问题,PMML 定义了一个多模型元素 MiningModel。它提供了一系列方法,允许您组合来自不同的模型的输出。常见的例子是多数票决和权重平均。

在 PMML 中处理数据

上面讨论的模型元素就像是锚点,每一个元素都体现 PMML 的一种特定的建模技术。事实上,每一个模型元素都封装了所有属性和详细表现每一种建模技术所需要的子元素,参数以及结构。但是,假如说预言性解决方案的大脑在于它的模型,那么它的眼睛就是传输给模型带有原始及派生输入域的数据。因为 PMML 不仅能够表现大脑,也能够表现眼睛,并且能够实现定义完整预言解决方案所需要的功能。

要实现这个目标,PMML 定义了许多了元素和属性,以及管理它们使用方式的具体顺序。一个 PMML 文件总是以用于数据安装的元素开始的。当数据安装完成后,PMML 考虑到数据预处理步骤的定义,然后是模型本身。让我们查看所有的三个步骤,首先是数据安装。

数据安装

PMML 规定了一系列用于定义所需要的数据域的元素。DataDictionary 元素是用于指定模型所使用的所有输入数据域。清单 1 显示的是 DataDictionary 元素中的一个名为 pressure 数字域的表现形式。注意除了类型信息,它还规定了有效值的区间。在这个例子中,任意小于 0 或大于 100 的值都会被视为无效值。

清单 1. PMML 中的 DataDictionary 元素

<DataDictionary> <DataField name="pressure" dataType="double" optype="continuous" > <Interval closure="closedClosed" leftMargin="0" rightMargin="100" /> </DataField> <!-- Other DataFields --> </MiningSchema>

这个元素对于部署和启动一个模型是非常重要的,因为它规定了处理 DataDictionary 元素所定义的原始输入域缺失或包含无效值的方法。这个元素也规定异常值处理方式 — 一个特定输入域的极限值。

在实际中,在远离模型创建的系统位置,传感器可能会失灵,从而导致收集到失真的信息或者收集不到信息。对于这些情况,MiningSchema 元素提供了缜密的处理过程,从而充分地提升总体解决方案的健壮性。清单 2 显示的是 MiningSchema 表现的 pressure 域。

清单 2. PMML 的 MiningSchema 元素

<MiningSchema> <MiningField name="pressure" usageType="active" missingValueReplacement="35.32" missingValueTreatment="asMean" invalidValueTreatment="asMissing" outliers="asExtremeValues" lowValue="10" highValue="70"/> <!-- Other MiningFields --> </MiningSchema>

在这个例子中,如果输入值丢失,那么它会被替换成值 35.32,这指的是这个域的历史数据的平均值。同时,注意它的任何无效值(小于 0 或大于 100 — 在 清单 1 的 DataDictionary 中定义)都会被视为丢失值。如果遇到小于 10 或大于 70 的有效值,那么它们会被当作极限值,并相应地自动替换成 10 或 70。

时间: 2024-11-05 15:28:27

PMML从原始数据转到预测解决方案的相关文章

探索PMML预测分析和开放式标准的强大功能

PMML 受多种顶级统计工具的支持.因此,将预测分析模型应用于实践的过程非常简单,因为您可以在一个工具中建立一个模型,然后立即在另一个工具中对其进行部署.在这个传感器和http://www.aliyun.com/zixun/aggregation/12240.html">数据收集日益普遍深入的世界,像 PMML 这样的预测分析和标准使人们可以从智慧解决方案中受益,并真正改变他们的生活. 如果现在有人问您是否使用过预测分析,您可能会回答 "没有".其实并非如此,您可能每天

PMML简介及其强大的功能

PMML 简介 如果现在有人问您是否使用过预测分析,您可能会回答 "没有".其实并非如此,您可能每天都在使 用预测分析,却对它一无所知.当您刷信用卡或在网上使用信用卡时,一个预测分析模型检查这笔交易是否是欺诈行为.如 果您在网上租借 DVD,很有可能是一个预测分析模型为您推荐了一部特别的电影.事实上预测分析已成为我们生活的一部分 ,将来它的应用必定会为您提供更多的帮助. 随着桥梁.建筑.工业生产流程和机械传感数据的生成,预测解决方 案必定可以提供一个更加安全的环境,其中预测可以在潜在故

帮助您亲自了解预测分析的一些新应用(二)

对未来的预测可以追溯到看手相的时代.预测分析需要对大量的历史数据进行分析和预处理,然后将结果提交给预测技术进行培训.一个预测模型需要将数据与良好的数学方法结合起来解决特定的问题.假设有一个明确定义的问题和一个旨在解决此问题的模型,那么必须详尽地衡量和评估所有预测错误.因此使用模型评估确定模型的准确度.随后使用评估结果选出最佳模型并设定理想的鉴别阈值.当结合业务规则后,预测模型将能够真正地对您的企业的底线产生影响.预测解决方案就是将数据.良好的数学方法和业务规则组合在一起,它们共同交付增强的业务决

数据预测-预测方法探索,未知的结果如何得知

问题描述 预测方法探索,未知的结果如何得知 对实际没有原始数据的预测应该采用什么方法进行预测?具体如何实现呢? 解决方案 可以用随机数预测,或者结合专家经验预测 解决方案二: 现在只能走一步,看一步,未来是否改变谁也不能一句话就能说明白,所以就脚踏实地的干好自己本内的事. 解决方案三: 对实际没有原始数据的预测,进行预测,都是对用户的不负责任,也是对在对自己挖坑.任何对未知结果的预测,都需要有很庞大的数据来训练. 如果可以什么数据都没有,就来预测未知结果,那还要大数据挖掘干嘛呢? 楼上说的可以,

帮助您亲自了解预测分析的一些新应用(三)

过去,实际应用预测解决方案是一项非常繁杂的过程,需要投入大量的时间和资源.预测模型标记语言 (PMML) 的出现彻底改变了这一局面.构建解决方案的http://www.aliyun.com/zixun/aggregation/7155.html">开发人员现在可以在几分钟之内就将预测解决方案投入使用.作为预测分析的事实标准,PMML 受到所有顶级数据挖掘供应商的支持,包括商业和开源的供应商.构建好预测模型后,可以很轻松地将其导出到一个 PMML 文件中.之后,您可以直接将该文件部署到一个基

link中随机数能不能预测,能不能知道下一个随机数是多少?

问题描述 link中随机数能不能预测,能不能知道下一个随机数是多少? link中随机数能不能预测,能不能知道下一个随机数是多少? 解决方案 随机数是随机产生的,不能预测 解决方案二: 如果能预测出来,随机数的随机没有任何意义,你要是想控制随机数,完全可以自己写个公式或者数组之类的,去代替随机数!

获九合天使投资,“所问数据”用SaaS形式为企业实现大数据预测

英国数据科学家维克托 迈尔 舍恩伯格曾在其著作<大数据时代>中提到,大数据最主要的功能之一就是预测:通过适当的数据模型算法,发掘海量数据之间的潜在关系,最终得出准确的预测结果. 2013年美国North Dakota State University计算机博士毕业的颜鹏是位实战派大数据专家.猎云网(微信:ilieyun)了解到,博士第二年时,他便在一家VR创业公司从事数据挖掘工作.毕业后到3M公司任职高级研究科学家,负责海量数据建模与分布式计算. 对比美国成熟的大数据行业,国内的发展尚处于起步

帮助您亲自了解预测分析的一些新应用(一)

这两种类型的知识都可增强您的决策制定能力.预测分析能够发现人类专家可能无法看到的数据中的隐藏模式.预测分析实际上是向数据应用数学知识的结果.因此,熟练的数学方法和良好的数据都对预测分析有很大帮助.考虑到我们可将预测分析应用到不同行业和垂直领域中的无数数据集中,本文将帮助您亲自了解预测分析的一些新应用. 本文是有关预测分析的 4 部分系列文章中的第 1 部分.第 1 部分对预测分析进行了总体概述.第 2 部分将重点介绍预测建模技术,这些技术是构成预测分析的核心内容的数学算法.第 3 部分将介绍这些

大数据预测背后的商业价值

2014巴西世界杯刚刚鸣锣收官,在这场被看作最具技术含量的一个"世界杯场外赛"中,让笔者印象最深的却是本次百度世界杯预测最为独特的呈现形式,百度预测表现形式丰富,交互方式友好,更是与http://www.aliyun.com/zixun/aggregation/13839.html">保险行业首次合作,率先尝试了预测如何商业化这一困扰业界多年的难题.世界杯预测不再是企业一场自编自导的媒体炒作,也不再是大众消遣娱乐的方式,而是首次对预测商业价值的探索. 其实本次世界杯,其