PMML 受多种顶级统计工具的支持。因此,将预测分析模型应用于实践的过程非常简单,因为您可以在一个工具中建立一个模型,然后立即在另一个工具中对其进行部署。在这个传感器和">数据收集日益普遍深入的世界,像 PMML 这样的预测分析和标准使人们可以从智慧解决方案中受益,并真正改变他们的生活。
如果现在有人问您是否使用过预测分析,您可能会回答 “没有”。其实并非如此,您可能每天都在使用预测分析,却对它一无所知。当您刷信用卡或在网上使用信用卡时,一个预测分析模型检查这笔交易是否是欺诈行为。如果您在网上租借 DVD,很有可能是一个预测分析模型为您推荐了一部特别的电影。事实上预测分析已成为我们生活的一部分,将来它的应用必定会为您提供更多的帮助。
随着桥梁、建筑、工业生产流程和机械传感数据的生成,预测解决方案必定可以提供一个更加安全的环境,其中预测可以在潜在故障和问题发生之前对您提出警告。传感器还可用于监控人类,如应用于特护病房。IBM® 和 University of Ontario Institute of Technology 现在正在合作实现一个用于监控早产儿的数据分析和预测解决方案,其中采用生物医学读取可以最多提前 24 小时检测危急生命的传染。
但是仅预测分析可以起作用吗?视情况而定。开放式标准是其中最重要的组成部分。要使您可以充分享受预测解决方案和数据分析带来的益处,系统和应用程序需要通过下列标准轻松交换信息。PMML 支持在应用程序与系统之间共享预测分析模型。
主要分析供应商对 PMML 的采用是支持互操作性公司中的典型例子。IBM、SAS、Microstrategy、Equifax、NASA 和 Zementis 都是数据挖掘群组(Data Mining Group,DMG)中的成员,DMG 是使 PMML 成形的委员会。KNIME 和 Rapid-Iare 等开放源码公司同样是该委员会的成员。PMML 可以塑造预测分析世界,并使其成为一个对您来说更加美好的地方。
PMML 基础知识
PMML 是一种事实标准语言,用于呈现数据挖掘模型。预测分析模型 和数据挖掘模型 是指代数学模型的术语,这些模型采用统计技术了解大量历史数据中隐藏的模式。预测分析模型采用定型过程中获取的知识来预测新数据中是否有已知模式。PMML 允许您在不同的应用程序之间轻松共享预测分析模型。因此,您可以在一个系统中定型一个模型,在 PMML 中对其进行表达,然后将其移动到另一个系统中,并在该系统中使用上述模型预测机器失效的可能性等。
PMML 是数据挖掘群组的产物,该群组是一个由供应商领导的委员会,由各种商业和开放源码分析公司组成。因此,现在的大部分领先数据挖掘工具都可以导出或导入 PMML。作为一个已发展 10 多年的成熟标准,PMML 既可以呈现用于从数据中了解模型的统计技术(如人工神经网络和决策树),也可以呈现原始输入数据的预处理以及模型输出的后处理(参见 图 1)。
图 1. PMML 包含数据预处理和数据后处理以及预测模型本身
PMML 文件的结构遵从了用于构建预测解决方案的常用步骤,包括:
数据词典,这是一种数据分析阶段的产品,可以识别和定义哪些输入数据字段对于解决眼前的问题是最有用的。这可以包括数值、顺序和分类字段。 挖掘架构,定义了处理缺少值和离群值的策略。这非常有用,因为通常情况,当将模型应用于实践时,所需的输入数据字段可能为空或者被误呈现。 数据转换,定义了将原始输入数据预处理至派生字段所需的计算。派生字段(有时也称为特征检测器)对输入字段进行合并或修改,以获取更多相关信息。例如,为了预测停车所需的制动压力,一个预测模型可能将室外温度和水的存在(是否在下雨?)作为原始数据。派生字段可能会将这两个字段结合起来,以探测路上是否结冰。然后结冰字段被作为模型的直接输入来预测停车所需的制动压力。 模型定义,定义了用于构建模型的结构和参数。PMML 涵盖了多种统计技术。例如,为了呈现一个神经网络,它定义了所有的神经层和神经元之间的连接权重。对
于一个决策树来说,它定义了所有树节点及简单和复合谓语。 输出,定义了预期模型输出。对于一个分类任务来说,输出可以包括预测类及与所有可能类相关的概率。 目标,定义了应用于模型输出的后处理步骤。对于一个回归任务来说,此步骤支持将输出
转变为人们很容易就可以理解的分数(预测结果)。 模型解释,定义了将测试数据传递至模型时获得的性能度量标准(与训练数据相对)。这些度量标准包括字段相关性、混淆矩阵、增益图及接收者操作特征(ROC)曲线图。 模型验证,定义了一个包含输入数据记录和预期模型输出的示例集。这是非常重要的一个步骤,因为在应用程序之间移动模型时,该模型需要通过匹配测试。这样就可以确保,在呈现相同的输入时,新系统可以生成与旧系统同样的输出。如果实际情况是这样的话,一个模型将被认为经过了验证,且随时可用于实践。
考虑到 PMML 支持预测解决方案被整体表达(包括数据预处理、数据后处理和建模技术),难怪其结构和主要元素是上述八大步骤的反映。