InfoSphere Streams使用控制端口特性来同步构建过程

该工具中的建模操作符使用传入的时序数据来构建内部的预测或跟踪模型。在真实场景中,用于模型构建的传入数据可能成为干扰数据,应该从模型构建流程中丢弃 这些数据。此外,在清理传入数据后,模型可能必须再次培训 (retrain)。本文为这个问题提供了一个解决方案,介绍如何使用控制端口特性来同步和调整模型构建过程和操作符函数,确保传入数据的质量。

InfoSphere Streams Time ">Series 工具包通过许多操作符进行了完善,能够建立预报、跟踪、回归和预测模型。在一些真实场景中,输入时间序列可能更改它的频率范围或者可能不断造成干扰,或者 开始丢失数据。使用这些质量糟糕的数据来构建模型可能导致糟糕的性能。因此,在数据质量下降时,必须执行重新构建模型或暂停更新模型参数的过程。而在运行 时这么做是一大挑战。

Time Series 工具包的建模操作符通过使用一个控制端口 来接受特定的控制信号,促进了模型的再培训、暂停或恢复。一旦在输入数据中检测到异常或变更,就可以向建模操作符发送控制信号,让其更改其行为。但是,这 个控制信号应与所监视的数据同步,否则会导致模型中异常数据泛滥。例如,控制信号的细微延迟可能导致对坏数据进行模型培训。在流环境中,控制这一延迟非常 棘手,因为无法保证控制信号和数据在操作符之间的移动速度。

可以考虑预报某个区域的电力使用情况的示例。在模型构建周期中,必须忽略小电力 故障,否则可能在预报期间产生失真的结果。小故障或超出范围的数据需要丢弃,控制端口特性可帮助实现此目的。本文将介绍如何将控制信号的检测和提交与用于 模型学习的数据进行同步。总体解决方案架构如 图 1 所示。

图 1. 实时控制信号和数据同步总体解决方案图

先决条件

业务先决条件:本文的读者需要掌握从
InfoSphere Streams 设计和运行 SPL 应用程序作业的基本技能,以及 Time Series 工具包的基础知识。 软件先决条件:InfoSphere Streams 3.1

Time Series 工具包控制信号 — 它们是什么?

InfoSphere Streams Time Series 工具包提供了各种不同的信号,可以实时地将它们提供给受支持的建模操作符。下表列出了各种控制信号和它们的重要性。

表 1. 各种控制信号和它们的重要性

Times Series 工具包控制信号 信号 说明 Suspend 暂停模型培训。此信号应在有人感觉数据可能是干扰数据时提供,以预防操作员构建错误的模型。 Resume 恢复暂停的模型培训操作。 Retrain 自数据趋势变化或模型
失去其重要性后,重新培训模型。
Monitor 观察当前计算的模型系数。在领域专家诊断模型时,此特性很有用,也可保留它,在不久的将来重新加载到操作符中。 Load 将现有模型加载到操作符中。此信号可在某个现有模型似乎与输入数据的模式或趋势关系更紧密时利用。

每个控制信号都有一种特定的模式需求和格式。请参阅 InfoSphere Streams Time Series 工具包文档,了解建模支持控制信号的操作符的详细信息。

时间: 2024-10-23 18:38:57

InfoSphere Streams使用控制端口特性来同步构建过程的相关文章

InfoSphere Streams 2.0特性简介: 使用集合

您还将学习如何使用基础 C++++ Streams 运算符访问集合. 本文介绍目前可供 InfoSphere Streams 2.0 http://www.aliyun.com/zixun/aggregation/7155.html">开发人员使用的 3 种集合类型.集和映射复合类型不仅可用于 Streams 2.0 版,还为基础和复合类型的嵌套增添了灵活性.本文将同时使用 Streams 处理语言和 C++ 的一些示例展示新类型的强大功能. 前提条件 本文是为拥有 Streams 编程语

利用Linux通道捆绑来提升IBM InfoSphere Streams性能

本文将从较高的层次介绍通道绑定的概念,如何设置测试环境和我们观察到的结果.在我们的实验中,通道绑定将带宽提高达 68%. 本文探讨 Red Hat Enterprise Linux 上的通道绑定对 IBM InfoSphere Streams 吞吐量和延迟的影响.将介绍如何使用 Red Hat Enterprise Linux 系统设置和配置通道绑定环境,可从在此环境中运行的 InfoSphere Streams 应用程序获得怎样的性能改进.目标读者为熟悉 InfoSphere Streams

使用Java编程语言构建IBM InfoSphere Streams应用程序

简介 IBM InfoSphere Streams( 以下简称 Streams) 是 IBM 于 2009 年推出的具有高可靠性,高可扩展性,分布式流计算平 台,前瞻性地把支持每秒 6G 或者每小时 21600G(相当于互联网上所有网页数量之和)数据处理能力作为系统设计的指标 ,实现了流数据"永恒分析"的能力.它包含一个运行时环境 ( 或者称为实例 ) 和编程模型来简化需要对大批量连续流数 据进行提取.过滤.分析以及关联的应用程序的开发,能够广泛的应用于制造.零售.交通运输.金融证券以

如何集成PureData System for Analytics和InfoSphere Streams

使用 Streams 操作符有效地将海量数据加载到 Netezza 中 InfoSphere Streams 是一个高性能计算平台,支持持续且极其快速地分析来自多个来源的海量流数据.Netezza 设备加载这些数据集并存储它们,以供 PureData System for Analytics 分析.这个可扩展.大规模并行系统使客户端能够对海量数据执行复杂分析. 但是,Streams 2.0 标准数据库工具包所提供的默认 ODBC 操作符,不足以最大限度地发挥系统之间的高性能加载实用程序的优势.您

InfoSphere Streams如何帮助您将数据转换为洞察

IBM 在多年前就引入了 "智慧地球" 这个术语.利用这个术语,可以描述 3 个主要属性: 物联化 智能化 互连化 长久以来,这已经形成一个现实.想象一下智能手机的激增,这实际上可能提供了比保持联系更多的功能.智能手机包括 GPS 提供的用于测量温度和湿度的一组传感器.再加上世界各地使用的所有传感器和仪表,我们看到了一个不断演化的真实情况. 这就构成了应该转换成信息 的大量数据.例如,我们可以利用群众的力量来洞察不断变化的情形.我们可以察觉出可能产生机遇或避免严重灾害的趋势.我们可以看

InfoSphere Streams 3.0连接Streams作业和DataStage作业

作为 InfoSphere Streams 3.0 和 InfoSphere Information Server 9.1 版本的一部分,这两款产品都进行了改进,让 Streams 应用程序和 DataStage 作业之间的集成变得更容易. 本文提供了解释如何在 Streams 应用程序和 DataStage 作业之间创建端到端集成场景的技术细节.阅读本文后您将熟悉以下概念: 从 Streams 应用程序将数据发送到 DataStage 作业,包括如何: 创建或修改一个现有 Streams SP

InfoSphere Streams一个分析移动中的大数据平台

来自多个来源的信息正在以难以置信的速度增长.互联网用户数量在 2012 年已经达到 22.7 亿.每一天,Twitter 都会生成超过 12 TB 的 tweet,Facebook 生成超过 25 TB 日志数据,纽约证券交易所采集 1 TB 交易信息.每天会创建大约 300 亿个射频识别 (RFID) 标记.此外,每年销售的数亿台 GPS 设备,目前正在使用的超过 3000 万个连网的传感器(而且每年在以高于 30% 的速度增长),都在产生数据.这些数据量预计在未来 10 年中每 2 年就会翻

使用InfoSphere Streams的自定义Java 运算符和ICU4J实现实时音译

集成 Java 音译模块和 InfoSphere Streams 的自定义 Java 运算符 简介 在成长型市场区域中,任何解决方案提供商面临的首要挑战是可用数据的方言和语言学的不一致性.由于成长型市场区域中拥有包括英语在内的多种官方语言,所以地区的语言符号逐渐嵌入到了英语符号中.因此,您首先需要执行音译来实现数据中的一致性,然后再继续执行处理/文本分析. 如果使用预定的语言,那么数据音译会为您提供更统一.更一致的结果.本文将介绍使用 InfoSphere Streams 的自定义 Java 运

如何从 IBM InfoSphere Streams 调用 Python 代码

概述 IBM InfoSphere Streams 是一个高性能的实时事件处理中间件.它独特的优势在于能够从各种不同的数据来源获取结构化和非结构化数据,以用于执行实时分析.它通过将一种称为 SPL(Streams Processing Language,流处理语言)的易于使用的应用程序开发语言与一个分布式运行时平台相结合来完成此任务.这个中间件还提供了一个灵活的应用程序开发框架,将使用 C++ 和 Java 编写的代码集成到 Streams 应用程序中.除了 C++ 和 Java,许多构建真实