该工具中的建模操作符使用传入的时序数据来构建内部的预测或跟踪模型。在真实场景中,用于模型构建的传入数据可能成为干扰数据,应该从模型构建流程中丢弃 这些数据。此外,在清理传入数据后,模型可能必须再次培训 (retrain)。本文为这个问题提供了一个解决方案,介绍如何使用控制端口特性来同步和调整模型构建过程和操作符函数,确保传入数据的质量。
InfoSphere Streams Time ">Series 工具包通过许多操作符进行了完善,能够建立预报、跟踪、回归和预测模型。在一些真实场景中,输入时间序列可能更改它的频率范围或者可能不断造成干扰,或者 开始丢失数据。使用这些质量糟糕的数据来构建模型可能导致糟糕的性能。因此,在数据质量下降时,必须执行重新构建模型或暂停更新模型参数的过程。而在运行 时这么做是一大挑战。
Time Series 工具包的建模操作符通过使用一个控制端口 来接受特定的控制信号,促进了模型的再培训、暂停或恢复。一旦在输入数据中检测到异常或变更,就可以向建模操作符发送控制信号,让其更改其行为。但是,这 个控制信号应与所监视的数据同步,否则会导致模型中异常数据泛滥。例如,控制信号的细微延迟可能导致对坏数据进行模型培训。在流环境中,控制这一延迟非常 棘手,因为无法保证控制信号和数据在操作符之间的移动速度。
可以考虑预报某个区域的电力使用情况的示例。在模型构建周期中,必须忽略小电力 故障,否则可能在预报期间产生失真的结果。小故障或超出范围的数据需要丢弃,控制端口特性可帮助实现此目的。本文将介绍如何将控制信号的检测和提交与用于 模型学习的数据进行同步。总体解决方案架构如 图 1 所示。
图 1. 实时控制信号和数据同步总体解决方案图
先决条件
业务先决条件:本文的读者需要掌握从
InfoSphere Streams 设计和运行 SPL 应用程序作业的基本技能,以及 Time Series 工具包的基础知识。 软件先决条件:InfoSphere Streams 3.1
Time Series 工具包控制信号 — 它们是什么?
InfoSphere Streams Time Series 工具包提供了各种不同的信号,可以实时地将它们提供给受支持的建模操作符。下表列出了各种控制信号和它们的重要性。
表 1. 各种控制信号和它们的重要性
Times Series 工具包控制信号 信号 说明 Suspend 暂停模型培训。此信号应在有人感觉数据可能是干扰数据时提供,以预防操作员构建错误的模型。 Resume 恢复暂停的模型培训操作。 Retrain 自数据趋势变化或模型
失去其重要性后,重新培训模型。
Monitor 观察当前计算的模型系数。在领域专家诊断模型时,此特性很有用,也可保留它,在不久的将来重新加载到操作符中。 Load 将现有模型加载到操作符中。此信号可在某个现有模型似乎与输入数据的模式或趋势关系更紧密时利用。
每个控制信号都有一种特定的模式需求和格式。请参阅 InfoSphere Streams Time Series 工具包文档,了解建模支持控制信号的操作符的详细信息。