Twitter开源云环境时间序列数据断层检测工具BreakoutDetection

【编者按】区别于传统环境,鉴于云环境中众多不可预测的因素和异常,其时间序列breakout检测并不容易。近日,Twitter开源了一款基于E-Divisive with Medians(EDM)的breakout检测工具,旨在更好地分析复杂环境中的时间序列数据。

以下为译文

当下,大数据已经深入影响到各个领域,其中包括新产品决策制定、用户参与程度衡量、产品的定制化推荐、医疗、数据中心效率等。

而着眼数据类型,时间序列数据无疑是非常常见的一种形式。随着数据收集和挖掘成本的下降,包括Twitter等越来越多的公司每天都会使用大数据技术执行数百万的度量。而在生产环境中,时间序列也常常因为内在或(和)外在的因素而产生breakout(断层,跳跃),不幸的是,这些breakout往往可能会从本质上影响到用户体验或者(和)业务底线。举个例子,在云基础设施环境中,系统度量时间序列数据突变(类似硬件故障影响等因素)可能就会对服务的可用性和性能产生影响。

鉴于Twitter的实时特性(高性能已经成为最佳用户体验交付的关键所在),具备及早发现breakout的能力无疑至关重要。同时,breakout监测还常常被用于考量现实生活中一些流行事件的用户参与形势,比如奥斯卡奖、超级碗、世界杯等。

Breakout由两个稳定状态和一个过渡区间构成。概括来讲,breakout分为两种:

均值漂移(Mean shift):时间序列的突发性变化。举个例子,CPU使用率忽然从40%跳到60%就是个均值漂移。 平滑改变(Ramp up):一个渐变的过程,两个平稳状态之间平滑的转变。举个例子,CPU利用率缓缓地从40%提升到60%。

下图阐述了现实数据中的多个均值漂移

鉴于度量上的每个增值都可以被收集,breakout的自动化检测已势在必行。当下已经不乏许多传统环境下的breakout检测研究,但是却不存在云数据中的breakout检测技术。这种情况主要归结于现存技术在异常环境中不具备足够的鲁棒性,而这些异常在云数据中又恰恰经常出现。

今天,我们非常高兴的公开BreakoutDetection,一个可以便捷和快速监测breakout的开源R包。通过BreakoutDetection,我们希望社区可以像Twitter一样从中获益,并且促进它的快速发展。

BreakoutDetection建立的原因非常简单,我们期望在异常环境中拥有一个鲁棒性良好的工具,站在统计的角度上对breakout进行检测。当下,BreakoutDetection包已可被用于各种各样的环境中,举个例子,它可以在用户参与的A/B测试环境中检测breakout,也可以被用于行为变化的检测,或者解决计量经济学、金融工程学以及社会科学等领域的问题。

BreakoutDetection工作机制

这个包实现了一个被称为E-Divisive with Medians(EDM)的算法。同时,EDM同样可用于给定时间序列中的分布变化。EDM使用了一个 极具鲁棒性的度量指标,也就是通过中值,使用排列检验来概算一个breakout的统计显著性。

此外,EDM是非参数型的。鉴于生产数据很少遵从通常的假定正态分布以及其他公认模型,非参数型这一点非常重要。而在我们的实践中,时间序列往往包含一个以上的breakout。有鉴于此,BreakoutDetection包同样可以被用于给定时间序列上的多breakout检测。

开始使用BreakoutDetection

在R控制台中使用如下命令安装这个R包:

install.packages("devtools")devtools::install_github("twitter/BreakoutDetection")library(BreakoutDetection)

breakout函数被调用以检测给定时间序列上的一个或多个统计显著性breakout,你可以使用以下命令来获得breakout函数的帮助文档:

help(breakout)

简单用例

为了完成这个例子,我们建议用户使用BreakoutDetection包中包含的实例数据集,这个操作可以通过以下命令完成:

data(Scribe)res = breakout(Scribe, min.size=24, method='multi', beta=.001, degree=1, plot=TRUE)res$plot

通过上面的操作,你可以获得下图

从上图我们可以得知,我们发现给定时间序列中存在一个breakout,同时还存在大量的异常。两个垂直红线中间的部分显示了由EDM算法检测出的breakout。区别于上文我们提到的常见方法,EDM在多异常环境下表现出了良好的鲁棒性。时间序列上出现的平均变化可以通过下方注释图更好地进行理解:

上面注释图中的水平线相当于每阶段的近似均值。

写在最后

感谢James Tsiamis和Scott Wong的支持,以及该项目的主要研究员Nicholas James。

项目托管: GitHub

博文链接: Breakout detection in the wild(翻译/童阳 责编/仲浩)

免费订阅“CSDN云计算(左)和CSDN大数据(右)”微信公众号,实时掌握第一手云中消息,了解最新的大数据进展!

CSDN发布虚拟化、Docker、OpenStack、CloudStack、数据中心等相关云计算资讯,     分享Hadoop、Spark、NoSQL/NewSQL、HBase、Impala、内存计算、流计算、机器学习和智能算法等相关大数据观点,提供云计算和大数据技术、平台、实践和产业信息等服务。

时间: 2024-07-30 02:14:48

Twitter开源云环境时间序列数据断层检测工具BreakoutDetection的相关文章

云环境下数据存储安全技术研究

云环境下数据存储安全技术研究 江西财经大学 伍琦 云计算是近年来IT界继网格计算.分布式计算.并行计算.效用计算等之后,新兴的技术热点之一.与业界普遍关注云计算的三种服务形式:软件即服务(Software as a service.平台即服务(Platform as a service.基础设施即服务(Infrastructure as a service, IaaS)不同,学术界往往不涉及云计算的具体形式,而重点讨论用户将存储和计算任务抽象外包给云服务器端时出现的问题.其中,数据存储安全是基础

HPE升级开源云产品 “靠近数据”是其重要优势

近日,惠普企业(HPE)对旗下的开源云进行了大量升级,HPE在周一的OpenStack峰会上推出了HPE Helion OpenStack 4.0,其运行了OpenStack最新版Mitaka,目标用户是致力于基础架构即服务的企业和电信运营商. 具体来说,惠普的OpenStack版本在管理和安全上做了改进,目的是使其更适合对部署服务感兴趣的IT部门以及有意提供更多SDx(软件定义x)的电信运营商. 有关的改进包括生态系统整合.运营.安全.可伸缩性和应用程序性能.新的功能包括VM自动扩展和升级,实

云创大数据吹响进军互联网的号角

2016年1月4日,云创大数据宣布成立平台部,正式向互联网业务进军.平台部的业务重心将在丰富全民大数据平台--万物云与环境云的基础之上,针对多样化的互联网业务需求,提供差异化的云计算与云存储服务,走多元化.有层次的纵深发展路线.继2015年12月28日挂牌新三板以来,平台部的成立是云创大数据对外宣布的又一重大战略决策,标志着云创大数据的发展进入了新的征程,将成为其"互联网+大数据"战略的转折点. 自成立以来,云创大数据始终专注于云计算产品的研发与服务,构建了从存储.处理.传输直至应用的

西部数据(WDC)硬盘官方检测工具 - Data Lifeguard Diagnostic

知识点分析: 当使用的西数硬盘(台式或笔记本硬盘)可能存在故障时,可以使用西部数据官方检测工具进行诊断. 操作步骤: 请您在使用该工具前全盘备份硬盘中的数据,以防丢失. 点击此处下载>> 这是 Windows 版本的 Data Lifeguard Diagnostics.它将测试 WD 内置及外置硬盘.此外,它还可为您提供连接该系统的 WD 硬盘机型及序列号. 支持的操作系统 Windows 10 Windows 8 32/64-bit versions Windows 7 32/64-bit

红帽开源云:Linux、虚拟化、存储与大数据

三月底,红帽发布了截止2012年2月29日的2012财年第四财季及全年财报.财报显示,红帽2012财年总营收为11.3亿美元.至此,红帽成为IT业首家年收入超过10亿美元的开源解决方案厂商.红帽是如何做到三年十亿?2012年过去了一半,红帽又有哪些新动向?未来又有何计划呢? 核心Linux业务与虚拟化 今年五月,红帽企业Linux面世十周年. 2002年5月,红帽推出首款企业Linux操作系统.十年间,Linux操作系统已经在企业级领域获得认可和普及. 红帽企业Linux还提供了内嵌的KVM虚拟

GDS副总裁:不排除打造开源云数据平台

GDS副总裁孙岗6月29日消息,国内IT服务厂商万国数据(GDS)日前联合投资方日本软银电信株式会社(下称"软银")推出基于VMware vCloud Datacenter技术核心的高可用云数据中心.万国数据副总裁孙岗在接受TechWeb采访时表示,软银与GDS还将构建全 新的虚拟私有云模式,未来业务扩展过程中,不排除为一定规模的特定客户打造开源云数据平台.据介绍,该高可用云数据中心属于万国数据上海外高桥数据中心的最新服务版块,已经正式面向国内市场商用.在功能上,高可用云数据中心可向用

IBM与红帽联手构建开源混合云环境

北京时间3月21日消息,IBM的云业务正在红帽OpenStack和存储团队进行合作,以整合他们的产品,在混合环境中通过开源的方式提供给客户. IBM与红帽联手构建开源混合云环境(图片来自The Tech Portal) IBM在拉斯维加斯举行的InterConnect会议上宣布了这一消息,大会约吸引了2万名开发者.客户,以及IBM合作伙伴参加. 对于客户来说,合作的关键在于使用红帽OpenStack私有云平台和分布式存储产品,运行在IBM云平台上.红帽的客户希望为IBM公有云扩展基础环境,使得其

戴尔将拓展到数据中心和云环境领域

戴尔公司总裁兼CEOMichaelhttp://www.aliyun.com/zixun/aggregation/13533.html">Dell表示:"今年早些时候,我们宣布承诺为客户进行10亿美元的投资,将公司的全球业务范围扩展到数据中心.移动及云环境领域.现在,这些投资为我们的客户带去了更多价值,他们的企业需要一个端到端的解决方案供应商来推动创新,释放潜能.我们将继续致力于倾听客户声音,并提供可以切实解决问题的方案." 戴尔提供开放.性能出色及高性价比的解决方案,

酷克数据:数据仓库在云环境下焕发新生

近年来,由于Hadoop和Spark等技术的出现,"基于关系型数据库的数据仓库是否到了退出历史舞台的时刻"的论调一再被提起.而在酷克数据联合创始人兼CEO简丽荣看来,数据仓库需要的不是退出历史舞台,而是需要进行根本性的变化. 事实上,随着信息技术的迅速发展,各行各业正产生和积累爆炸式的数据.但是,尽管近年来大数据处理相关的工具和产品不断涌现,传统部署模式下的大数据分析软硬件前期投入巨大.实施周期漫长.运维复杂,加上艰难的IT资源规划等原因,导致企业进行大数据分析的门槛依然很高. 基于以