《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1　使用场景

第3章 Trident和传感器数据

在本章中，我们将介绍Trident topology。Trident在Storm上提供了高层抽象。Trident抽象掉了事务处理和状态管理的细节。特别是，它可以让一批tuple进行离散的事务处理。此外，Trident还提供了抽象操作，允许topology在数据上执行函数功能、过滤和聚合操作。
我们将使用传感器数据作为例子来更好地理解Trident。通常情况下，传感器数据流会来自不同的位置。一些传统的例子包括天气和交通状况，这种模式扩展到了更大的数据源。比如，手机应用产生的众多事件信息。处理手机生成的事件流就是另一个传感器数据处理的实例。
传感器数据包括不同设备发射的事件，往往是无穷尽的数据流。这正是Storm最合适的一种应用场景。
本章包括以下主题：

Trident topology
Trident spout
Trident操作——filter和function
Trident聚合——Combiner和Reducer
Trident状态（state）

3.1　使用场景

在用Storm处理传感器数据时，为了更好地理解Trident topology，我们实现了一个Trident topolygy收集医学诊断报告来判断是否有疾病暴发的实例。
这个topology会处理的医学诊断事件包括以下的信息：

https://yqfile.alicdn.com/89aeb985f819351b49755263f1c7d879f9e07f7e.png" >

每个事件包括事件发生时的全球定位系统（GPS）的位置坐标，经度和纬度使用十进制小数表示。事件还包括ICD9-CM编码，表示诊断结果，以及事件发生的时间戳。完整的ICD9-CM编码参见http://www.icd9data.com/。
为了判断是否有疾病暴发，系统会按照地理位置来统计各种疾病代码在一段时间内出现的次数。为了简化例子，我们按城市划分诊断结果地理位置。实际系统会对地理位置做出更精细的划分。
另外，示例中会逐小时对诊断事件进行分组。实际系统会更倾向于使用滑动窗口，使用移动平均值来计算趋势。
最后，我们使用简单的阈值来判断是否有疾病暴发。如果某个小时事件发生的次数超过了阈值，系统会产生告警信息并且派遣应急人员。
为了维护历史记录，我们还需要将每个城市、小时、疾病的统计量持久化存储。

时间： 2024-11-18 01:47:10

《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1　使用场景的相关文章

《Storm分布式实时计算模式》——导读

前言目前对信息高时效性.可操作性的需求不断增长,这要求软件系统在更少的时间内能处理更多的数据.随着可连接设备数量不断增加,以及在众多行业领域广泛应用,这种信息需求已无处不在.传统企业的运营系统被迫处理原先只有互联网企业才会遇到的大规模数据.这种重大转变正不断瓦解传统架构和解决方案,传统上会将在线事务处理和离线分析分割开来.与此同时,人们正在重新勾勒从数据中提取信息的意义和价值.软件框架和基础设施也在不断进化,以适应这种新场景. 具体地说,数据的生成可以看作一连串发生的离散事件,这些事件流会伴

《Storm分布式实时计算模式》——3.3　Trident spout

3.3 Trident spout 让我们先来看topology中的spout.和Storm相比,Trident引入了"数据批次"(batch)的概念.不像Storm的spout,Trident spout必须成批地发送tuple. 每个batch会分配一个唯一的事务标识符.spout基于约定决定batch的组成方式.spout有三种约定:非事务型(non-transactional).事务型(transactional).非透明型(opaque). 非事务型spout对batch的组

《Storm分布式实时计算模式》——第1章分布式单词计数1.1　Storm topology的组成部分——stream、spout和bolt

第1章分布式单词计数本章将介绍使用Storm建立一个分布式流式计算应用时涉及的核心概念.我们通过建立一个简单的计数器程序实现这个目的.计数器将持续输入的一句句话作为输入流,统计其中单词出现的次数.单词计数这个例子浅显易懂,引入了多种数据结构.技术和设计模式.这些都是实现更复杂计算所必须的基础. 本章首先概要介绍Storm的数据结构,然后实现一个完整Storm程序所需的各个组成部分.读完本章,读者将会了解Storm计算的基本结构.搭建开发环境的方法.Storm程序的开发和调试技术. 本章包括以

《Storm分布式实时计算模式》——1.3　实现单词计数topology

1.3 实现单词计数topology 前面介绍了Storm的基础概念,我们已经准备好实现一个简单的应用.现在开始着手开发一个Storm topology,并且在本地模式执行.Storm本地模式会在一个JVM实例中模拟出一个Storm集群.大大简化了用户在开发环境或者IDE中进行开发和调试.后续章节将会演示如何将本地模式下开发好的topology部署到真实的Storm集群环境.1.3.1 配置开发环境新建一个Storm项目其实就是将Storm及其依赖的类库添加到Java classpath中.在

《Storm分布式实时计算模式》——2.1　Storm集群的框架

第2章配置Storm集群在本章中你将深入理解Storm的技术栈,它的软件依赖,以及搭建和部署Storm集群的过程.我们首先会在伪分布式模式下安装Storm,所有的组件都安装在同一台机器上,而不是在多台机器上.一旦你了解了安装和配置Storm的基本步骤,我们就可以通过Puppet这个工具进行自动化的安装,这样的话部署多节点的集群可以节省大量的时间和精力. 本章包括以下内容: 组成Storm集群的不同组件和服务 Storm的技术栈在Linux上安装和配置Storm Storm的配置参数 Sto

《Storm分布式实时计算模式》——1.7 总结

1.7 总结本章中,在没有安装和搭建Storm集群的情况下,我们使用Storm的核心API建立了一个简单的分布式计算程序,覆盖了Storm特性集的大部分内容.Storm的本地模式非常强大,简化了开发,提高了开发效率.但要感受到Storm真正的威力和水平扩展性,还是需要将程序部署在真实的集群上.下一章,我们会讲如何安装和搭建Storm集群环境,以及如何将topology部署到到分布式环境中.

《Storm分布式实时计算模式》——3.6　Trident状态

3.6 Trident状态我们现在已经给每个aggregator的分组数据进行了计数,现在想将信息进行持久化存储,以便进一步分析.在Trident中,持久化操作从状态管理开始.Trident对状态有底层的操作原语,但不同于Storm API,它不关心要哪些数据会作为状态存储或者如何存储这些状态.Trident在高层提供了下述的状态接口: 上面提到了,Trident将tuple分组成一批批数据.每批数据都有自己的事务标识符.在前面的接口中,Trident告诉State对象什么时候开始提交状态,什

《Storm分布式实时计算模式》——1.4　Storm的并发机制

1.4 Storm的并发机制在Storm的间接中提到过,Storm计算支持在多台机器上水平扩容,通过将计算切分为多个独立的tasks在集群上并发执行来实现.在Storm中,一个task可以简单地理解为在集群某节点上运行的一个spout或者bolt实例.为了理解storm的并发机制是如何运行的,我们先来解释下在集群中运行的topology的四个主要组成部分: Nodes(服务器):指配置在一个Storm集群中的服务器,会执行topology的一部分运算.一个Storm集群可以包括一个或者多个工作

《Storm分布式实时计算模式》——2.3　在Linux上安装Storm

2.3 在Linux上安装Storm Storm是设计运行在Unix兼容的操作系统上.但在0.9.1版本,它也支持在Windows机器上部署. 为了简化部署,我们使用Ubuntu 12.04LTS的发行版作为安装服务器.将会使用服务器版本,默认不包括图形界面接口,因为我们用不到..在实体机和虚拟机上安装ubuntu都是非常方便的.出于学习和开发的目的,你会发现在虚拟机里进行部署更加方便,尤其是手头没有那么多实体机的情况. OSX.Linux.Windows都有着对应的虚拟机软件.我们建议从下面集

标签 PostgreSQL , PostGIS , 空间数据 , 多边形 , bound box , R-Tree , GiST , SP-GiST 背景在PostgreSQL中,目前对于空间对象的 ...

异步代理

随着多核处理器在市场上的日益普及,它已广泛用于服务器.台式机以及便携式计算机,代码并行化的重要性也前所未有地凸显出来.为了满足这一关键需求 ,Visual Studio 2010 引入了若干新的方法 ...

13个JavaScript网站制作中实用技巧

javascript|技巧 1. 将彻底屏蔽鼠标右键oncontextmenu="window.event.returnValue=false" <table border ...

JRun3.0配合IIS的安装全过程

Hi!大家好久不见了,你们知道目前最流行的网络编程语言是什么吗?对就是ASP.NET和JSP．特别是JSP,它被很多人公认为是未来最有前途的网络编程语言．所以眼下很多朋友都开始使用JSP,而JSP是一 ...

Oradim工具的用法[收藏]

创建例程: -NEW -SID sid | -SRVC 服务 [-INTPWD 口令] [-MAXUSERS 数量] [-STARTMODE a|m] [-PFILE 文件] [-T ...

曹操：如何来分析关键词竞争程度

在进行一个网站优化的时候,关键词选择是重中之中.根据站长个人或公司对优化关键词投入的时间和金钱,选择适当难度的关键词.经过长期的实践,几个网站常常更改关键词,做了很多吃力不讨好的事之后,得到了很多有用 ...

简单设置防范ICMP攻击

利用系统自身的缺陷进行各种入侵向来就是黑客常得手的重要途径,特别是对于防范意识不高的家庭用户来说更容易让黑客得手,了解计算机网络知识的读者都知道Ping命令常常用来检查网络是否畅通,可是这个命令也能给 ...

3DSMAX造型设计之福娃杯蒸汽特效

先看一下最终效果: 图:最终效果一.绘制一个杯子 1.启动3dmax9.0,单击"创建"命令面板,点击"图形"按钮进入其创建面板,单击"线" ...

生成可双击运行的Jar文件

1. 在*.mft或*.mf文件中输入如下的内容: main-class: Hello 注意: (1) 冒号后有一空格; (2) Hello是启动运行类Hello.class的文件名; (3) Hel ...

修复文件终结者病毒破坏的文件

前段时间,发现电脑读硬盘异常,就不断去查找异常进程,结束了多个读硬盘数据较多的陌生进程,最后打开资源管理器,发现了大问题,自己电脑中的文件夹突然都变成了回收站. 打开后原本的文件都变成了回收站中的垃圾 ...

word中a4转a3排版后文章很乱该怎么办?

word中a4转a3排版后文章很乱该怎么办?在word文档打印时,有时文档是按A4排版的,由于实际需要用A3纸打印,大家通常的做法是在页面设置中把A4换成A3,然后分栏重新分栏排版,这样很麻烦的, ...

ps炫丽光彩效果教程

一个最酷的数字艺术家是Chuck安德森,又名这种.在看到最近Psdtuts+读者的要求,我决定向你展示如何创建一个光的作用类似于这种的跳线海报.最后,我会让你看到一个像这样的技术可以用在各种不同的 ...

Word文档打开慢怎么办？

如果你遇到打开Word文档需要花耗几分钟以上的情况,或者打开除Word之外的其他的Office文档时,显然你的电脑中Offie组件和系统环境出现了故障,导致打开Word十分缓慢.此时的电脑西药需要 ...

win7系统怎么添加地址栏

1.首先大家用鼠标放在我们任务栏的空白处,点击右键就可以看到工具栏点击打开,选择里面的地址选项点击打开. 2.这个时候任务栏出现的输入窗口中有一个地址栏,这个时候我们输入关键词,输入资源管理器就可 ...

java-JFrame中通过getcontentpane()，getLayeredPane()添加组件的区别。

问题描述 JFrame中通过getcontentpane(),getLayeredPane()添加组件的区别. 如题,JFrame可以通过getcontentpane(),得到一个JRootPane中 ...

【逻辑题目】1 3 6 10 15 21数列、求大神解答内容的问题！谢谢

问题描述为啥网上有说这个数列是等差数列我怎么看都看不出是等差数列.我是数学白痴,求大神解答还有用Java怎么输出这样规律的数列或者大神给提一下细节.万分感谢!!!!! 解决方案解决方案二:明显不是 ...

《Adobe Illustrator CC经典教程》目录—导读

vs2013的edmx有重大bug不能用

问题描述打update1也是解决不了的,具体表现在连接从edmx生成mysql脚本上不能成功还有其它各种奇怪错误等而用回到vs2012同样项目不改一个char直接就可以操作成功

c printf打印常量字符串报错

问题描述 c printf打印常量字符串报错 #include #define NAME ""xiao long li "";int main (void){ ...

XML函数库：xml_set_character_data_handler

xml_set_character_data_hanhttp://www.aliyun.com/zixun/aggregation/16504.html">dler 建立字符资料标头. ...

如何禁止移动QQ浏览器篡改网站视频播放器

问题描述如何禁止移动QQ浏览器篡改网站视频播放器发现新版的MQQBrowser,会将网站页面中的视频播放器替换为腾讯的播放器,加了什么弹幕吐槽功能有什么办法禁止么? 解决方案可以通过windo ...

软考下午题详解---数据流图设计

在历年的软考下午题当中,有五道大题,分别是数据流图的设计,数据库设计,uml图,算法和设计模式,从今天这篇博文开始,小编就跟大家来一起学习软考下午题的相关内容,包括理论上的知识以及典型 ...

pl/sql-oracle中游标的使用方法

问题描述 oracle中游标的使用方法使用下面的SQL语句创建一个临时表top_dogs,用于保存雇员的姓名和工资. CREATE TABLE top_dogs ( name VARCHAR2(25 ...

java-求一个接口例子, 别人可以调用,各个类或者实现都怎么写

问题描述求一个接口例子, 别人可以调用,各个类或者实现都怎么写求一个接口例子, 别人可以调用,各个类或者实现都怎么写,谢谢了解决方案 http://blog.csdn.net/yu555666/ ...

Kafka、RabbitMQ、RocketMQ发送小消息性能对比

引言分布式系统中,我们广泛运用消息中间件进行系统间的数据交换,便于异步解耦.现在开源的消息中间件有很多,前段时间我们自家的产品 RocketMQ (MetaQ的内核) 也顺利开源,得到大家的关注.那 ...

客机被劫，看以色列特种部队如何应对

头戴红色贝雷帽,胸前佩带银色徽章的以色列特种部队,向来以作风顽强而闻名于世.1976年7月,以色列特种部队穿过5个敌对国家上空,长途奔袭乌干达恩德培机场,营救人质成功,则是它无数次出征中的一次杰作 ...

PHP网站管理系统帝国CMS即将全面开源

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅骤然回首,帝国CMS从开发的第一个 ...

火灾报警管理系统 java为什么我的声音播放不出来，格式为au，课设马上就检查了

问题描述 importjava.applet.Applet;importjava.applet.AudioClip;importjava.awt.Button;importjava.awt.FlowL ...

我想在datagridview离开行的时候做一个数据验证，如果不正确就回到上一次的行.

问题描述我想在datagridview离开行的时候做一个数据验证,如果不正确就回到上一次的行.privatevoidDGV_bDT_CellEnter(objectsender,DataGridVi ...

openstack 管理二十五 - rpm 方式部署 openstack(架构说明)

前提 1 暂不配置成高可用 openstack 2 利用 rpm 方法部署 openstack 3 使用平面网络 4 了解各个组件连接其他组件的配置机器架构参考下面服务器的 IP 地址及每个服务器 ...

热搜

《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1 使用场景

第3章 Trident和传感器数据

3.1 使用场景

《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1 使用场景的相关文章

《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1　使用场景

3.1　使用场景

《Storm分布式实时计算模式》——第3章 Trident和传感器数据3.1　使用场景的相关文章