三:基于Storm的实时处理大数据的平台架构设计

一:元数据管理器
==>元数据管理器是系统平台的“大脑”,在任务调度中有着重要的作用
【1】什么是元数据?
--->中介数据,用于描述数据属性的数据。
--->具体类型:描述数据结构,数据的具体位置,数据间的依赖关系,数据的处理过程,数据的快照信息等。
【2】为何要引入元数据
--->实际案例:HDFS中的NameNode节点,Hive的MySql元数据表,MooseFs的Master节点,GFS(Google分布式文件系统)中的Master节点等。
--->在大数据处理架构中引入元数据结构,描述数据流名称,类型,字段结构,数据流转过程等,便于各个数据处理系统间协调,使数据业务调度更加的精准,便捷。
【3】实时处理平台任务调度
---->类SQL查询插入语句:INSERT MySQL INTO domain_table SELECT * FROEM domain_streaming AS d WHERE LENGTH(d.domain) <= 10 AND d.value > 2000 AND d.seller LIKE %tony%;
---->任务调度:实时处理内部拓扑数据流调度(节点模块化),不同组件之间的数据流调度,不同子系统之间的任务调度。
---->推荐方案:MySQL 或者 Zookeeper作为元数据的存储组件。

二:多节点统一配置管理
==>配置管理是一个系统的重要辅助功能,多节点的配置管理将比单节点的配置管理更为复杂,但其重要性也更加明显。
【1】多节点配置的相关问题
--->节点太多,需要配置的配置文件太多,太繁琐。
--->配置需要修改时,很难保证每个节点的配置统一,维护成本高
--->无法针对性的对功能节点进行配置,导致配置文件过于臃肿
--->配置文件太分散,动态更新成本过高。
【2】几种可行的分布式配置解决方案
--->依赖于Storm主类本身的Config对象进行传递
--->使用MySQL进行配置文件的同意存储。
--->以Puppet为核心的统一配置管理系统。
--->基于ZooKeeper的统一配置管理系统。
【3】基于ZooKeeper的统一配置管理解决方案

三:数据处理系统监控
==>一个完善的系统监控平台将大大降低数据处理平台的后期维护成本,也将是后期集群扩展的重要支撑条件。
【1】系统监控的重要性
--->数据平台作为底层数据加工处理的基础平台,任何事故(包括服务以及系统的故障)对于上层应用的影响很大,而数据平台的监控系统是故障快速定位,快速恢复的基本保障。
--->对于规模较小的数据处理平台,规划监控系统对于整个平台的扩展是有预见性的。
【2】系统监控的几大指标
--->系统层面:CPU,内存,磁盘的利用率,I/O负载,网络流量
--->服务层:Storm的两个基本服务(Nimbus和Supervisor),MQ,ZooKeeper,MySQL以及其他相关组件服务
--->应用层:具体的拓扑,拓扑对应的状态,具体工作Worker的状态
【3】系统监控的初步解决方案
---->系统层解决方案:分布式监控组件Ganglia或者Puppet+Zabbix结构
---->服务层解决方案:Puppet+服务探测脚本,ZooKeeper+服务探测脚本
---->应用层解决方案:使用ThriftAPI编写Thrift Client,请求Nimbus内置的Thrift Server,获取相关数据(Storm集群以及Topology数据)

四:数据总线
==>让数据流转于数据总线中,方便各个数据处理模块对数据的接入以及吐出,数据总线的设计将使数据流转更加的便捷快速
【1】数据总线的概念
--->总线:计算机各个功能部件之间传递信息的公共通信干线
--->数据平台中的数据总线概念:区别于计算机学科中数据总线的定义,在于强调各个数据处理组件,子系统能够进数据的传递。
【2】为何要引入数据总线
--->数据执行跨平台,跨语言,跨空间的处理(解藕,数据格式约定好就ok)
--->数据安全隔离,有效隔离不同组件,系统之间的直接操作
--->冗余数据保护,避免数据在某个组件,系统中造成积压
【3】基于MQ的数据总线设计

五:基于Storm的基础平台架构
==>我们将把前面所有的相关平台组件进行集成,组成围绕Storm的一个实时数据处理的基础平台
【1】基础架构图详解

【2】Storm平台的发展方向
--->提供更加灵活的分组策略,应用更加多变复杂的业务需求
--->大数据平台统一融合趋势,兼容更多的分布式相关组件的数据接口(Kafka,Hbse,Hive,Redis等)
--->集群资源的统一调度管理,剥离自身资源调度功能,交由诸如Yarn,Mesos专门的组件统一调度(协调各个子系统的资源)
【3】大数据平台思维的延伸
--->数据源收集:互联网数据金矿的挖掘
--->大数据平台一体化融合思维:随着数据的急剧上升,大数据处理需求的多样化,数据在不同平台流通的需求迫切,整合不同大数据相关组件架构,进行一体化融合是一个大趋势。
--->平台即服务思维:Docker技术的出现,让大数据平台的构建变得更简单,平台节点大规模快速安装,资源得到更好得隔离,数据平台服务化

时间: 2024-10-06 20:39:25

三:基于Storm的实时处理大数据的平台架构设计的相关文章

携程基于Storm的实时大数据平台实践

  本文讲解了携程在实时数据平台的一些实践,按照时间顺序来说明我们是怎么一步一步构建起这个实时数据平台的,目前有一些什么新的尝试,未来的方向是怎么样的,希望对需要构建实时数据平台的公司和同学有所借鉴. 为什么要做实时数据平台 首先先介绍一下背景,为什么我们要做这个数据平台?其实了解携程的业务的话,就会知道携程的业务部门是非常多的,除了酒店和机票两大业务之外,有近20个SBU和公共部门,他们的业务形态差异较大,变化也快,原来那种Batch形式的数据处理方式已经很难满足各个业务数据获取和分析的需要,

关于举办“天德π客”创业论坛——“基于阿里云的大数据实践—海量日志分析”的通知

随着互联网.云计算.物联网.社交网络等技术的兴起和普及,全球数据的增长快于任何一个时期,可以称作是爆炸性增长.收集大量数据,并在数据中发现趋势,能使企业能够更快.更平稳.更有效地发展.然而,大数据对许多企业和数据专业人员来说,它仍然很难理解,那么,什么是大数据分析?如何利用阿里云数加平台进行海量数据分析,帮助企业更好地利用数据资源?"天德π客"众创空间特举办本期论坛--"基于阿里云的大数据实践--海量日志分析",邀请华北电力大学电力系统及其自动化博士,阿里云大数据高

基于Docker的京东大数据实时计算平台

JRC用户需求多样复杂,用户要求的资源配置也大小不一,系统更新部署步骤繁琐,人工操作亦有极大的安全风险,与此同时,用户的资源需求也越来越多,大集群支持.资源节省亦是我们应该重点关注的问题. 本文就来介绍一种我们京东为了解决上述问题而研发的基于docker的实时计算平台. 现状以及问题 storm集群结构: storm拓扑结构: storm瓶颈 从storm架构图可以看出,storm整个集群对zookeeper的依赖非常大,无论是拓扑配置.分配信息.心跳.错误信息,均存储在zookeeper中,而

无处不数据的时代 三大运营商如何变现大数据价值?

5月18日消息,昨天是世界电信日,其主题是"发展大数据,扩大影响力". 其实我们已经处在了无处不数据的时代,但大数据的发展才刚刚开始,城市中的数据利用率仅为0.4%,且大部分数据还在政府手里或者各个角落闲置.拿电信运营商本身,价值数千亿的数据尚未得到变现. 运营商既是大数据的拥有者,又是大数据技术的拥有者,同时可以面向各类用户提供大数据的应用服务.三大运营商也纷纷规划大数据发展步骤,逐渐将数据价值变现. 中国电信:大数据2+31模式 2013年中国电信着手布局大数据业务,坚持深化挖掘应

基于NoSQL数据库的大数据存储技术的研究与应用

基于NoSQL数据库的大数据存储技术的研究与应用 孙中廷 实际工程中采集和处理的数据量特别大,这对传统数据库技术提出巨大挑战.针对传统关系型数据库存储速度慢.对硬件要求高的缺点,提出一种以NoSQL数据库为基础的大数据处理方法,打破了传统数据库的关系模型,数据以一种自由的方式存储,而不依赖固定的表结构.该方法主要是将经验模态分解并与NoSQL数据库技术相结合,应用于大型结构件的变形监测中,构建出一个基于NoSQL数据库系统的大型结构件变形监测系统.仿真结果表明,该方法可以实现大型结构件变形监测数

浅析基于SQL Server PDW大数据解决方案

文章讲的是浅析基于SQL Server PDW大数据解决方案,随着越来越多的组织的数据从GB.TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代.对海量数据的处理.分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目.浏览的网页.接收到的广告,都将是基于大数据分析之后提供的有针对性的内容. 微软在大数据领域的战略重点,在于更好地帮助客户"消费"大数据,

基于NoSQL数据库的大数据查询技术的研究与应用

基于NoSQL数据库的大数据查询技术的研究与应用 朱建生  汪健雄  张军锋 基于NoSQL数据库理论,根据应用场景的不同,将NoSQL数据库分为面向高性能读写.面向文档和面向分布式计算的3种类型.对比分析这3种类型数据库的6种代表产品的优缺点,结合铁路客票实名制售票信息综合分析系统中的大数据操作的需求,选用NoSQL数据库中的面向分布式计算的Cassandra数据库.基于Cassandra数据库,提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制乘车信息的查询策略和查

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数

小米新一代大数据统计平台大公开

首次来到台北的小米研发架构师欧阳辰,看见城市中川流不息的摩托车车流,引起了他的注意:「它的特色很像大数据」,除了数量多.变化快,以及难以预测动向,摩托车也和大数据一般,都是解决人类生活在社会中的一项工具,「未来大数据会是重要的社会基础架构,就像水.电力一样.」 谈起大数据,不免回归最基本的问题:它跟传统数据分析的区隔为何. 欧阳辰表示:「在目标上,我认为两者没有区隔」,欧阳辰表示,传统统计分析解决的问题如人口统计议题,只需要经过随机抽样方法就能解决.但是碰上投放商业广告,若仍靠传统抽样分析结果,