构建一套成功大数据基础设施需要遵循的七项要诀

无论从硬件还是软件角度出发,您面向大数据构建的基础设施都会对所支持大数据系统的分析与操作带来巨大影响。在今天的文章中,我们将了解七项重要的大数据架构设计原则。

大数据不仅是Hadoop

在大多数人的理解当中,大数据与Hadoop几乎可以等而论之。事实上,大数据远不止Hadoop这么简单。Hadoop是一套文件系统(而非数据库),其负责将数据传播至成百上千个处理节点当中。其之所以在大数据应用中广泛出现,是因为作为文件系统,它能够很好地处理非结构化数据——甚至包括一些看起来根本不算是数据的素材。

Hive与Impala将数据库引入Hadoop

下面聊聊大数据世界中结构化数据部分的对应数据库选项。如果大家希望以明确次序管理Hadoop数据平台,那么Hive应是最佳选项。这是一款基础性结构工具,允许大家在非SQL Hadoop当中执行SQL类操作。

如果大家的一部分数据能够轻松旋转在结构化数据库当中,那么Impala则更为合适——除了自身功能外,它还能够直接利用您已经开发出的Hive命令。Hadoop、Hive与Impala皆属于Apache项目,因此其全部为开源成果——请随意使用。

Spark用于处理大数据

截至目前,我们已经探讨了数据的存储与整理。然而,我们该如何对数据进行实际操作?这代表着我们需要一套分析与处理引擎,例如Spark。Spark亦属于Apache项目,能够将您的大批量数据整理为湖、仓储乃至数据库并进行实用性处理。

Spark亦可用于处理存储在任意位置的各类数据,因为丰富的库选项使其拥有了极为广泛的访问能力。另外,由于其属于开源项目,因此大家能够随意修改其核心内容。

可以立足大数据执行SQL操作

很多朋友可能非常熟悉SQL数据库构建与SQL查询编写工作。这方面专业知识在大数据领域同样拥有用武之地。Presto是一套开源SQL查询引擎,允许数据科学家利用SQL查询以检索从Hive到专有商用数据库等各类数据库系统。Facebook等巨头级企业都在利用其进行交互查询,因此我们基本可以将Presto视为一套理想的大规模数据集交互式查询工具。

在线存储同样需要接地平台

大数据领域中的相当一部分任务要求对数据进行快速变更——例如定期添加数据或者对变更数据进行分析等。无论如何,如果大家的数据拥有几乎对等的读取与写入频度,那么应当同时在本地与在线端保留数据副本。如果预算允许,使用固态存储无疑效果更好,因为这能够显著提升数据处理速度。

云存储的必要性

在对大规模聚合数据库进行分析时,云存储将成为最为理想的存储平台。大家可以将数据聚合后传输至云端,运行分析而后移除对应实例。数据处理不会受到互联网性能的影响。另外,如果大家将内部实时分析系统与云端深度分析方案加以结合,则能够最大程度发挥大数据基础设施的全部潜力。

别忘了可视化机制

除了大数据分析,将结果以易于理解的方式加以呈现同样非常重要,而数据可视化正是实现这一效果的关键性工具。

幸运的是,目前市面上提供多种可视化处理选项。大家可以选择一部分并加以尝试,同时了解用户的反馈意见以判断其效果。总而言之,可视化是实现大数据分析价值的最佳方式。

本文作者:核子可乐

来源:51CTO

时间: 2024-10-27 03:50:22

构建一套成功大数据基础设施需要遵循的七项要诀的相关文章

构建成功大数据基础设施的七大关键点

大数据是当今许多企业IT运营的一个重要组成部分.据知名调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元.大数据是数据分析的一个关键部分,而分析又是机器和人类商业智能及决策的基础.因为很明显,要是没有某种基础设施,你无法获得各种数据:大数据.小数据或完全正确的数据,所以有必要看一看有助于构建成功大数据架构的几个因素. 其中,一些因素可能看起来很明显,另一些则比较微妙.实际上,所有因素共同对你的大数据系统将支持的分析和行动带来巨大的影响. 当然,不是说只有这七个因素才会对大数据基

7招教你构建一套成功的大数据基础设施

现如今,大数据是许多企业IT运营的重要组成部分.根据IDC预测,到2019年,大数据产值将达到1870亿美元.作为分析的重要因素,大数据决定着机器和人类商业智能和决策的基础.因此,无论从硬件还是软件角度出发,您面向大数据构建的基础设施都会对所支持大数据系统的分析与操作带来巨大影响. 大数据概念综述 大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念.2009年美国互联网数据中心证实大数据时代的来临.随着谷歌 MapReduce和GoogleFile System (GFS)的发布,大

大数据基础设施论坛:如何构建符合大数据时代的网络基础设施?

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会第二日上午的大数据基础设施论坛上,Mellannox亚太区市场开发总监刘通.武汉绿色网络信息服务有限责任公司

行业:大数据基础设施逐渐完善,大数据应用价值爆发

大数据应用是指将处理好的数据产品应用到行业中去,为企业提供决策支持,从而提高运营效率,是发展大数据产业的终极目的也是大数据变现的最后阶段,随着大数据基础设施的逐渐完善,限制大数据应用的诸多难题开始被一一化解,从数据源到大数据应用的变现通道已经快速形成.我们认为,作为大数据变现最终阶段的大数据应用层必将开始实现加速发展,并将引导大数据产业链价值更多的向应用层流动, 同时越来越多新的大数据应用方式将被挖掘出来从而引导大数据应用向全面产业化方向发展. 大数据应用模式创新加速,大数据应用多行业实现落地

让基础设施研究变得更可见--- 清华大学数据科学研究院大数据基础设施研究中心成立

信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已经成为国家基础性战略资源,大数据正日益对全球生产.流通.分配.消费活动以及经济运行机制.社会生活方式和国家治理能力产生重要影响.然而,相对于金融.医疗领域的火爆发展,大数据基础设施的建设往往会遭到忽视.为提高社会对大数据基础设施的认知.推动数据基础设施建设.促进数据开放共享,2017年8月17日,在清华大学FIT楼多功能厅举办了大数据基础设施认知RONG论坛暨大数据基础设施研究中心(以下简称"中心")成立仪式. 北京龙腾佳讯科技股份

情人节营销 百度地图“套”牢大数据

这将可能形成一个在移动互联网上,以百度地图为纽带的百度联盟,不仅仅将百度的各种应用打通融汇,将来自搜索.问答.音乐甚至是输入法中积累的大数据变成地图的元素,并以及时性.高效性和图形化的特征,逐步实现和各种热门的基于LBS的App服务串联,形成一个百度地图的隐性互联网入口. 据媒体报道,2月14日情人节,百度对外发布全国首个"爱心地图".身在北京.上海.深圳.东莞四地的朋友,通过百度地图搜索"免费安全套.免费避孕套.安全套.避孕套.避孕药.计生服务.爱要有一套.套套"

大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座

"大数据基础设施是面向数据采集.数据分析和数据应用的创新性系统工程.它一方面指支撑大数据应用和大数据产业的基础设施,另一方面指用大数据和人工智能的方法,解决基础设施运行过程中的问题. "清华-青岛数据科学研究院(以下称"数据院")大数据基础设施研究中心副主任赵强博士说到.数据时代,基础设施建设已经成为数据科学发展的瓶颈,提高人们对大数据基础设施建设重要性的认知迫在眉睫.10月26日新一期 清华大数据"应用·创新"讲座上,数据院特地邀请赵强博士做了

在安全,可信的阿里金融云商构建互联网金融与大数据应用

在安全,可信的阿里金融云商构建互联网金融与大数据应用 阿里云  刘松 由工业和信息化部指导,工信部电信研究院.中国通信标准化协会主办,数据中心联盟和云计算发展与政策论坛承办的"2014可信云服务大会"在北京国际会议中心盛大召开.本次会议以"可信中国云 未来新生态"为主题,积极推动了国内可信云服务认证体系的建立,促进云计算产业良性发展.工信部总工程师张峰.财政部政府采购管理办公室主任王瑛.中央国家机关政府采购中心主任王力达.工信部电信研究院院长曹淑敏.中国通信标准化协

大数据“老兵”畅谈大数据基础设施建设

Martin Leach在大数据工作方面非常忙碌.他曾作为MIT和哈佛大学联合开办的Broad研究所的CIO,在那里,他要负责13PB数据的存储,使用超级计算机进行计算.他和他的团队为人类基因图绘制工作做出了卓越贡献. 在研究所之前,他团队所支持的研究小组为医药巨头默克公司研发.现在,他的新职务是生物技术公司Biogen 的IT研发副总裁,目前,他一些数据科学家编入团队.这只团队通过大数据分析处理保障Biogen 公司的研发. 在他离开非营利组织Broad生物研究所前,我们的编辑采访到Leach