构建成功大数据基础设施的七大关键点

大数据是当今许多企业IT运营的一个重要组成部分。据知名调研公司IDC预测,到2019年,大数据市场产值将达到1870亿美元。大数据是数据分析的一个关键部分,而分析又是机器和人类商业智能及决策的基础。因为很明显,要是没有某种基础设施,你无法获得各种数据:大数据、小数据或完全正确的数据,所以有必要看一看有助于构建成功大数据架构的几个因素。

其中,一些因素可能看起来很明显,另一些则比较微妙。实际上,所有因素共同对你的大数据系统将支持的分析和行动带来巨大的影响。

当然,不是说只有这七个因素才会对大数据基础设施的工作方式带来影响。大数据系统牵涉好多部分,但这七个因素值得你考虑,因为它们是许多其他部分和流程的基础。

眼下,你可能在使用大数据,即便你是在一家小公司工作。这要拜现有的基础设施部分所赐――其中许多部分连最小的IT部门也能访问。

伴随这种可访问性而来的是,那些本身并不拥有数据科学专长的小公司员工可能感到困惑和沮丧。如果你处于这种情形,本文不会消除你的所有困惑,但是让你可以开始向潜在的服务提供商和供应商提一些针对性的问题。

大数据远不止Hadoop

在平常的谈话中,大数据和Hadoop常常被人换着使用。这样的结果让人遗憾,因为大数据远不止Hadoop。 Hadoop是一种文件系统(而不是数据库),旨在跨数百或数千个处理节点传送数据。它用于许多大数据应用,原因是作为一种文件系统,它擅长处理非结构化数据,这类数据甚至不像其周围的数据。当然,一些大数据是结构化的,为此你需要一个数据库。但数据库是本文介绍的一个不同因素。

Hive和Impala将数据库引入到Hadoop

这里说的是面向大数据世界中结构化数据的数据库。如果你想让Hadoop数据平台井然有序,那么Hive可能正是你需要的。这种基础设施工具让你可以针对非常不像SQL的Hadoop处理类似SQL的操作。

如果你有一部分数据很容易放在结构化数据库中,那么Impala是旨在驻留在Hadoop里面的数据库,它还可以使用你从Hadoop转换到SQL过程中开发的Hive命令。所有这三个(Hadoop、Hive和Impala)都是Apache项目,所以它们都是开源的。

Spark用于处理大数据

到目前为止,我们一直在谈论存储和组织数据。但是,如果你想实际处理数据又怎么样?这时候,你就需要一种像Spark这样的分析和处理引擎。Spark是另一个Apache项目,它包括一批开源和商业产品,拿来你添加到数据湖、仓库和数据库的数据后,对数据做一些有用的操作。

由于它可以访问你能想象的任何数据的库,Spark可用于处理存储在各种地方的各种数据。它同样是开源的,所以你可以随意修改它。

你可以对大数据执行SQL操作

许多人知道如何构建SQL数据库和编写SQL查询。面对大数据时,这种专长没有必要浪费。Presto是一种开源SQL查询引擎,它让数据科学家可以使用SQL查询,查询驻留在从Hive到专有商业数据库管理系统的任何环境的数据库。它被Facebook之类的大公司用于交互式查询,而交互式查询这个短语是关键。Presto就好比是一种对庞大数据集执行即席交互式查询的工具。

在线存储有一席之地

一些大数据任务需要用到不断变化的数据。有时候,这是定期添加的数据,有时是通过分析而更改的数据。不管在什么情况下,如果你的数据写入与读取一样频繁,那么你就需要该数据存储在本地、联机。如果你支付得起成本,还希望数据存储在固态存储介质上,因为这会大大加快速度――如果你在零售或交易场地的人员焦急地等待结果返回,这是个重要的考虑因素。

云存储也有一席之地

如果在更庞大的聚合数据库上进行分析,那么云是完美的平台。聚合数据并传输到云,运行分析,然后拆掉实例。这正是云最擅长的那种弹性需求响应。操作不会受到互联网可能带来的任何延迟问题的显著影响。如果你把在专用本地系统上进行的实时分析与云端运行的深度分析结合起来,那么离充分发挥大数据基础设施的潜力近在咫尺。

别忘了可视化

分析大数据是一回事,以一种对大多数人有意义的方式来显示分析结果又是另一回事。图形对于整个“解读”工作大有帮助,所以应该将数据可视化视作是大数据基础设施的一个关键部分。

幸好,有许多方法可以实现可视化,从JavaScript库、商业可视化软件包到在线服务,不一而足。最重要的是什么?从中选择一小部分,试一试,并且让你的用户尝试一下。你会发现,可靠的可视化是让你的大数据分析尽可能出成果的最佳方式。

以上就是你在企业处理大数据时应知道并牢记的七个关键。

本文作者:佚名

来源:51CTO

时间: 2024-10-27 17:27:13

构建成功大数据基础设施的七大关键点的相关文章

构建一套成功大数据基础设施需要遵循的七项要诀

无论从硬件还是软件角度出发,您面向大数据构建的基础设施都会对所支持大数据系统的分析与操作带来巨大影响.在今天的文章中,我们将了解七项重要的大数据架构设计原则. 大数据不仅是Hadoop 在大多数人的理解当中,大数据与Hadoop几乎可以等而论之.事实上,大数据远不止Hadoop这么简单.Hadoop是一套文件系统(而非数据库),其负责将数据传播至成百上千个处理节点当中.其之所以在大数据应用中广泛出现,是因为作为文件系统,它能够很好地处理非结构化数据--甚至包括一些看起来根本不算是数据的素材. H

7招教你构建一套成功的大数据基础设施

现如今,大数据是许多企业IT运营的重要组成部分.根据IDC预测,到2019年,大数据产值将达到1870亿美元.作为分析的重要因素,大数据决定着机器和人类商业智能和决策的基础.因此,无论从硬件还是软件角度出发,您面向大数据构建的基础设施都会对所支持大数据系统的分析与操作带来巨大影响. 大数据概念综述 大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念.2009年美国互联网数据中心证实大数据时代的来临.随着谷歌 MapReduce和GoogleFile System (GFS)的发布,大

大数据基础设施论坛:如何构建符合大数据时代的网络基础设施?

[CSDN现场报道]2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 2014中国大数据技术大会第二日上午的大数据基础设施论坛上,Mellannox亚太区市场开发总监刘通.武汉绿色网络信息服务有限责任公司

大数据发展呈现七大趋势

近几年,我国对大数据发展高度重视.刚刚过去的2015年,国务院明确了关于促进大数据发展的总体战略,国家相关部门积极推进有关工作.2016年,大数据产业整体发展如何走向?以下是总结出的七大趋势. 1 国家战略引领各地加快落实推进大数据行动 我国对大数据发展高度重视.2015年8月,<国务院关于印发促进大数据发展行动纲要的通知>(国发[2015]50号)发布,明确了发展大数据的指导思想.发展目标和发展任务,为未来我国大数据发展与应用指明了方向.2015年10月,<中共中央关于制定国民经济和社

大数据基础设施建设需要得到重视 | 记清华大数据“应用·创新”讲座

"大数据基础设施是面向数据采集.数据分析和数据应用的创新性系统工程.它一方面指支撑大数据应用和大数据产业的基础设施,另一方面指用大数据和人工智能的方法,解决基础设施运行过程中的问题. "清华-青岛数据科学研究院(以下称"数据院")大数据基础设施研究中心副主任赵强博士说到.数据时代,基础设施建设已经成为数据科学发展的瓶颈,提高人们对大数据基础设施建设重要性的认知迫在眉睫.10月26日新一期 清华大数据"应用·创新"讲座上,数据院特地邀请赵强博士做了

【Hadoop Summit Tokyo 2016】如何构建成功的数据湖泊

本讲义出自 Alex Gorelik在Hadoop Summit Tokyo 2016上的演讲,主要介绍了数据湖泊的相关概念,介绍了数据湖泊可以赋能数据驱动的决策制定以及最大化商业价值,以及如何通过正确的数据+正确的平台+正确的接口构建成功的数据湖泊.

行业:大数据基础设施逐渐完善,大数据应用价值爆发

大数据应用是指将处理好的数据产品应用到行业中去,为企业提供决策支持,从而提高运营效率,是发展大数据产业的终极目的也是大数据变现的最后阶段,随着大数据基础设施的逐渐完善,限制大数据应用的诸多难题开始被一一化解,从数据源到大数据应用的变现通道已经快速形成.我们认为,作为大数据变现最终阶段的大数据应用层必将开始实现加速发展,并将引导大数据产业链价值更多的向应用层流动, 同时越来越多新的大数据应用方式将被挖掘出来从而引导大数据应用向全面产业化方向发展. 大数据应用模式创新加速,大数据应用多行业实现落地

让基础设施研究变得更可见--- 清华大学数据科学研究院大数据基础设施研究中心成立

信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已经成为国家基础性战略资源,大数据正日益对全球生产.流通.分配.消费活动以及经济运行机制.社会生活方式和国家治理能力产生重要影响.然而,相对于金融.医疗领域的火爆发展,大数据基础设施的建设往往会遭到忽视.为提高社会对大数据基础设施的认知.推动数据基础设施建设.促进数据开放共享,2017年8月17日,在清华大学FIT楼多功能厅举办了大数据基础设施认知RONG论坛暨大数据基础设施研究中心(以下简称"中心")成立仪式. 北京龙腾佳讯科技股份

商务部巡视员:用三年构建商务大数据资源库

近日,商务部电子商务和信息化司巡视员聂林海出席2016国是论坛"数字经济--引领新趋势"专题圆桌对话时表示,数字经济发展的新时代已经全面开启.商务部将从多方面做好工作,包括创新公共服务,力争用三年时间构建商务大数据资源库,提升商务领域公共服务水平. 今年前10月网络零售交易额同比增长25.7% 聂林海指出,电子商务是数字经济的重要组成部分,具有开放性.全球性.低成本.高效率的优势,成为进一步释放数字经济潜力的关键领域.近年来,我国的数字经济和电子商务发展的主要特点,可概括为增长速度加快