大数据引发存储限制 Hadoop如何走得更远?

存储技术已经发展和成熟起来,并开始在许多数据中心处于近乎商品的地位。然而,今天的企业面临着存储技术的不断变化带来的诸多问题一个例子是推动大数据分析,一项给大型数据集带来商业智能BI功能的举措。

大数据分析过程需要如下超出典型存储范式的能力—典型存储范式,简而言之,即传统的存储技术,如SAN、NAS和其它无法在本地处理伴随着大数据的挑战而来的TB级和PB级的非结构化信息的存储技术。除此之外,成功">的大数据分析需要更多的东西——种新的处理大容量数据的方法,换言之,一种新的存储平台。

Hadoop是一个开源项目,它提供了处理大数据的平台。虽然Hadoop的出现已经有一段时日了,但是很多企业现在才开始使用Hadoop。

Hadoop平台旨在解决海量数据引起的问题,尤其是那些混合了复杂、非结构化、结构化信息的数据,这些数据的结构导致其不适合存储在表中。Hadoop在需要支持深度和计算广泛的分析比如集群和定位的情况下运作良好。那么Hadoop对那些寻求充分利用大数据的IT专业人员意味着什么?简单的回答是Hadoop解决了与大数据相关联的最常见的问题:高效的存储和访问海量数据。

Hadoop的内在设计允许其作为一个能够在大量不共享任何内存和磁盘的计算机之间工作的平台运行。考虑到这一点,就能很容易看到Hadoop如何提供额外的价值——网络管理员可以简单的购买许多商品服务器,将它们放在机架上,然后在每台服务器上运行Hadoop软件。

更何况,Hadoop有助于减少大型数据集相关联的管理开销。在操作上,一旦企业的数据加载到了Hadoop平台,软件就会把数据分解成可管理的片段,然后自动将这些数据分配给不同的服务器。数据天然的分布式性质意味着从单一的服务器访问数据是不可能的。Hadoop跟踪数据驻留的位置,并通过创建多个存储副本进一步保护这些信息。这样,系统的伸缩性增强了:如果某个服务器脱机或者失败了,数据可以自动复制已知的正常副本。

Hadoop如何走得更远?

Hadoop进一步分多个步骤处理数据。例如,限制关联传统的、集中式的数据库系统,该数据库系统可能包括了连接到具有多个处理器的服务器级系统的大型磁盘驱动器。在这种情况下,由于磁盘的性能限制,数据分析是有限的,并且,最终还要忍受可购买的处理器数量。

在部署了Hadoop后,集群中的每个服务器都可以通过Hadoop传播分布在集群中的数据的功能参与数据的处理过程。换句话说,一个索引作业向集群中的每个服务器发送代码,然后每个服务器在属于自己的一块数据上进行相关操作,随后处理结果作为一个整体交付。有了Hadoop,过程被视为MapReduce,在MapReduce中,代码和进程被映射到了所有的服务器上而操作结果被减少到了单个数据集上。

Hadoop之所以能够处理海量数据就是因为这个过程。Hadoop传播数据并且能够利用所有的可用集群处理器并行工作来处理复杂计算问题。

(责任编辑:吕光)

时间: 2025-01-01 15:09:22

大数据引发存储限制 Hadoop如何走得更远?的相关文章

大数据,让工业4.0走得更顺畅

导读 工业互联网是数字技术和物理技术 大数据与大机器的融合 现在很多工业公司已经意识到工业数据的价值 将数字化视为生存和发展的必要前提 但是,如何将数据化转化为可用价值 使公司能在新一波工业革命浪潮中立足 这是所有工业公司所需要解答的问题 来看看大数据如何驱动工业4.0 先来理解两个关键词 工业4.0 工业4.0是工业现代化发展的新阶段,是在互联网.物联网.大数据.云计算等新一代信息技术应用基础上的工业革命的新阶段,也是未来的一个新常态,代表着一种融合,互联网与工业的深度融合. 工业大数据 工业

Hadoop如何走得更远? - 产品和技术

Hadoop如何走得更远? 发布时间:2012.05.11 12:52 &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;    来源:赛迪网     作者:赛迪网 存储技术已经发展和成熟起来,并开始在许多数据中心处于近乎商品的地位.然而,今天的企业面临着存储技术的不断变化带来的诸多问题一个例子是推动大数据分析,一项给大型数据集带来商业智能BI功能的举措. 大数据分析过程需要如下超出典型存储范式的能力-典型存储范式,

【书摘】大数据开发之初识Hadoop

本文节选于清华大学出版社推出的<Hadoop权威指南>一书,作者为Tom White,译者是华东师范大学数据科学与工程学院.本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具.全书共16章,3个附录,涉及的主题包括:Haddoop:MapReduce:Hadoop分布式文件系统:Hadoop的I/O.MapReduce应用程序开发:MapReduce的工作机制:MapReduce的类型和格式:MapReduce的特性:如何构建Ha

应对大数据的存储准备

在今天,我们频繁地地接触到"大数据"这个术语.不过业内还是对大数据究竟是什么缺少一种标准化的定义.那么,大数据对数据存储基础架构中有意味着什么呢? 企业战略集团(ESG)对大数据作出的定义是"大小规模超过常规处理能力边界的数据集,它使得你不得不采取非常规手段."简单来讲,我们可以将大数据这个词使用在任何突破了传统IT处理支撑日常业务运作能力边界的数据集合上. 这些边界可能会出现在以下几种情况下: ?过高的交易数据量导致传统的数据存储系统达到了瓶颈,无法及时地完成各项

大数据引发的安全性革命:在数字化世界进行身份管理(1)

现如今,数据正以指数级增长.有专家最近 提出,其增长率相当于在国际象棋棋盘的第一格放置一粒大米,第二格放置其个数的平方粒米,第三格放置其个数的三次方粒米.当放置到第64格时,最后一格的米粒数量将相当于全世界水稻年产量的一千倍.498)this.width=498;' onmousewheel = 'javascript:return big(this)' style="width: 320px; height: 187px" border="0" alt="

拥抱大数据 智慧城市迈开步伐大步走

3月10日,全国政协委员.神州控股董事局主席郭为在接受2017两会高端访谈时表示,"智慧"是一个阶段性的概念,从数字化到智能化再到智慧化.首先是数字化,就是把很多东西进行数字化,从模拟信号变成数字信号.第二个就是要智能化,在数字化的基础之上,做到自动控制,把人类的很多经验让机器去学习,然后使得机器具有智能判断这样的能力,这就是智能化的结果.最后智慧化其实就是用更大的数据量使得这个决策的效果更好. 拥抱大数据 智慧城市迈开步伐大步走 按照"智慧"的来源,智慧城市可以分

Mysql大数据量存储及访问的设计讨论

一.引言 随着互联网应用的广泛普及,海量数据的存储和访问成为了系统设计的瓶颈问题.对于一个大型的互联网应用,每天几十亿的PV无疑对数据库造成了相当高的负载.对于系统的稳定性和扩展性造成了极大的问题.通过数据切分来提高网站性能,横向扩展数据层已经成为架构研发人员首选的方式.水平切分数据库,可以降低单台机器的负载,同时最大限度的降低了了宕机造成的损失.通过负载均衡策略,有效的降低了单台机器的访问负载,降低了宕机的可能性:通过集群方案,解决了数据库宕机带来的单点数据库不能访问的问题:通过读写分离策略更

mysql-利用MySQL数据库如何解决大数据量存储问题?

问题描述 利用MySQL数据库如何解决大数据量存储问题? 各位高手您们好,我最近接手公司里一个比较棘手的问题,关于如何利用MySQL存储大数据量的问题,主要是数据库中的两张历史数据表,一张模拟量历史数据和一张开关量历史数据表,这两张表字段设计的很简单(OrderNo,Value,DataTime).基本上每张表每天可以增加几千万条数据,我想问如何存储数据才能不影响检索速度呢?需不需要换oracle数据库呢?因为我是数据库方面的新手,希望可以说的详细一点,万分感谢!!! 解决方案 查询业务是怎么样

大数据引发App应用市场巨变

正如马云所说,很多人还没搞清楚什么是PC互联网,移动互联来了,还没搞清楚移动互联的时候,大数据时代又来了. 2015年,大数据时代气息浓厚.利用大数据的分析和预测,电商们正在为用户进行深度画像开展精准营销,让15分钟送货上门成为现实:结合大数据分析,互联网金融企业捕捉来自大众点评.豆瓣等社交网络的有效信息,多维度分析借款客户信用情况,提高自身风控能力.此外,大数据应用还将触角延伸到教育.医疗.交通.制造.影视.政府等领域-- 如此有爆发力的大数据应用,2016年将去撼动何方呢?自阿里提出PP助手