如何为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU、内存、网络以及存储之间的性能平衡。而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在。

关于Hadoop

“大数据”是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理。大数据是结构化或非结构化的多种数据类型的大集合。而Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可管理处理的形式。Hadoop使得对大数据处理成为可能,并能够帮助企业可从客户数据之中发掘新的商机。如果能够进行实时处理或者接近实时处理,那么其将为许多行业的用户提供强大的优势。

Hadoop是基于谷歌的MapReduce和分布式文件系统原理而专门设计的,其可在通用的网络和服务器硬件上进行部署,并使之成为计算集群。

Hadoop模型

Hadoop的工作原理是将一个非常大的数据集切割成一个较小的单元,以能够被查询处理。同一个节点的计算资源用于并行查询处理。当任务处理结束后,其处理结果将被汇总并向用户报告,或者通过业务分析应用程序处理以进行进一步分析或仪表盘显示。

为了最大限度地减少处理时间,在此并行架构中,Hadoop“moves jobs to data”,而非像传统模式那样“moving data to jobs”。这就意味着,一旦数据存储在分布式系统之中,在实时搜索、查询或数据挖掘等操作时,如访问本地数据,在数据处理过程中,各节点之间将只有一个本地查询结果,这样可降低运营开支。

Hadoop的最大特点在于其内置的并行处理和线性扩展能力,提供对大型数据集查询并生成结果。在结构上,Hadoop主要有两个部分:

Hadoop分布式文件系统(HDFS)将数据文件切割成数据块,并将其存储在多个节点之内,以提供容错性和高性能。除了大量的多个节点的聚合I/O,性能通常取决于数据块的大小——如128MB。而传统的Linux系统下的较为典型的数据块大小可能是4KB。

MapReduce引擎通过JobTracker节点接受来自客户端的分析工作,采用“分而治之”的方式来将一个较大的任务分解成多个较小的任务,然后分配给各个TaskTrack节点,并采用主站/从站的分布方式(具体如下图所示):

Hadoop系统有三个主要的功能节点:客户机、主机和从机。客户机将数据文件注入到系统之中,从系统中检索结果,以及通过系统的主机节点提交分析工作等。主机节点有两个基本作用:管理分布式文件系统中各节点以及从机节点的数据存储,以及管理Map/Reduce从机节点的任务跟踪分配和任务处理。数据存储和分析处理的实际性能取决于运行数据节点和任务跟踪器的从机节点性能,而这些从机节点则由各自的主机节点负责沟通和控制。从节点通常有多个数据块,并在作业期间被分配处理多个任务。

(责任编辑:蒙遗善)

时间: 2024-08-15 08:43:53

如何为大数据处理构建高性能Hadoop集群的相关文章

怎么为大数据处理构建高性能Hadoop集群

越来越多的企业开始使用Hadoop来对大数据进行处理分析,但Hadoop集群的整体性能却取决于CPU.内存.网络以及存储之间的性能平衡.而在这篇文章中,我们将探讨如何为Hadoop集群构建高性能网络,这是对大数据进行处理分析的关键所在. 关于Hadoop "大数据"是松散的数据集合,海量数据的不断增长迫使企业需要通过一种新的方式去管理.大数据是结构化或非结构化的多种数据类型的大集合.而 Hadoop则是Apache发布的软件架构,用以分析PB级的非结构化数据,并将其转换成其他应用程序可

你的大数据安全么?“Hadoop集群遭遇勒索软件攻击 ”

免费开通大数据服务:https://www.aliyun.com/product/odps 近期,各大安全组织检测到勒索软件正在攻击Hadoop集群,再次表明黑客正在尝试从"大数据"中获利,你的数据资产有没有被黑客get了? ◇◆◇◆◇ 勒索软件攻击Hadoop事件综述 最近,部分黑客组织针对几款特定产品展开了勒索攻击.截止到上周,已有至少34000多台MongoDB数据库被黑客组织入侵,数据库中的数据被黑客擦除并索要赎金.随后,在2017年1月18日当天,又有数百台ElasticSe

玩转大数据-如何搭建hadoop集群

看到题目有没有一种高大上的感觉? 毛线,当前是个人.是个公司都在说自己搞大数据,每天没有几个PB的数据入库,每天没有几个TB的分析数据产出敢说自己是大数据? 乘着大数据噱头之风,我们还是要看一下大数据所运用的工具对于我们是否有用,小编之前写项目时一直青睐于mysql,进来发现新的项目mysql已经无法适应,我们目前日数据产生量在10W级别时,mysql的查询速度和稳定性的确出现了问题,借鉴当前分布式数据库的经验,我们决定采用Hbase集群,Hadoop作为hbase的基础,被提到首要位置做研究.

《Hadoop集群与安全》一导读

前 言 在过去的数年中,Hadoop已经成为数据集成平台的标准解决方案.各企业都在数据基础设施架构中融入新的技术,这要求系统工程师和数据管理员要迅速地掌握新组件的各个方面.由于Hadoop是一款包含多种软件的产品,其中集成了多种不同的开源项目,因此掌握这些技术并不简单,需要进行正确安装和配置才能确保Hadoop平台的健壮性和稳定性.许多已有的Hadoop发行版本通过某种类型的图形界面来简化Hadoop的安装.这种方法极大地缩短了构建完整Hadoop集群所需的时间,同时也降低了管理集群配置的复杂性

大数据-三台机器能够构建HA的hadoop集群吗 hadoop-2.6.0 64位版本

问题描述 三台机器能够构建HA的hadoop集群吗 hadoop-2.6.0 64位版本 我设计的架构如图,理论上任意一台机器宕机,集群仍然可以正常工作,不知道这样是否可行. 求大神指导. 解决方案 keepalive 常用于HA, 不过你这里的hadoop 是怎么实现的内部我不是很清楚,不过正常HA 可以实现一台宕机立马切换到备用集群. 我测试过keepalive

Hadoop集群让大数据分析平台化

咨询师Wayne Eckerson说,Hadoop提供了一个平台,机房动力环境监控为单独数据分析和商业用户建立起的spreadmart(报表集市)提供更为方便的控制,同时还让他们有地方进行自助服务分析. Spreadmart是spreadsheet data mart的简称,在商务智能领域,指多个个人和团队创建的各不相同的电子数据表格.因为数据不一致,所以给业务带来很大的麻烦. 几十年来,所有数据分析人员都使用自助服务分析工具来访问和操纵数据,确定趋势和反常现象,展示商务智能的洞察力等.虽然在这

大数据探索:在树莓派上通过 Apache Spark on YARN 搭建 Hadoop 集群

有些时候我们想从 DQYDJ 网站的数据中分析点有用的东西出来,在过去,我们要用 R 语言提取固定宽度的数据,然后通过数学建模来分析美国的最低收入补贴,当然也包括其他优秀的方法. 今天我将向你展示对大数据的一点探索,不过有点变化,使用的是全世界最流行的微型电脑----树莓派,如果手头没有,那就看下一篇吧(可能是已经处理好的数据),对于其他用户,请继续阅读吧,今天我们要建立一个树莓派 Hadoop集群! I. 为什么要建立一个树莓派的 Hadoop 集群? 由三个树莓派节点组成的 Hadoop 集

《Hadoop集群与安全》一第1章 构建Hadoop集群

第1章 构建Hadoop集群 Hadoop是一款免费开源的分布式存储和计算平台.在构建该平台后,用户可以使用商用硬件中的集群来存储和处理大量数据.在过去的数年中,Hadoop已经成为大数据项目的事实标准.本章会讲述以下内容:选择Hadoop集群硬件.Hadoop发行版.为Hadoop集群选择操作系统.本章会讲解为Hadoop集群选择和配置硬件的概念,还会介绍不同的Hadoop发行版(其数量每年都在增加)以及它们之间的异同点.无论读者是Hadoop管理员还是架构师,构建集群的第一步是确定使用硬件的

大数据虚拟化零起点(六) 使用CLI创建Apache Hadoop集群

在大数据虚拟化基础运维第五步创建Hadoop集群开始之前,我想先说明,这里我不通过BDE提供的可视化界面来创建集群.原因是,我们之前部署好的vApp包括BDE管理服务器,是通过虚机的方式在运行.此时,它还没能跟vSphereWeb Client进行绑定,从而暂时无法交付可视化管理界面.在之后的博客文章里,我将介绍如何交付可视化界面. 但大家不要担心,BDE管理服务器自身已经提供了完备的对外服务接口(RestAPI),用户只需通过命令行(CLI)的方法操控它,就能开始对Hadoop集群进行快速部署