陈冠诚:Hadoop系统的软硬件协同优化

文章讲的是陈冠诚:Hadoop系统的软硬件协同优化,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。


▲IT168专题报道:http://www.it168.com/redian/Hadoop2013/

  Hadoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。笔者目前所在的是主题论坛一:架构与实践,下面为大家带来主题演讲的是IBM中国研究院研究员陈冠诚,他演讲的题目是《Hadoop系统的软硬件协同优化》。以下为陈冠诚的演讲实录。


▲IBM中国研究院研究员陈冠诚

  Hadoop软件在IBM服务器上的优化

  首先分享一下为什么要做软硬件协同一起优化?第一部分硬件体系结构优化。我们IBM研究院是一般大公司目标来说和产品的发布不直接的关联的。它的目标是做新技术的预研,如果你技术确实够好,会提供到IBM里去。我们小组作Hadoop新技术研发过程中发表一些论文,公开资料分享一些设计思想。有些东西可能进入到IBM中去。

  在我个人理解中,一个IT解决方案一般经历三个发展阶段,第一个要Work,能够跑起来。确实不少人采用以后,说不能跑的更快一点?原来的太慢了,想办法把性能优化一下。把运营成本降低,就是你的竞争优势。对企业来讲,你开源节流,两条盈利路线,我粗浅的认为这样。大数据的平台能够跑的足够快,尽可能压榨采购硬件的潜力。

  到底针对什么样的人群做性能的优化?大部分来讲,处理是GB量的,不是所有的公司都像互联网公司一样,需要处理所谓TB级别,PB级别,几千台机器的规模,不是所有人都适用的。你各种各样行业的客户或者大学,到底日常处理多少量的数据量做你的大数据分析的平台?这是我们需要针对的优化的场景。

  如果说不是每个人都处理GB级的级别,可能若干TB就是你的所有的数据了,在这样的平台怎么做系统的优化,这是我们首先给自己设定的权限的范围内。你会强调怎么样在这个环境下把你的性能尽可能压榨出来,这是你想要关注的问题。

作者:陶然

来源:IT168

原文链接:陈冠诚:Hadoop系统的软硬件协同优化

时间: 2024-08-03 16:25:53

陈冠诚:Hadoop系统的软硬件协同优化的相关文章

基于Hadoop系统的MapReduce数据流优化

1 Hadoop管道改进思想 在Hadoop系统的实现中,Map端的输出数据首先被溢写入本地磁盘,当本机任务完成后通知JobTracker,然后Reduce端在得到 JobTracker的通知后会发出HTTP请求,利用复制的方式从相应的Map端拉回其输出.这样的方式只能等该Map任务完成后才能开始执行 Reduce任务,并且Map任务和Reduce任务的执行是分离的. 我们的改进思想是使Map任务和Reduce任务能够以管道的方式执行,即Map任务开始产生输出后直接发送给相应的Reduce任务,

详解Hadoop系统:Hadoop架构、各部分功能及对大数据的意义

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这种惯性

HStreaming获投资,百万美元打造实时Hadoop系统

HStreaming初创公司总部位于旧金山,近期它接受了的第一笔创业投资--阿特拉斯风险投资公司给予了100万美元的投资,这笔资金将用来打造一个实时的Hadoop系统.这家仅仅有三个人的公司却已经有了两年的历史. 如果向Hadoop的有关人士询问 如何用Hadoop超越目前的批量处理平台,那么最主要的一个答案无疑就是"实时".实际上,下个月" Structure: Data"的一个讨论主题也是这个,企业希望Hadoop能够成为一个可操作的数据库并且具有各种类型的OL

单点搭建HADOOP系统

单点搭建HADOOP系统 安装JDK 1.下载jdk1.6.0_20;(下载文件为jdk-6u20-linux-i586.bin); 2.进入到jdk文件所在目录,由于运行bin文件是需要权限的,所以运行如下命令:chmod u+x jdk-6u20-linux-i586.bin,使得当前用户有权限执行该文件: 3.在jdk文件所在目录下执行:sudo ./jdk-6u20-linux-i586.bin安装jdk; 4.执行java -version验证jdk是否安装成功:如果安装成功会输出ja

Hadoop系统分布式存储与并行计算构架

图1-14展示了Hadoop系统的http://www.aliyun.com/zixun/aggregation/14305.html">分布式存储和并行计算构架.从硬件体系结构上看,Hadoop系统是一个运行于普通的商用服务器集群的分布式存储和并行计算系统.集群中将有一个主控节点用来控制和管理整个集群的正常运行,并协调管理集群中各个从节点完成数据存储和计算任务.每个从节点将同时担任数据存储节点和数据计算节点两种角色,这样设计的目的主要是在大数据环境下实现尽可能的本地化计算,以此提高系统的

Hadoop系统实际运行的时候是不是都是用命令行执行的?Hadoop和Java的联系有哪些?

问题描述 我这两天装了一下Hadoop2.2的集群,用了Yarn和Zookeeper,执行Mapreduce的时候都是用命令行,比如hadoopjarmapreduceExample.jar/user/root/data/source.txt/user/root/output/result当然我估计实际使用的时候还会用到Flume.HBase等技术,但是实际的Hadoop系统是什么样的?都是用命令行人工执行的?还有Hadoop和Java的关系是不是就是用Java写Mapreduce的程序,然后把

ZED-Board从入门到精通(五):软硬件协同设计

Zynq最大的优势在于,同时具备软件.硬件.IO可编程,即All Programmable.在设计Zynq过程中,同样要建立一种意识,就是从原来单纯的软件思维(或单纯的硬件思维)中解脱,转向软硬件协同设计的开发方法.   软件设计,即基于ARM的软件开发,我们第三节里面已经做过例子了,基本就是通过某一硬件地址映射寄存器与相应的硬件进行交互,这类硬件包括ARM外设如GPIO,EMIO,SPI,Timer等,也包括挂载到AXI总线上的PL.除此之外,软件还要处理好诸如操作系统.网络等高层任务. 硬件

这家公司专注Hadoop系统的数据安全

本文讲的是这家公司专注Hadoop系统的数据安全,近来IT界在热炒数据中心加密这一概念.这类加密技术以数据文件为中心,全程监管它入库前的网际传输. BlueTalon公司在2013年于加州的雷德伍德城成立,其最初业务是数据库加密,但是2015年年初,它开始致力于Hadoop批量分析集群的敏感数据加密,并率先占领了市场.该公司提供了一个预加载程序包来避免导入到Hadoop里的数据流在私有云.关联数据库.onsite SQL服务器等任何地方泄露. 贴身保护每条数据 可以把BlueTalon想象成数据

Hadoop系统如何应对实时任务避免延迟?

在Apache Hadoop的起步阶段,主要支持类似搜索引擎的功能.如今,Hadoop已经被数十个行业采用,它们依靠大数据计算来提升业务处理性能.政府.制造业.医疗保健.零售业和其他部门越来越多的从经济发展和Hadoop计算能力中受益,然而受到传统企业解决方案限制的公司将会发现竞争变得越来越残酷. 选择一个合适的Hadoop发行版和在业务中应用Hadoop一样有必要.最终,你会发现选择哪种Hadoop发行版取决于主机的规格,尽管性能和扩展性才是你应该仔细检查的两个主要特性.让我们了解一下一些具体