Hadoop参考设计的实现及性能:HiBench性能测试

该工具在业界引起巨大反响。总结该成果的发表论文The HiBench benchmark suite: Characterization of the MapReduce-based data analysis[]被广泛引用,仅国际权威学术期刊">IEEE上发表的引用它的论文就有7篇之多。Intel已将该工具的源代码提交给Apache,社区反映相当热烈。

IEEE论文链接

http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=5452747

下载地址

https://github.com/intel-hadoop/HiBench

测试准备:

1. 从https://github.com/intel-hadoop/HiBench上下载HiBench到主节点上。

2. 打开hibench-master/bin/hibench-config.sh,在第27-30行中补上Hadoop目录位置:

HADOOP_EXECUTABLE= /usr/lib/hadoop/conf/bin/hadoop

HADOOP_CONF_DIR = /usr/lib/hadoop/conf

HADOOP_EXAMPLES_JAR=/usr/lib/hadoop/hadoop-examples-1.0.3-Intel.jar

在/usr/lib/hadoop/conf目录下,打开hadoop-env.sh,27行去掉#号,改为

exportJAVA_HOME=/usr/java/latest

3. 打开hive和hbase功能;参数都在各个测试目录下的conf目录中设置,之后在bin目录中执行。

Hibench-dfsioe

测试目的:

通过同时执行大量读写任务来测试集群的吞吐量,包括每个map任务的I/O速率和吞吐量,以及HDFS的综合吞吐量。

参数设置:

RD_NUM_OF_FILES=256

RD_FILE_SIZE=200

WT_NUM_OF_FILES=256

WT_FILE_SIZE=100

测试命令:

在dfsioe/bin下依次执行 prepare-read.sh,run-read.sh,run-write.sh。

测试通过准则:

在hibench.report中输出:

Hibench-nutchindexing

MapReduce最重要的用途之一就是大规模搜索索引。该测试会自行产生大量的web数据,然后通过nutch搜索引擎来搜索以及索引这些数据。

参数设置:

PAGES=100000

NUM_MAPS=96

NUM_REDS=48

测试命令:

在nutchindexing/bin下依次执行 prepare.sh,run.sh。

测试通过准则:

在hibench.report中输出:

Hibench-bayes

测试目的:

MapReduce的另一个功能就是大规模机器学习,该测试同样会自行产生大量数据以供Mahout机器学习库处理。

参数设置:

PAGES=40000

CLASSES=100

NUM_MAPS=96

NUM_REDS=48

NGRAMS=3

测试命令:

在bayes/bin下依次执行 prepare.sh,run.sh。

测试通过准则:

在hibench.report中输出:

Hibench-hivebench

测试目的:

这个负载的开发基于SIGMOD 09的一篇论文“A Comparison of Approaches to Large-Scale Data Analysis”和HIVE-396,包含执行典型OLAP查询的Hive查询(Aggregation and Join),使用自动生成的Web数据,Web数据中的链接符合Zipfian分布。

参数设置:

NUM_MAPS=96

NUM_REDS=48

测试命令:

在hivebench/bin下依次执行 prepare.sh,run-aggregation.sh,run-jion.sh。

测试通过准则:

在hibench.report中输出:

测试结果:

测试结果:

时间: 2024-08-03 11:07:54

Hadoop参考设计的实现及性能:HiBench性能测试的相关文章

Hadoop参考设计的实现及性能:英业达和技嘉的实现

英业达的561.html">参考设计实现 Name Node/Second Name Node 规格: DataNode/http://www.aliyun.com/zixun/aggregation/17034.html">TaskTracker 规格: 机柜规格: 技嘉的参考设计实现 Name Node/Second Name Node 规格(共两台服务器): DataNode/TaskTracker 规格: 机柜规格: 交换机:

Hadoop参考设计的实现及性能:HBase应用性能测试方法

测试工具 YCSB 的安装 YCSB介绍:YCSB(Yahoo! Cloud Serving Benchmark)是Yahoo开源的一款通用的性能测试工具.可以用于测试多种 NoSQL 产品进行测试.相关说明可以参考 https://github.com/brianfrankcooper/YCSB/wiki. YCSB的工作原理如上图所示,主要的模块包括workload和DB Interface: Workload:通过配置文件,定义读写比例,数据的大小等DB Interface:通过接口连接并

Hadoop参考设计的实现及性能:Hadoop性能初步测试

Name Node/Second Name Node 规格(共两台服务器): DataNode/http://www.aliyun.com/zixun/aggregation/17034.html">TaskTracker 规格: 机柜规格: Hadoop 性能初步测试 基于上述所建立的Hadoop集群,使用标准测试组件进行方案验证,并使用Hadoop性能标杆套件HiBench进行性能测试. nnbench 测试目的:对NameNode的硬件及配置进行负载测试. 参数设置: maps =

Hadoop参考设计的实现及性能:Intel平台产品参考

全球范围内的IT机构正在通过数据中心虚拟化来降低成本,进而获得更高的业务价值,同时借助自动化能力来提高服务级别.效率和灵活性.基于英特尔® 至强® 处理器的服务器为实现此创新奠定了基础.这些服务器在当前虚拟化中心和云环境中的所有服务器中占绝大部分的比例,而且能够为大多数具备最高性能的工作站提供支持. 最新的英特尔® 至强® 处理器 E5-1600/2600 产品家族将这些优势提升至新的高度,其性能比上一代产品提升多至80%,而且具备更出色的能源效率.最重要的是,这些处理器还提供了许多高级技术,以

Hadoop参考设计的实现及性能:第三方产品介绍

英业达服务器产品 K800(Romley-EP)是一款基于Romley-EP平台的标准2U服务器,高http://www.aliyun.com/zixun/aggregation/17968.html">内存容量,高网络速度,多样化的SATA扩展配置,支持板载的双千兆+双万兆可选配置,满足客户多样化的需求. 最高可支持16个内存条,容量高达512GB,轻松满足客户高内存容量的需求 主板多样化选择,可支持板载单万兆,板载双万兆,板载双千兆,板载双千兆+双万兆等多款差异化配置,可满足客户的各种

Hadoop一体机参考设计的方案设计原则

Hadoop是一种高度可伸缩的大数据应用方案,能过通过少至几台多至数千台互联的服务器处理几十TB到数百PB的数据.本参考设计实现了单一机柜的Hadoop集群设计,若用户需要多于一个机柜的Hadoop集群,可以通过扩张本设计中的服务器数量及网络带宽轻松实现扩张. Hadoop方案 Hadoop一体机设计 Hadoop方案的特点 Hadoop是一个低成本和高可扩展性的大数据处理平台.Hadoop提供了一个稳定的共享存储和分析系统,存储由HDFS(分布式数据存储)来实现,数据处理由MapReduce(

Hadoop参考设计组组件及关键步骤(一)

关于Hadoop参考设计组组件及关键步骤的文章内容比较多,所以小编将Hadoop参考设计组组件及关键步骤分成三节内容向大家进行详细的介绍. 软件 操作系统:Hadoop支持任何可以运行Java环境的操作系统.在实际应用中,一般客户多会选择不同Linux发布版的64位版本.在本参考设计中我们选择了免费的企业级Linux CentOS6.3 x64版. Hadoop系统:Hadoop是基于Apache授权协议的开源软件,客户能够在免费的开源版本及商业支持版之间选择.免费的开源版本目前尚存在大量软件B

浅谈高通参考设计

高通:将4G的技术优势引入高通参考设计 类型:原创 作者:孟滨 时间:2014-05-20 10:10:15 2014年5月15日,在深圳高通公司举办高通参考设计及无线创新峰会,和超过1500名来自中国及全球的软硬件合作伙伴.媒体还有分析师分享了高通参考设计最新的发展情况还有未来如何计划.在峰会之后,美国高通技术公司产品市场高级总监鲍山泉及市场总监张云接受了采访,针对高通参考设计.全球支持计划及骁龙芯片等方面,进行了为我们更好的解读. 将4G的领先优势引入QRD 自从推出第一代高通参考设计到现在

英特尔公布微型服务器的参考设计似曾相识

如今,随着对服务器成本和高效率的要求加强,英特尔近期表示,正在寻求建立一个在服务器领域的新的类别:"microserver"(微型服务器).在今年的英特尔秋季IDF大会上,英特尔副总裁兼英特尔架构http://www.aliyun.com/zixun/aggregation/18229.html">事业部总经理Sean Maloney在9月22日在旧金山举行的英特尔开发商论坛会议上发表演讲时介绍了两种低功率版本的英特尔至强3400系列处理器.45瓦的这种处理器将在今年晚