Hadoop参考设计的实现及性能：HBase应用性能测试方法

测试工具 YCSB 的安装

YCSB介绍：YCSB（Yahoo! Cloud Serving Benchmark）是Yahoo开源的一款通用的性能测试工具。可以用于测试多种 NoSQL 产品进行测试。相关说明可以参考 https://github.com/brianfrankcooper/YCSB/wiki.

YCSB的工作原理如上图所示，主要的模块包括workload和DB Interface：

Workload：通过配置文件，定义读写比例，数据的大小等DB Interface：通过接口连接并操作各种Cloud Serving Store，也就是各种NoSQL产品包括HBase在内。在运行YCSB的时候，可以配置不同的workload和DB interface，同时可以定义线程数等其他参数。

安装方式一：直接下载已经编译过的程序包

下载地址：https://github.com/downloads/brianfrankcooper/YCSB/ycsb-0.1.4.tar.gz

解压：tar xfvz ycsb-0.1.4

这种方式简单易用。但对于不同的HBase版本，可能会有问题。需要手工编译安装。

安装方式二：源码编译安装

从github下载源码：git clone https://github.com/brianfrankcooper/YCSB.git

配置相应的HBase的版本：修改YCSB/pom.xml，更新hbase.version这个属性。

编译：cd YCSB, mvn install

生成YCSB的程序包：distribution/target/ ycsb-0.1.4.tar.gz

解压：tar xfvz ycsb-0.1.4

1. 测试步骤

a) 配置HBase连接和classpath

最简单的办法是将HBase Server的配置文件{$HBase_home}/conf/hbase-site.xml直接拷贝到YCSB的目录{$YCSB_HOME}/hbase-binding/conf。

将HBase的jar文件拷贝到{$YCSB_HOME} /hbase-binding/lib，这样当执行ycsb命令时，可以保证所需的jar在classpath上。

b) YCSB命令简介

直接执行ycsb命令，可以看到用法的介绍，主要有3类的参数：

Commands：执行什么命令，load-加载数据，run-运行测试，shell-交互模式；

Databases：使用什么DB Interface；

Options：包括属性参数和线程参数。

https://github.com/brianfrankcooper/YCSB/wiki/Core-Properties

参考以上的链接，可以发现workload的核心属性参数。

c) 加载数据

bin/ycsb load hbase -P workloads/workloada -p columnfamily=f1 -p recordcount=10000 -s -threads 10

向HBase Server下的usertable，f1插入10000条数据，并将执行的情况打印到屏幕上。对于HBase数据库，数据是以字节码数组byte[]的方式进行读取，对于不同的数据源，无论是车牌号这种String类型的，还是电子图片这种Binary类型的，在从HBase数据库读取的时候都是以byte[]类型，不同的是数组的长度。

对于一个“京K12345”的车牌，它的长度是8位，对于一个5M左右的图片，它的长度是2326122。我们可以通过workload的核心属性fieldlength来设置。

d) 性能测试

YCSB自带有6中workload配置文件，模拟不同的压力场景

以上是workloadc的内容，模拟的是100% read操作的场景。

bin/ycsb run hbase -P workloads/workloadc -p columnfamily=f1 -s -threads 10

根据workloadc来进行性能测试。

2. 对工具的定制开发和扩展

以上的介绍都是基于YCSB的自带功能。在有些情况下，我们需要扩展和定制测试的方法，YCSB是开源的纯JAVA的解决方案，可以充分满足特殊的要求。下面分析一下YCSB的相关JAVA Class。

a) Workload的定义： com.yahoo.ycsb.workloads.CoreWorkload

b) HBase DB Interface的定义：com.yahoo.ycsb.db.HBaseClient

c) 数据生成器Generator：com.yahoo.ycsb.generator.*

d) YCSB的主程序：com.yahoo.ycsb.Clien

压力测试参数与说明

测试分成两部分，小数据表和大数据表。所谓的大小表示单条记录的大小，测试中，小数据表的单条记录大小为8Byte，大数据表的单条记录大小为2MB。通过YCSB数据库测试工具，我们对数据库的各种操作进行了压力测试，包括read, insert, update, scan以及read-modify-write。这些测试反映了hadoop hbase的性能，同时也对实际应用的操作

进行了模拟。

操作说明：

Read：读取某一条记录。速度和系统的io速率有关，系统读取速率越快，read速率越快。

Insert：插入一条记录。速度和系统的io速率有关，系统写入速率越快，read速率越快。

Update：更新一条记录，本质和insert操作相同。

Scan：扫描整个表，速率由读取速率和整个表的大小有关，表越大，单次scan速率越慢。

测试环境：

硬件：

软件：

*注：除非文中特别标注，其他参数均采用 Apache Hadoop 英特尔分发版 2.3 的缺省参数。

YCSB对Apache Hadoop*英特尔分发版测试结果

在以下测试中，我们通过设置不同的线程数，让YCSB客户端模拟不同的压力情况。

时间： 2024-11-05 16:22:47

Hadoop参考设计的实现及性能：HBase应用性能测试方法的相关文章

Hadoop参考设计的实现及性能：英业达和技嘉的实现

英业达的561.html">参考设计实现 Name Node/Second Name Node 规格: DataNode/http://www.aliyun.com/zixun/aggregation/17034.html">TaskTracker 规格: 机柜规格: 技嘉的参考设计实现 Name Node/Second Name Node 规格(共两台服务器): DataNode/TaskTracker 规格: 机柜规格: 交换机:

Hadoop参考设计的实现及性能：Intel平台产品参考

全球范围内的IT机构正在通过数据中心虚拟化来降低成本,进而获得更高的业务价值,同时借助自动化能力来提高服务级别.效率和灵活性.基于英特尔® 至强® 处理器的服务器为实现此创新奠定了基础.这些服务器在当前虚拟化中心和云环境中的所有服务器中占绝大部分的比例,而且能够为大多数具备最高性能的工作站提供支持. 最新的英特尔® 至强® 处理器 E5-1600/2600 产品家族将这些优势提升至新的高度,其性能比上一代产品提升多至80%,而且具备更出色的能源效率.最重要的是,这些处理器还提供了许多高级技术,以

Hadoop参考设计的实现及性能：HiBench性能测试

该工具在业界引起巨大反响.总结该成果的发表论文The HiBench benchmark suite: Characterization of the MapReduce-based data analysis[]被广泛引用,仅国际权威学术期刊http://www.aliyun.com/zixun/aggregation/14477.html">IEEE上发表的引用它的论文就有7篇之多.Intel已将该工具的源代码提交给Apache,社区反映相当热烈. IEEE论文链接 http://ie

Hadoop参考设计的实现及性能：Hadoop性能初步测试

Name Node/Second Name Node 规格(共两台服务器): DataNode/http://www.aliyun.com/zixun/aggregation/17034.html">TaskTracker 规格: 机柜规格: Hadoop 性能初步测试基于上述所建立的Hadoop集群,使用标准测试组件进行方案验证,并使用Hadoop性能标杆套件HiBench进行性能测试. nnbench 测试目的:对NameNode的硬件及配置进行负载测试. 参数设置: maps =

Hadoop参考设计的实现及性能：第三方产品介绍

英业达服务器产品 K800(Romley-EP)是一款基于Romley-EP平台的标准2U服务器,高http://www.aliyun.com/zixun/aggregation/17968.html">内存容量,高网络速度,多样化的SATA扩展配置,支持板载的双千兆+双万兆可选配置,满足客户多样化的需求. 最高可支持16个内存条,容量高达512GB,轻松满足客户高内存容量的需求主板多样化选择,可支持板载单万兆,板载双万兆,板载双千兆,板载双千兆+双万兆等多款差异化配置,可满足客户的各种

Hadoop一体机参考设计的方案设计原则

Hadoop是一种高度可伸缩的大数据应用方案,能过通过少至几台多至数千台互联的服务器处理几十TB到数百PB的数据.本参考设计实现了单一机柜的Hadoop集群设计,若用户需要多于一个机柜的Hadoop集群,可以通过扩张本设计中的服务器数量及网络带宽轻松实现扩张. Hadoop方案 Hadoop一体机设计 Hadoop方案的特点 Hadoop是一个低成本和高可扩展性的大数据处理平台.Hadoop提供了一个稳定的共享存储和分析系统,存储由HDFS(分布式数据存储)来实现,数据处理由MapReduce(

Hadoop一体机参考设计的实现案例：网新易得Radoop统一计算平台

在目前的信息化社会,越来越多的非结构化和http://www.aliyun.com/zixun/aggregation/13667.html">半结构化数据出现,导致数据量已有原来的TB级别增加到了PB级别.原先单一的关系型数据库也相较原先出现了性能方面的瓶颈.为了应对以上的挑战您需要一种解决方案,它既可以满足高性价比和高可靠性的大容量存储的需求又能利用分布式计算框架和数据库的来解决原有关系型数据库的瓶颈,那网新易得的Radoop解决方案就是您最好的选择! 高价值: 网新易得Radoop设

Hadoop参考设计组组件及关键步骤(一)

关于Hadoop参考设计组组件及关键步骤的文章内容比较多,所以小编将Hadoop参考设计组组件及关键步骤分成三节内容向大家进行详细的介绍. 软件操作系统:Hadoop支持任何可以运行Java环境的操作系统.在实际应用中,一般客户多会选择不同Linux发布版的64位版本.在本参考设计中我们选择了免费的企业级Linux CentOS6.3 x64版. Hadoop系统:Hadoop是基于Apache授权协议的开源软件,客户能够在免费的开源版本及商业支持版之间选择.免费的开源版本目前尚存在大量软件B

Hadoop学习笔记（四）：HBase

HBase是在一个HDFS上开发的面向列的分布式数据库.HBase不是关系型数据库,不支持SQL. HTable一些基本概念 Row key 行主键, HBase不支持条件查询和Order by等查询,读取记录只能按Row key(及其range)或全表扫描,因此Row key需要根据业务来设计以利用其存储排序特性(Table按Row key字典序排序如1,10,100,11,2)提高性能. Column Family(列族) 在表创建时声明,每个Column Family为一个存储单元.在上例

猜你喜欢

动态代理DynamicProxy 介绍

我们使用动态代理,主要是因为动态代理拥有这样的能力--使得某个类型A在运行的时候能转化为一个指定的接口I,即使这个类型A在定义的时候并没有从这个指定的接口I继承.这句话是什么意思了?还是回到当泛型的参 ...

百度小偷:去除竞价与广告

功用如题. 重写规则和Wordpress一致. 兼容IIS.Apache.Nginx. 只有一个文件实现所有功能. <?php if(isset($_GET['wd'])){ ...

利用Thunk让C++成员函数变回调函数

Windows API经常需要回调函数,而在C++开发中面向对象当行其道,若能让C++类的成员函数成为回调函数,简直就是大善!但是C++成员函数都隐含了一个this指针用于指向当前的对象.要实现回调确 ...

PS制作漂亮的亡灵勇士文字效果教程

PS制作漂亮的亡灵勇士文字效果教程注:更多请关注photoshop教程栏目,三联PS教程群:181754111欢迎你的加入分类: PS文字教程

js 金额格式化来回转换示例

这篇文章主要介绍了js 金额格式化来回转换实现,需要的朋友可以参考下直接看例子啦: 代码如下: function fmoney(s, n) //s:传入的float数字 ,n:希望返回小数点几位 ...

ps出现操作错误后快速还原的方法

方法/步骤如果只是错误了几步方法一: 1.找到标题栏的编辑 2.打开编辑,里面有"后退一步",点击一次即可回退一步,点击直到退到错误前一步就可以完成操作了. 方法二: 直接 ...

win8.1上输入方式难以装备该咋办

很多升级到win8.1系统的用户安装必应输入法最新版本的时候会出现提示:系统自带输入法已是最新版本的微软拼音输入法,无须安装微软必应输入法.请点击'确定'退出安装.这个问题表面看上去比较复杂,实际 ...

新浪微博微彩票如何进行银行转账？

到银行柜台转账或网上转账给爱彩票对公帐户,转帐后请及时通知客服办理资金入账.客服电话:400-6688-848;暂不支持ATM转账汇款方式;注意:周六.周日汇款,周一到账(如遇法定节假日则顺延).

笔记本一直充电好不好？

笔记本一直充电好不好? 大家平时在使用笔记本电脑时,是一直连接电源的,还是等电池用完了再连接电源呢?大伙都知道笔记本电脑都是配置了电池的,以供在外随时可以使用.记得以前,曾看到有的人 ...

avd-创建AVD时修改android版本

问题描述创建AVD时修改android版本在Eclipse中创建android工程,选择的android4.2.2版本.现在创建AVD时,不能选择CPU/ABI,因为系统没有为这一目标安装图片. ...

hibernate映射问题

问题描述本人对于hibernate还不是很熟,一下问题请各位大侠勿喷有个问题请教,如果A实体映射到A表,我现在只是把A实体中的某个映射字段删除而不删除A表中的对应字段,这样映射就不成功了? 解决方案 ...

IIS8如何安装和使用URL重写工具-URL Rewrite

原文:IIS8如何安装和使用URL重写工具-URL Rewrite 下载和安装URL Rewrite IIS8默认是没有安装URL重写工具的,必须要自己下载安装. 如果IIS上默认有安装Web平台安装 ...

每日Ubuntu小技巧-更改Samba工作组和计算机名

这是另一个Ubuntu的新用户问的最多的问题.这个问题的答案很简单,但当你接触新事物时,你需要时间来完全理解它. 这是我们前几天收到的问题: 如何更改Samba的工作组名和Ubuntu的计算机名称? ...

有用的Magento Collection函数

There are different important functions that you can implement in your Collection object. The functi ...

js调用母页的.ocx插件

问题描述 js调用母页的.ocx插件我现在有页面A,里面放了一个插件,然后A里打开模式窗体B,在B页面用页面A的插件没有问题,但是A里面的插件有触发事件<br> GetCallInfo ...

多路选通器-模拟多路选择器对通过的信号频率有没有限制？

问题描述模拟多路选择器对通过的信号频率有没有限制? 如题:模拟多路选择器对通过的信号频率有没有限制? 现在的信号频率是100M到800M,选通频率在200Hz左右,有什么合适的多路选通器么? 解决方 ...

如何在C++里做出google earth里的导航面板

问题描述如题,已经用c++.OpenGL做了一个可以浏览一个地球的简单三维场景,可以用键盘控制视点旋转.平移等,现在想在界面上加一个类似googleearth里的导航面板放在场景视图的拐角,用鼠标控 ...

JAVA 多层zip压缩包里文件的读取

问题描述一个文件在两个压缩包下面怎么读取啊?如:E:\001.zip\111.zip,001压缩包里有一个111压缩包,不解压读取111压缩包的里文件,能读取里面的文件名就行,求大神帮忙!谢谢! 解 ...

大数据：大机遇还是大忽悠？

"大数据"似乎在一夜之间闯入了任何一个关于互联网未来的讨论,成为一个炙手可热无所不包的概念.但它是否真如许多IT行家们所言,将成为信息技术领域又一片蕴藏无限潜能的处女 ...

飞信怎么隐身？飞信隐身设置方法

1)在手机中我们先登录迷你飞信,然后点击右边的"..." 在下载菜单中我们点击"设置" 点击进入 2)然后进入到设置列表中我们找到"飞信详细设置& ...

详解jQuery Mobile自定义标签_jquery

本文实例讲解了jQuery Mobile自定义标签,分享给大家供大家参考,具体内容如下规划产品国际化的需求时,涉及到PC Web,移动Web,和各app.设计了多个版本的移动Web均不理想. 由于移 ...

PL/SQL实现Oracle数据库任务调度_oracle

正在看的ORACLE教程是:PL/SQL实现Oracle数据库任务调度.摘要:本文主要就数据库恢复与系统任务的调度,在结合一般性的数据库后台处理的经验上,提出较为实用而新颖的解决方法,拓宽了数据库后台 ...

apache实现http重定向到https

老谢目前做了一个新站,全站采用https协议访问,所以需要http重定向到https,只需要在.htaccess加入下面规则既可: 代码如下复制代码 RewriteEngine On Rewrit ...

案例分享：康诺云——医疗大数据里的学问

康诺云是一家致力于在医疗大数据领域创业的初创公司.通过给用户提供http://www.aliyun.com/zixun/aggregation/12034.html">可穿戴式设备,连 ...

有没有winform里面的文本编辑器，例如文本编辑器FCKeditor的使用？

问题描述有谁有这样的例子.小弟急用,谢谢啦,能不能发到我的邮箱里,marlies@yeah.net 解决方案解决方案二:RichTextBox解决方案三:FCKEditor不是网页编辑器么..解决 ...

《Adobe Illustrator CC经典教程》—第0课0.9节使用图层

0.9 使用图层Adobe Illustrator CC经典教程使用图层能够更简单有效地组织和选择画板.下面将通过使用图层面板来组织自己的画板. 注意:更多关于图层使用的信息,请参阅第8课.1 选择& ...

Hulu李彬：看到不一样的视频网站，所遇挑战何尝不是一次革新的机会？

Hulu软件技术开发有限公司(以下简称Hulu)是美国三大电视网NBC.福克斯.迪斯尼合力在2007年建立的在线视频服务网站,主要目的是使传统媒体业务转型成数字新媒体,能够让更多的用户通过互联网上的不 ...

ico jpg-c++如何将后缀为ico转成jpg图片

问题描述 c++如何将后缀为ico转成jpg图片用c++程序如何将后缀为ico转成jpg图片,让图片可以插入到word中. 解决方案转换的话可以用CImage类,在Load之后.直接save的时候 ...

传谷歌全力开发音乐库将购买数千万美元版权

北京时间12月16日早间消息,一位熟知内情的消息人士证实,谷歌在开发音乐服务之路上进展良好,并透露谷歌正准备向唱片公司支付数千万美元,来让这些公司与谷歌音乐服务签约. 消息人士称,就目前而言,谷歌正集 ...

如何设置值类型为dateOnly?

问题描述如何设置值类型为dateOnly?我看到在appointment类型的文档里有这个值:FieldName:RepeatUntilDataType:Time/DateDataLength:8b ...

热搜