Azure HDInsight将支持Hadoop 2.4效能提升100倍

2014 年 6 月 3 日,">Azure HDInsight 公开了一项更新消息,Azure HDInsight 将支持 Hadoop 2.4,并提升查询数据的效能 100 倍。而今天,我们宣布在 HDInsight 产品中,开始预览 Apache HBase 丛集(cluster)。

HBase 是一个低延迟的 NoSQL 数据库,适合用来做大数据的在线事务处理(OLTP, online transactional processing)。我们在 Azure 中提供 HBase 丛集,而丛集的数据直接储存于 Azure Blob 之中,如此一来便能在成本及效能的考虑上,取得最大的存取效能以及扩充弹性。这个产品让我们的客户能拥有一个大型数据库来建立高互动性的网站、或是储存从百万个传感器回传的遥测数据等等,并且能在 Hadoop 中分析这些数据。

如何建立 HBase 丛集

由于目前 Azure HDInsight 上的 HBase 还在预览阶段,所以操作上需要利用 PowerShell。

安装为 Azure 环境优化的 PowerShell

按照文章步骤设定环境

利用下列指令将 Azure 的认证数据存在变量中:

PS C:\> $creds = Get-Credential

建立 HBase 丛集(可根据需求修改数据中心位置,以及修改 Blob 账号的数据):

PS C:\> New-AzureHDInsightCluster -Name yourclustername -ClusterType HBase -Version 3.0 -Location “West US” ` -DefaultStorageAccountName yourstorageaccount.blob.core.windows.net -DefaultStorageAccountKey “yourstorageaccountkey” ` -DefaultStorageContainerName hbasecontainername -Credential $creds -ClusterSizeInNodes 4

在 HBase 丛集中操作数据

应用程序开发人员可以透过 REST APIs 、HBase shell 或是不同的 map/reduce 工具如 Hive 及 Pig 来存取 HBase 的数据,HBase shell 提供了一个交互式的控制台(console)让您可以管理 HBase 丛集、建立或删除数据表(table)、以及操作数据。

要使用 HBase shell,首先您必须开启建立的 HBase 丛集的远程桌面联机(RDP)来连上它。

在丛集建立完成时,你可以在 Azure 管理接口上设定(CONFIGURATION)的页面中,在最下方按下 ENABLE REMOTE 的按钮来开启 RDP,最后可以利用 CONNECT 按钮来进行联机。

连结进丛集后,按下桌面上 Hadoop command prompt的快捷方式,然后输入下列指令来开启 HBase shell:

cd %HBASE_HOME%\bin

hbase shell

下面的指令则是建立一个范例数据表,并且加入一列数据、以及列出数据表的所有数据:

create ‘sampletable’, ‘cf1′

put ‘sampletable’, ‘row1′, ‘cf1:col1′, ‘value1′

scan ‘sampletable’

时间: 2024-09-10 19:57:19

Azure HDInsight将支持Hadoop 2.4效能提升100倍的相关文章

Windows Azure HDInsight现在支持使用预览版Hadoop 2.2群集

继去年 10 月推出 Windows http://www.aliyun.com/zixun/aggregation/13357.html">Azure HDInsight 之后,我们宣布 Windows Azure HDInsight 现在支持使用预览版 Hadoop 2.2 群集. Windows Azure HDInsight 是 Microsoft 在Windows Azure 部署的完全基于 Apache Hadoop 的解决方案.Hadoop 是一个分布式存储和处理平台,可对大

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍 计算: 以一个最简单Hadoop集群来计算,需要两个头节点(Namenode)和两个数据节点(Datanode)以及3个Zookeeper结点,这样算下来每小时要5.44+2.72*2+0*3=10.88RMB,每天需要10.88*24=261.12RMB,每个月需要261.12*30=7833.6RMB,这是最低配置!   如果我们还需要HBase,那么最低配置7833.6+(5.44+2.72

在HDInsight中的Hadoop介绍

在HDInsight中的Hadoop介绍 概览 Azure的HDInsight是,部署和规定的ApacheHadoop集群在云中,提供用于管理,分析和大数据报告软件框架中的服务. 大数据 数据被描述为"大数据",以表明它被收集在以往升级卷,以越来越高的速度,并为一个扩大各种非结构化格式和可变语义语境.大数据的收集并不对企业自身提供的价值. 对于大数据在可操作智能或洞察力的形式提供价值,不仅要正确的问题问及相关的问题,数据收集,数据必须可以访问,清洗,分析,然后在一个有用的方式呈现,常与

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析   低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不

HDInsight如何创建Hadoop集群

HDInsight如何创建Hadoop集群   带大家一起看下微软Azure云中的Hadoop集群创建,首先你必须先创建个存储账号,然后新建Hadoop集群/HBase/Storm,等待21分钟左右,一个Hadoop集群就创建完成了,看图:                           转载请注明出处:http://blog.csdn.net/yangzhenping, 谢谢!

Alibaba Cloud E-MapReduce vs AWS EMR vs. Azure HDInsight

Big Data is among the biggest IT trends of the last five years. The idea behind this trend is that given a sufficiently large volume of data, it is possible to derive crucial business insights that could not be discovered through other methods. Of co

方法-ADO.NET classes in .NET 2.0/3.5在windows azure不被支持?

问题描述 ADO.NET classes in .NET 2.0/3.5在windows azure不被支持? ADO.NET classes in .NET 2.0 / 3.5哪个在windows azure不被支持?为保证我的程序在windows azure兼容,对于这些版本需要做哪些处理方法 解决方案 您好, 1.Azure website现在支持的是3.5和4.5,如果您要发布在Azure website上,建议您最好升级下您的版本. 2.如果您要发布在Azure VM上,则这个问题不需

azure-Windows Azure 国内版支持缓存么?

问题描述 Windows Azure 国内版支持缓存么? windows azure 国内版本的支持在云服务中启用一个CacheRole么? 解决方案 山寨版azure目前不支持cacherole 解决方案二: Hi, 目前中国版Azure中我们可以使用Windows Azure Caching来提供缓存服务,你可以建立专门的角色实例来提供Cache服务.,详细请参考:http://www.windowsazure.cn/zh-cn/develop/net/how-to-guides/cache

相比x86,Isilon支持Hadoop有五大优势

提到Isilon,第一印象是它的OneFS操作系统,在群集存储系统中地位超然.当2010年Isilon被EMC收入囊中时,业内预估其销售肯定将有爆发式增长.4年的时间,Isilon不负众望,"实现从几百万到十亿美元销售",EMCIsilon存储部门副总裁兼首席技术官Nick Kirsc如此表示. EMC Isilon存储部门副总裁兼首席技术官Nick Kirsc 在上一篇文章<EMC 2014存储布局及十大新技术要点>中,详细介绍了EMC"IT与Business,