在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用

为了能让你迅速上手使用HDInsight,本教程将向您介绍如何运行一个查询Hive提取的Hadoop集群,从非结构化数据的有意义的信息。然后,你将分析结果在Microsoft Excel中。

注意:
如果你是新的Hadoop和大数据,你可以阅读更多有关条款的Apache HadoopMapReduceHDFSHive。要了解HDInsight如何使Hadoop的在Azure中,看HDInsight

Hadoop的介绍

在与Azure中HDInsight全面上市的同时,微软还提供了HDInsight仿真器Azure中,以前称为Microsoft HDInsight开发者预览版。该仿真器的开发目标方案,并只支持单节

点部署。对于使用HDInsight模拟器,请参阅开始使用HDInsight模拟器

注意:
有关如何提供一个HBase的集群的说明,请参见HDInsight提供HBase的集群。看到什么是Hadoop和HBase的区别?要明白相比其他来说你为什么会选择这个。

 

这个教程怎么做到的?

假设你有一个大的非结构化数据集,并想要运行的查询就可以提取一些有意义的信息。这正是我们要做到在本教程中。下面是我们如何做到这一点:


您还可以观看本教程的演示视频:http://www.youtube.com/embed/v=Y4aNjnoeaHA?list=PLDrz-Fkcb9WWdY-Yp6D4fTC1ll_3lU-QS

先决条件:

 

开始之前本教程中,您必须具备以下条件:
•一个Azure订阅。有关获取订阅的详细信息,请参阅购买选择权会员优惠免费试用
•计算机与Office2013专业增强版,Office 365的Pro Plus中时,Excel2013单机版或Office2010专业增强版。

预计时间完成:30分钟

在本教程
•创建一个Azure存储帐户
•提供一个HDInsight集群
•从门户网站运行样本
•运行HIVE工作
•下一步

 

创建Azure存储帐户

HDInsight使用Azure中Blob存储来存储数据。这就是所谓的WASB或Azure存储 - 的Blob。 WASB是HDFS的在Azure Blob存储Microsoft的实现。欲了解更多信息,请参阅使用

Azure中Blob存储与HDInsight

当你提供一个HDInsight群集,则指定Azure存储账户。从该帐户的具体的Blob存储容器被指定为默认文件系统,就像在HDFS。该HDInsight群集是默认配置的,在同一个数

据中心作为指定的存储帐户。

除了这个存储账号,你可以添加额外的存储帐户,当你自定义配置HDInsight群集。这个额外的存储帐户可以是从同一Azure订阅或不同Azure中订阅。有关说明,请参阅使

用自定义选项提供HDInsight集群

为了简化本教程中,只有默认的blob容器和默认的存储帐户的使用。在实践中,数据文件通常存储在一个指定的存储帐户。

要创建一个Azure存储帐户

1.Sign到Azure管理门户
2。点击左下角,点数据服务,指向存储新建,然后单击快速创建。


3。输入网址,位置和复制,然后单击创建存储帐户。不支持的亲和性基团。你会看到列表存储在新的存储帐户。
注意:
快速创建选项,以提供一个HDInsight群集,就像我们在本教程中使用的,不会要求一个位置,同时置备集群。相反,它由缺省共同定位在集群中的同一个数据中心的存储

账户。因此,请确保您的支持群集的位置,这是创建存储账户:东亚,东南亚,北欧,西欧,美东,美西,北环美,南环美。
4。等到新的存储帐户的状态更改为联机。
5。从列表中选择新的存储帐户,然后从页面底部的管理访问密钥。
6。记下存储帐户的名称和主访问密钥(或次访问键。任一按键工作)。在后面的教程中,您将需要他们。
欲了解更多信息,请参阅如何创建一个存储帐户使用Azure中 Blob存储与HDInsight

提供的HDInsight群集

当你提供一个HDInsight群集时,提供Azure计算资源,包含Hadoop和相关应用。在本节中,你提供一个HDInsight群集的版本3.1,这是基于Hadoop的2.4版本。您还可以创

建Hadoop集群使用Azure中门户网站,HDInsight PowerShell命令,或HDInsight.NET SDK的其他版本。有关说明,请参阅使用自定义选项提供HDInsight集群。有关不同

HDInsight版本和他们的SLA信息,请参阅HDInsight组件版本页面。
注意:
本文中的步骤创建一个使用基本配置设置的HDInsight群集。对于其他群集的配置设置,如使用Azure中虚拟网络或metastore为Hive和Oozie的信息,请参阅提供一个

HDInsight群集

为了提供一个HDInsight集群

1。登录到Azure管理门户
2。点击左侧HDInsight列出群集在您的帐户的状态。在下面的截图中,有没有现成的HDInsight集群。

 

3.Click新的左下侧,点击数据服务,单击HDInsight,然后单击Hadoop的。

 

 

 

4.输入或选择以下值:

 

 

Name名称 Value值
Cluster Name集群名称 Name of the cluster 集群的名称
Cluster Size集群大小
Number of data nodes you want to deploy. The default value is 4. But the option to use 1 or 2 data nodes is also available from the drop-down. Any number of cluster nodes can be specified by using the Custom Create option. Pricing details on the billing rates for various cluster sizes are available. Click the ? symbol just above the dropdown box and follow the link on the pop up.

你想要的数据节点的数量进行部署。默认值是4,但使用1个或2个数据节点的选项也可从下拉。任何数量的群集节点可以通过使用自定义创建选项来指定。可对不同的簇大小的结算利率定价细节。点击?只是符号下拉框上方,并按照弹出的链接。

Password密码
The password for the admin account. The cluster user name "admin" is specified when you are not using the Custom Create option. Note that this is NOT the Windows Administrator account for the VMs on which the clusters are provisioned. The account name can be changed by using the Custom Create wizard.

密码为admin帐户。当您不使用自定义创建选项的集群用户名“admin”指定。请注意,这不是在该群集配置的虚拟机中的Windows管理员帐户。帐户名可以通过使用自定义创建向导来改变。

Storage Account存储账号
Select the storage account you created from the dropdown box.
Once a storage account is chosen, it cannot be changed. If the storage account is removed, the cluster will no longer be available for use. The HDInsight cluster is co-located in the same datacenter as the storage account.

选择从下拉框中创建的存储帐户。
 一旦一个存储帐户被选择,它不能被改变。如果存储帐户被移除时,群集将不再可用。的HDInsight群集共同位于同一数据中心的存储账户。

保持群集名称的副本。以后在教程中你会需要它的。

 5.Click创建HDInsight群集。当配置完成后,状态列显示了运行。
注意:
以上步骤创建集群HDInsight群集的版本3.1。要创建其他集群的版本,使用的管理门户自定义create方法,还是使用Azure中的PowerShell。关于什么是每个群集的版本之

间的不同的信息,看看有什么新的HDInsight所提供的集群版本?有关使用自定义的信息来创建选项,请参阅使用自定义选项提供HDInsight集群

 

 从门户网站运行简单实例

一个成功设置HDInsight集群提供了一个查询控制台直接从门户网站上运行的示例。您可以使用样本来学习如何使用HDInsight通过一些基本的情况下行走工作。这些样品都具有所有必需的组件,如数据来分析和查询中的数据运行。

要运行示例,从Azure管理门户中,单击要运行该示例,然后单击查询控制台从页面底部的群集名称。从打开的网页中,单击入门画廊选项卡,然后在样本类别中,单击要运行该示例。按照网页上的说明完成示例。为了更多地了解每个样品呢,下面请单击链接。

Sample示例 What does it do?它做了什么?

Sensor data analysis

传感器数据分析


Learn how to use HDInsight to process historical data produced by heating, ventilation, and air conditioning (HVAC) systems to identify systems that are not able to reliably maintain a set temperature

学习如何使用HDInsight处理由加热,通风和空调(HVAC)系统中产生的,以确定系统的历史数据是不能够可靠地维持在设定温度


Website log analysis

网站日志分析


Learn how to use HDInsight to analyze website log files to get insight into the frequency of visits to the website in a day from external websites, and a summary of website errors that the users experience

学习如何使用HDInsight分析网站日志文件可了解在从外部网站每天访问该网站的次数,以及网站错误的摘要,该用户的经验

请从门户HIVE查询

现在,你有一个配置的HDInsight集群,下一步是运行Hive作业查询Hive样表,hivesampletable,附带HDInsight集群。该表包含关于移动设备制造商,平台和模型数据。我们查询该表由特定制造商来获取用于移动设备的数据。

若要从集群中仪表板上的Hive工作
1.Sign到Azure管理门户
2.Click HDINSIGHT从左侧窗格中。您将看到创建群集的列表,包括你刚才在上一节中创建的。
要运行Hive作业,然后单击查询CONSOLE从页面底部3.Click群集名称。
4。
它不同的浏览器选项卡上打开一个网页。进入Hadoop的用户帐户和密码。默认的用户名是admin;密码是同时置备集群是你进入。仪表盘是这样的:

有顶部的几个标签。默认选项卡是Hive编辑器,而其他选项卡作业历史记录和文件浏览器。使用仪表板,您可以提交Hive查询,查询Hadoop的作业日志和浏览WASB文件。

注意:

注意,在Web页的URL是<集群名称>.azurehdinsight.net。因此,而不是从管理门户打开仪表盘,还可以打开使用该URL的Web浏览器的仪表板。

5.On的Hive编辑器选项卡中,查询名称,输入HTC20。查询名称的职务。

6.In查询窗格中,输入以下查询:

 

SELECT * FROM hivesampletable
    WHERE devicemake LIKE "HTC%"
    LIMIT 20;

 

 

7.单击提交。这需要一些时间来找回结果。在屏幕的刷新间隔为30秒。您也可以点击刷新来刷新屏幕。

一旦完成,该屏幕是这样的:

8.点击屏幕上的查询名称,查看输出。记作业开始时间(UTC)。以后你会需要它。

该页面还显示了作业输出和作业日志。您也可以下载输出文件(_stdout)和日志文件(_stderr)的选项。

注意:

在Hive编辑器选项卡中列出了完成或只要你留在该选项卡上运行的作业的作业会话表。如果您离开该页面表没有列出任何工作。作业历史记录选项卡中保存的所有作业,已完成或正在运行的列表。

浏览到该输出文件
1.从群集面板,单击文件浏览器顶部。
2.Click您的存储帐户名称,单击容器名称(这是相同的群集名称),然后单击用户。
3。
单击管理,然后单击它有最后修改时间的工作后,一点点开始时间你刚才记下的GUID。记下此GUID的。您将需要在接下来的一节。

连接到Microsoft商业智能工具

您可以使用电源的查询加载项以Microsoft Excel中从HDInsight导入作业输出到Excel中,在Microsoft商业智能(BI)工具,可以用来进一步分析结果。

您必须具有的Excel2010或2013安装来完成这部分的教程。

 

下载Microsoft电力查询为Excel

•从Microsoft下载微软功率查询为Microsoft Excel中心下载并安装它。

 

导入HDInsight数据

1.  打开Excel,并创建一个新的空白工作簿。
2。单击Power查询菜单上,单击自其他来源,然后单击来自Azure中HDInsight。

3。请输入您的集群相关的Azure中Blob存储帐户的帐户名称,然后单击确定。这是您在本教程前面创建的存储帐户。

4。输入在Azure Blob存储帐户的帐户密钥,然后单击保存。

5。在右侧的导航窗格中,双击BLOB存储容器名称。默认情况下,容器名称是相同的名称群集名称。

6。在名称列中找到标准输出。验证GUID在相应的文件夹路径列匹配你刚才记下的GUID。一场比赛表明,输出数据对应于您提交的作业。点击stdout上的左侧二进制。

7。单击关闭负载在左上角的Hive作业输出导入到Excel中。

接下来的步骤

在本教程中,你已经学会了如何提供与HDInsight群集,在其上运行一个MapReduce工作,并且将结果导入到Excel中,他们可以进一步加工,并使用BI工具图形化显示。要了解更多信息,请参阅以下文章:
 

开始使用HDInsight模拟器
使用Azure中 Blob存储与HDInsight
管理HDInsight使用PowerShell
上传数据到HDInsight
使用的MapReduce与HDInsight
使用Hive与HDInsight
使用Pig与HDInsight
使用了Oozie与HDInsight
HDInsight C#Hadoop的流媒体程序
HDInsight Java的MapReduce程序

本文翻译自Microsoft Azure官网:http://azure.microsoft.com/en-us/documentation/articles/hdinsight-get-started/

-->-->

时间: 2024-11-05 02:17:22

在HDInsight中开始使用Hadoop与Hive来分析移动手机使用的相关文章

在HDInsight中的Hadoop介绍

在HDInsight中的Hadoop介绍 概览 Azure的HDInsight是,部署和规定的ApacheHadoop集群在云中,提供用于管理,分析和大数据报告软件框架中的服务. 大数据 数据被描述为"大数据",以表明它被收集在以往升级卷,以越来越高的速度,并为一个扩大各种非结构化格式和可变语义语境.大数据的收集并不对企业自身提供的价值. 对于大数据在可操作智能或洞察力的形式提供价值,不仅要正确的问题问及相关的问题,数据收集,数据必须可以访问,清洗,分析,然后在一个有用的方式呈现,常与

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析

在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析   低成本的Blob存储是一个强大的,通用的Hadoop兼容Azure存储解决方案无缝集成HDInsight.通过Hadoop分布式文件系统(HDFS)接口,完整的组件集合在HDInsight可以 在Blob存储数据的直接操作.在本教程中,学习如何建立一个容器的Blob存储,然后在里面处理的数据. 在BLOB存储中存储的数据能够用于计算的HDInsight集群被安全地删除,而不会丢失用户数据. 注意: 该ASV://语法中不

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍

计算下微软Windows Azure HDInsight中Hadoop和HBase的成本和省钱秘籍 计算: 以一个最简单Hadoop集群来计算,需要两个头节点(Namenode)和两个数据节点(Datanode)以及3个Zookeeper结点,这样算下来每小时要5.44+2.72*2+0*3=10.88RMB,每天需要10.88*24=261.12RMB,每个月需要261.12*30=7833.6RMB,这是最低配置!   如果我们还需要HBase,那么最低配置7833.6+(5.44+2.72

[文档]基于Hadoop/Hive的web日志分析系统的设计

基于Hadoop/Hive的web日志分析系统的设计 刘永增,张晓景,李先毅 利用Hadoop.Hive设计了一个用于处理web日志分析的系统,既充分利用了Hadoop的海量数据处理的能力,又降低了开发的难度.通过与单机实验的对比,证明系统是有效的和有价值的. 关键词:web日志:云计算:Hadoop:Hive [下载地址]http://bbs.chinacloud.cn/showtopic-12968.aspx

flume学习(六):使用hive来分析flume收集的日志数据

前面已经讲过如何将log4j的日志输出到指定的hdfs目录,我们前面的指定目录为/flume/events. 如果想用hive来分析采集来的日志,我们可以将/flume/events下面的日志数据都load到hive中的表当中去. 如果了解hive的load data原理的话,还有一种更简便的方式,可以省去load data这一步,就是直接将sink1.hdfs.path指定为hive表的目录. 下面我将详细描述具体的操作步骤. 我们还是从需求驱动来讲解,前面我们采集的数据,都是接口的访问日志数

hadoop源码怎么分析呢

问题描述 hadoop源码怎么分析呢 本人想分析下hadoop源码,请问怎么开始分析呢,推荐书或者方法吧. 解决方案 目前市场上书推荐的话 就看看 hadoop技术内幕吧 一共三卷,其他的书 感觉不太爽,华章的书籍,算不错吧, 书中分析了源码 不过是1.0 版本的. 根据书 分析起来比较快. 学习下并发编程是很不错的,有利于自己编码能力的提高,

基于Hadoop的化合物生物活性分析系统

基于Hadoop的化合物生物活性分析系统 李杰辉,张亮,陈健,南蓬 通过药物虚拟筛选,发现在具有生物活性化合物过程中,存在小分子结构相似性比较计算繁杂等问题.为此,结合MapReduce模型,提出一种基于Hadoop 的并行计算模型处理方法,并通过Hadoop 工具予以实现.同时根据Hadoop 分区算法不均匀.容错功能存在重复计算等问题对该方法进行改进.实验结果表明,该方法平均加速效率达到0.91,具有较好的可靠性和扩展性. 关键词:生物活性:生物信息学:并行计算:可扩展性:数据库:Hadoo

C语言中的数组和指针汇编代码分析实例

  这篇文章主要介绍了C语言中的数组和指针汇编代码分析实例,本文用一则C语言例子来得到对应的汇编代码,并一一注解每句汇编代码的含义,需要的朋友可以参考下 今天看<程序员面试宝典>时偶然看到讲数组和指针的存取效率,闲着无聊,就自己写了段小代码,简单分析一下C语言背后的汇编,可能很多人只注重C语言,但在实际应用当中,当出现问题时,有时候还是通过分析汇编代码能够解决问题.本文只是为初学者,大牛可以飘过~ C源代码如下: 代码如下: #include "stdafx.h" int

javascript中Array数组的迭代方法实例分析

这篇文章主要介绍了javascript中Array数组的迭代方法,实例分析了Array数组的迭代方法定义与使用技巧,需要的朋友可以参考下 本文实例讲述了javascript迭代的方法.分享给大家供大家参考.具体实现方法如下: 代码如下: //filter() 利用指定的函数确定是否返回数组中包涵的某一项 var num = [1,2,3,4,5,6,12]; num.filter(function(item, index, array){ return (item > 2); //[3, 4,