介绍HDInsight和Azure Storage服务

我们在上一篇">博客文章中对更新的 Windows Azure HDInsight 服务进行了演练。今天这篇文章,作为介绍 HDInsight 的 5 篇博客系列中的第 3 篇,将重点介绍 HDInsight 和 Azure Storage。

Windows Azure HDInsight 服务一个值得注意且与众不同的方面在于能够选择用于存储数据的位置。您可以将数据存储在计算节点本地的本机 HDFS 文件系统中,或使用 Azure Blob Store Container作为 HDFS 文件系统来存储数据。实际上,在配置 HDInsight 群集时,它默认情况下将在您的存储帐户中创建 Azure Blob Store Container作为默认 HDFS 文件系统。

或者,您可以通过自定义创建选项创建群集,以此来选择现有的 Azure Blob Store Container 作为默认 HDFS 文件系统。例如,在该屏幕截图中,您可以看到如何将名称为“netflix”的 Blob Store Container 指定为默认文件系统。

该Container 之前可能已配置为 HDInsight HDFS 文件系统,或者它可能是恰巧包含您要分析的数据的任意 Azure Blob Store Container!

在我们的案例中,netflix Container包含三个使用文件夹命名方案的 Blob:

使用 Azure Storage Container 的益处

尽管存储Container不在计算节点的本地,因此似乎有悖于将计算与存储归置在一起的 Hadoop 范例,但在 Azure Blob Store 容器中存储数据还是有多种益处:
- 数据重复使用和共享:计算节点内部的数据被“锁定”在 HDFS API 之后。这意味着只有能检测到 HDFS 并且有权访问计算群集的应用程序可以使用这些数据。Azure Storage Container中的数据既可通过 HDFS API,也可通过 Azure Blob Store REST API 进行访问。因此,可使用更大的一组应用程序和工具来生成和使用数据,并且不同应用程序生成数据的同时,其他应用程序可以使用这些数据。
- 数据归档:由于计算节点内部的数据的存续期限与您配置的HDInsight 群集的存续期限相同,因此您必须使群集的存续期限超出计算时间,或者在每次配置群集来执行计算时都必须将数据重新加载到群集中。在 Azure Storage Container中,您可以将数据存储任意长的时间。
- 数据存储成本:将数据长期存储在活动的 HDInsight 群集中的成本高于将数据存储在 Azure Storage Container中的成本,因为计算群集的成本高于 Azure Blob Store Container的成本。此外,由于生成每个计算群集时不必重新加载数据,从而可节省数据加载成本。
- 灵活伸缩:尽管 HDInsight 群集提供有伸缩功能的文件系统,但可伸缩的容量由您为群集配置的节点数决定。更改可伸缩的容量可能会成为一个比较复杂的过程,而通过使用 Azure Storage Container自动获得 Azure Blob Store 灵活伸缩功能则会简单得多。

- 地理区域复制:通过 Azure 门户可对 Azure Blob Store Container进行地理区域复制!尽管这可实现地理区域恢复和数据冗余,但为了恢复故障将数据复制到其他地理区域将大大影响您的系统性能并可能产生额外的成本。因此我们建议仅在数据的价值值得花费额外成本时才明智地选择地理区域复制。
此外,不将计算和存储归置在一起所暗含的性能成本实际上可通过将计算群集配置在靠近 Azure 数据中心内的存储帐户资源的方式来减少,Azure 数据中心中的高速网络使计算节点可以非常高效地访问 ASV 中的数据。在常规加载、计算和访问模式下,我们仅观察到轻微的性能降级,并且通常具有更快的访问速度!
还请注意,由于不必在每次配置HDInsight 群集时都将数据重新加载到文件系统,因此可以节省数据加载时间和数据移动费用!

时间: 2024-11-05 18:40:07

介绍HDInsight和Azure Storage服务的相关文章

Azure Services Platform Step by Step 九 Windows Azure Storage概览

在本系列的第一篇[Azure Services Platform Step by Step-第1篇]INTRODUCING THE AZURE SERVICES PLATFORM里就介绍过了,Azure Services Platform包括4个部分.其中,Windows Azure是支撑整个微软云平台(Azure Services Platform)的基础.换句话说,Windows Azure是"云平台的操作系统",它提供了云平台最基本.最重要的服务. Windows Azure由两

Microsoft Azure Storage架构分析

Microsoft云存储服务分为两个部分,SQL Azure和Azure Storage.云存储系统的可扩展性和功能不可兼得,必须牺牲一定的关系数据库功能换取可扩展性.Microsoft实现云存储的思路有两种: 1.做减法.SQL Azure直接在原有的SQL Server上引入分布式的因素,在满足一定可扩展性的前提下尽可能不牺牲原有的关系型数据库功能.SQL Azure的可扩展性是有限的,单个SQL Azure实例不允许超过50GB,这是因为SQL Azure不支持子表动态分裂,单个SQL A

Windows Azure Storage概览

本文讲的是Windows Azure Storage概览,[IT168 资讯]Windows Azure由两个重要部分构成: 虚拟化计算服务(提供基于VM主机.在上一篇里已经示范过它.) 各种数据存储服务.即本文要介绍的Windows Azure Storage. Windows Azure Storage可以让程序员存储他们想存储的任何数据.按照"云计算"的概念,数据一旦存储到"云"中,就永远不会丢失,程序员可以在任何时候.从任何终端和任何地方获取任意大小的数据.

在Windows phone中使用Windows Azure Storage Blob来存放图片

前面一片文章介绍了如何在Windows Store应用中如何使用Azure Blob存储.实际上,该文章的大部分内容对Windows Phone应用也适用.但是由于部分API在两个平台有不同,步骤和示例代码在Windows Phone上需要做一定的修改.为了便于大家学习,在这篇文章中,我就专门来介绍如何在Windows Phone应用中使用Windows Azure Storage Blob来存放图片,文档等二进制大型对象: 一.安装Azure Storage客户端库 理论上,您可以直接使用RE

在Windows store中使用Windows Azure Storage Blob来存放图片

随着Windows Azure在中国的落地,原来许多需要自己维护服务器才能完成的工作我们都可以交给Windows Azure来完成,而且更经济更方便.在下面这篇文章中,我们就一步一步的来介绍如何在Windows store应用中使用Windows Azure Storage Blob来存放图片,文档等二进制大型对象: 一.安装Azure Storage客户端库 理论上,您可以直接使用REST API来访问Azure Storage.但是在实践中这样实现需要完成大量代码.为了能够在windows

Azure Blob Storage 基本用法 -- Azure Storage 之 Blob

Azure Storage 是微软 Azure 云提供的云端存储解决方案,当前支持的存储类型有 Blob.Queue.File 和 Table. 笔者在<Azure Table storage 基本用法>一文中,介绍了 Table Storage 的基本用法,本文将通过 C# 代码介绍 Blob Storage 的主要使用方法. 文章来源:葡萄城产品技术社区 Blob Storage 是什么? Azure Blob Storage 是用来存放大量的像文本.图片.视频等非结构化数据的存储服务.我

Azure File Storage 基本用法 -- Azure Storage 之 File

Azure Storage 是微软 Azure 云提供的云端存储解决方案,当前支持的存储类型有 Blob.Queue.File 和 Table. 笔者在<Azure Blob Storage 基本用法>中介绍了 Blob Storage 的基本用法,本文将介绍 File Storage 的主要使用方法. File Storage 是什么? Azure File Storage 是一个通过 Server Message Block (SMB) 协议提供云端文件共享的服务.通过 File Stor

Azure Table storage 基本用法 -- Azure Storage 之 Table

Azure Storage 是微软 Azure 云提供的云端存储解决方案,当前支持的存储类型有 Blob.Queue.File 和 Table,其中的 Table 就是本文的主角 Azure Table storage. Azure Table storage 是一个在云端存储结构化 NoSQL 数据的服务,它不仅存取速度快,而且效费比高.MSDN 上的说法是:成本显著低于传统 SQL! 笔者最近在项目中用 Table storage 实现了一个日志表,在此和大家分享一下 Table stora

使用Windows Azure Storage–Table Service处理Session对象

前一篇文章介绍了在 Windows http://www.aliyun.com/zixun/aggregation/13357.html">Azure 存储器服务中,使用「Blob储存服务」来储存档案,这一篇要介绍的是 Windows Azure 存储器服务的另一个储存服务 --「Table 储存服务」.Table 储存服务是 Windows Azure 上提供的一种 NoSQL 数据储存服务,它可以用来储存多种格式的资料,并且以键值(key)来存取数据,这篇文章将以实作处理 PHP Se