使用E-MapReduce服务处理阿里云文件存储（NAS）的数据

简介

文件存储是阿里云今年新推出的存储服务，因为它提供标准的文件访问协议，用户无需对现有应用做任何修改，即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案，可以帮用户构建基于Hadoop等开源组件的大数据平台。

今天我给大家介绍一个使用场景，可以将E-MapReduce的Hadoop作业和文件存储（NAS）结合在一起，发挥分布式存储和分布式计算在一起的威力。

环境准备

第一步：按照官方文档在文件存储的管理控制台依次创建文件系统、创建挂载点、配置权限组规则。值得注意的是，如果使用经典网络环境，挂载点不提供默认权限组，且经典网络类型权限组规则授权地址只能是单个 IP 而不能是网段，所以你需要在控制台里手动添加规则。所以需要确保E-MapReduce集群里所有的节点都设置了对NAS的访问权限（读写）。

第二步：通过SSH登录E-MapReduce节点，挂载NAS。注意：master节点和worker节点都需要挂载：

sudo mkdir /mnt/nas
sudo mount -t nfs4 <nas-url>.cn-hangzhou.nas.aliyuncs.com:/ /mnt/nas

第三步：测试挂载是否生效，比如可以在Master节点上创建目录：

mkdir /mnt/nas/wc-in

并在worker节点上创建文件

touch /mnt/nas/wc-in/1.txt

确保所有节点上都能看到文件，这样NAS配置就算成功了

[hadoop@emr-header-1 ~]$ ls -l  /mnt/nas/wc-in
total 8
-rw-rw-r-- 1 hadoop hadoop 27 12月 12 10:32 1.txt
-rw-rw-r-- 1 hadoop hadoop 28 12月 12 10:32 2.txt

运行Hadoop MapReduce任务

环境准备好之后，我们就可以运行Hadoop任务，这里的例子采用了最常见的WordCount：

hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount file:///mnt/nas/wc-in file:///mnt/nas/wc-out

因为NAS就是挂载在本地的文件系统，所以可以采用Hadoop自带的处理组件，我们只需要在输入和输出目录（或文件）前面加上 file:/// 前缀，MapReduce任务就会自动定位到NAS上，处理NAS上的数据，并把结果写到NAS上。

查看结果

[hadoop@emr-worker-2 wc-out]$ cat /mnt/nas/wc-out/part-*
world   2
aliyun  2
alibaba 1
hadoop  1
hello   1
tencent 1

时间： 2024-11-01 15:16:09

使用E-MapReduce服务处理阿里云文件存储（NAS）的数据的相关文章

阿里云文件存储SMB协议服务及其申请和使用指南

阿里云于2016年发布了支持NFS网络文件系统访问协议的阿里云文件存储.2017年3月,又增加了SMB文件系统访问协议的支持,正式对外公测.本文简单描述了SMB文件存储访问协议以及阿里云SMB协议公测功能,并简单介绍了该服务的使用场景,以及公测申请和使用流程. 一.SMB文件系统访问协议简介网络文件系统NAS(NAS-Network Area Storage),将本地的存储空间共享给其他主机使用, 通过 C/S 架构实现文件级别的共享,多个客户端计算机可以并发访问同一个文件系统.常见的 NAS

【文件存储NAS】数据迁移工具介绍及使用指南

一.简介文件存储NAS是面向阿里云ECS.HPC.Docker等计算节点的共享文件存储服务,具备简单易用.多共享.高性能.安全等特性,目前支持NFSv3和NFSv4协议.NAS的推出极大丰富了阿里云存储产品线,为用户存储上云提供了更加多样的选择. 与其他存储产品(主要是对象存储和块存储)及自建NAS相比,阿里云文件存储NAS具备鲜明的特点: 文件存储NAS 对象存储(如OSS.七牛.S3等) 块存储(如阿里云磁盘.AWS EBS等) 自己搭建NAS 标准协议(标准NFS协议.标

阿里云文件存储和自我管理的云解决方案的TCO比较

阿里云文件存储是一种完全托管的文件存储服务. 很多客户也会使用第三方软件搭建自我管理的云解决方案. 本文重点从总体拥有成本(TCO)的角度,对这两种文件存储服务进行比较. 使用阿里云文件存储服务的总拥有成本,是使用第三方软件的自我管理云解决方案的28.91% 阿里云文件存储架构: 图1: 阿里云文件存储功能块图阿里云文件存储是基于阿里云飞天平台的分布式共享文件系统.具有高可靠.

Windows系统如何使用阿里云文件存储

阿里云文件存储除了在Linux ECS上挂载使用之外,也可以在Windows ECS的虚拟机中进行挂载和使用. 很多客户也在询问如何进行配置和挂载,我们针对现有阿里云ECS售卖的windows的版本进行了总结和整理. Windows7系统开启NFS客户端和配置流程: 1. 安装 NFS 客户端和管理工具如图1进行安装NFS客户端: 图1 安装NFS客户端 1

阿里云文件存储助力悦跑圈上云之成功案例

广州悦跑信息科技有限公司是一家专注于通过移动互联网应用以及跑步社交运动和线下赛事活动,为中国跑步爱好者提供全方位服务的高科技企业.截止2017年1月,旗下悦跑圈APP用户规模达3000万. 作为典型的O2O的应用,悦跑圈需要在服务器端维护海量的核心业务数据,并且需要高可用.高可靠和稳定安全的平台来存储数据. 针对以上需求,有三种方案可以从不同层面满足,分别是: 本地文件服务器.自建文件服务器和阿里云文件存储服务. 本地文件服务器方案: 需要在本地IDC中维护独立的硬件设备和文件服务的

阿里云文件存储产品说明

背景介绍云端存储最早的发展是在对象存储.块存储.分布式数据库等方面,在基于NFS和SMB协议的共享文件存储方面则发展缓慢.原因主要在于传统基于Posix的文件系统协议设计的过于复杂,引用计数.锁.数据冗余等要求在分布式环境中挑战较多,不利于大规模集群的scale-out. 但是传统的树形文件系统结构依然是很自然的资源组织方式,传统企业业务对NAS系统的依赖促成了云端NAS产品的发展. 以阿里云NAS为代表的云端NAS 产品是近几年出现的一个极其重要的云端服务,可以使用的商业场景主要包括企

阿里云对象存储服务OSS 学习笔记

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量.安全.低成本.高可靠的云存储服务 OSS服务先使用后付费可以使用阿里云提供的API/SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS.阿里云OSS服务的三种类型:1.标准类型(Standard):移动应用.大型网站.图片分享或热点音视频的主要存储方式2.低频访问类型(Infrequent Access):成本更低.存储期限更长3.归档类型(Archive):不经常访问数据的备

阿里云表格存储技术分享

下面是之前在一个技术群里面分享的阿里云表格存储的内容,因为时间因素,只对[技术分享附件]中的少部分内容进行了分享,下面是分享内容,欢迎下载附件并就里面的内容深入交流. 接下来的内容分为几个方面,第一是背景,就是为什么要做这个东西:第二是几个使用场景,让大家有个感性的认识:第三是系统架构以及该架构如何做到高性能.高可靠.高可用:第四是一些工程经验:我也比较希望大家看看最后的附录中我对垂直和分层两大设计体系的思考,这部分我们可以做更深入的交流. 好,下面正式开始.先介绍为什么要做,大

WordPress和阿里云对象存储OSS配置教程

传统情况下,网站源码以及数据库.图片等资源都是存储在一个服务器上的.这样的配置会存在这样的尴尬问题:当网站数据越来越多的时候,就面临着存储空间不够用.升级服务器配置.访问出现卡顿等情况.而解决此问题的最好方法就是将网站.数据库以及图片等资源分开管理,存储在不同的服务器上,这样使用时只需要在主服务器上调用即可.浪子虎博客使用的就是阿里云的OSS存储服务.下面,就随着浪子虎的脚步踏入WordPress博客使用阿里云OSS存储资源的步伐吧. 1. 安装WordPress 当然,如果你连WordPres

猜你喜欢

Windows 2008下VPN网络连接设置方法

不少移动办公人士常常出差在外,在这种情形下,如果需要经常访问单位局域网中的重要内容时,该如何进行呢?也许有人会毫不犹豫地说,通过远程拨号访问连接就能轻松实现随心所欲访问单位局域网的目的:话虽如此,不过 ...

asp无组件文件上传，效率的关键

上传|无组件前两天写了服务器端下载文件到客户端的例子,有朋友发邮件过来说想讨论一下上传文件的效率.下面是个人的一点看法,朋友们可以用msn:Johntan2212@hotmail.com 或者访问 ...

JSP中的TagLib应用(1)--zt

js JSP中的TagLib应用(1) 作者:False / aspcn '################################################# '备注:本文所描述的任何 ...

Windows 7中五种方法打开“我的电脑”

现在用Win7电脑已经成为一种趋势,办公室到处是Win7电脑,开学新生大多数也都购买的是Win7电脑,可能主要原因还不仅是因为Win7电脑价格实惠,个性时尚,更重要的是Win7电脑简单好用,稳定可靠. ...

Delphi2007新功能-有限的栈对象

通过实验,答案是肯定的!这使我感到很兴奋,因为Delphi从诞生之日起,就限定了只能继承于TObject的堆对象,必须通过Create和Free来建立和销毁一个对象,而不能使用栈对象.而栈对象的好处就 ...

PS修复偏灰多斑的人物像

图片有点偏灰,人物脸部的肤色缺少质感.处理的时候需要逐步增亮,同时还需要修复脸部的斑点和杂色.教程中用了一种非常实用的祛斑方法,双曲线法.这种方法操作起来简单,效果非常完美. 原图 <点小图查看 ...

Photoshop 鼠绘MP5全过程

本教程利用颜色.光源.材质等颜色差异和光源制作鼠绘作品,教程用到大量的不透明度.高斯模糊处理出光源效果,添加杂色来制作枪的特殊材质.由于步骤繁多,请自备干粮.水--废话少说,先看最终效果图. 1. ...

powerpoint中怎么修改撤销次数

powerpoint撤销功能键:Ctrl+Z 1.先打开ppt文档,打开之后我们单击右上角"Microsoft Office"图标,单击之后会下拉选项,在下拉的选项里我们单击& ...

WPS自动取消网址超链接方法

WPS很智能很强大,但是有时候智能这种东西只会给我们拖后腿.在WPS中,我们输入任意一个网址,就会自动转换成超链接的形式,可是万一我们要是不想用超链接怎么办呢? 今天系统之家小编就为大家介绍一下如 ...

网友讲解作品蓝色精灵的调整方法

蓝色精灵发表后有很多摄友问是如何调出来的,下面我将调试的方法做一简单陈述,第一次写这种东西,不知是否能讲清楚.希望能给朋友们一个思路吧. 1.打开照片,复制图层,对图层进行降躁处理后再复制一层. ...

d3dx9

d3dx9_33.dll是DirectX 9.0里面的一个动态连结库文件. 动态链接库(Dynamic Link Library或者Dynamic-link library,缩写为d3dx9_33.d ...

在电脑上禁止U盘启动的策略

在电脑上禁止U盘启动的策略: 方法一: 1.首先是BIOS里设置,我们一般开机按DEL或F2进入BIOS里,选择Integrated Peripherals. 2.进入Integrated Per ...

《Web前端开发精品课 HTML与CSS进阶教程》——2.6　其他语义化

2.6 其他语义化 2.6.1 换行符< br /> 很多新手会使用< br />标签来换行,或者使用多个< br />标签来实现元素之间的上下间距. 举例1: & ...

360搜索到底怎么样了？

近期原来360旗下的"好搜"又被其悄悄的更换为原来的"360搜索",老周以往不论做什么事几乎都是高举高打,而此次360搜索品牌名变更的如此大事,却没有亲自放出声 ...

flv视频如何播放

问题描述小弟对FLASH不太了解但想在页面中放一个和优播一样的播放器.然后连续播放几段FLV视频不知道这个要怎么做.而且如果更新视频?IE的缓存设置对它有没有影响?另外能通过程序在上传时直接转码吗 ...

swing-关于JTable渲染器Renderer的问题，求高手解答！！！！

问题描述关于JTable渲染器Renderer的问题,求高手解答!!!! public class MyButtonRender implements TableCellRenderer { pri ...

使用powercharts时，如何将图表和数据表导出为PDF

问题描述使用powercharts时,如何将图表和数据表导出为PDF 解决方案解决方案二:目前为止powercharts提供的导出功能仅适用于导出图表,无法导出图表所包含的页面内容.建议你借助于P ...

JQuery 实现页面无刷新

原文:JQuery 实现页面无刷新对于JQuery实现页面无刷新的效果,即:应用这个JQuery这个组件,可以实现在页面上加载数据库中的数据信息,但是并没有给用户页面刷新的感觉,这样既可 ...

MYSQL 调优和使用必读

MYSQL 应该是最流行了 WEB 后端数据库.WEB 开发语言最近发展很快,PHP, Ruby, Python, Java 各有特点,虽然 NOSQL 最近越來越多的被提到,但是相信大部分架构师还是 ...

sysbench测试

1.cpu性能测试 sysbench --test=cpu --cpu-max-prime=20000 run 2.线程测试 sysbench --test=threads --num-threads ...

shibboleth idp-shibboleth IDP SP配置并和CAS集成

问题描述 shibboleth IDP SP配置并和CAS集成统一身份认证需要接入Office365和Exchange 客户要求使用SAML协议接入.后来采用shibboleth 来做认证和身份提供 ...

socket-数据采集器与数据中心之间采用TCP连接方式进行交互问题

问题描述数据采集器与数据中心之间采用TCP连接方式进行交互问题各位,麻烦会的哥们指导一下.我的qq:574148104 刚接触各方面知识,现在搞不懂怎么将xml数据流通过socket进行封包(有包 ...

上传问题

问题描述错误提示argumenttypemismatch<html:formaction="polity"method="post"enctype=&q ...

独家专访 | 微软郑宇：这个时代不缺数据，缺得是不够开放的思维

作为人群聚集区,城市是一个天然的数据集中池. 社交媒体.交通流量.气象.地理等多种大数据都在这里汇聚,物联网.传感器的发展,也让这些数据得以被追踪存储.当这些时空数据集被组合起来,并与人工智能结合,这 ...

ASP操作Excel技术总结_ASP基础

目录一. 环境配置二. ASP对Excel的基本操作三. ASP操作Excel生成数据表四. ASP操作Excel生成Chart图五. 服务器端Excel文件浏览.下载.删除方案 ...

手机-android解锁屏幕后使用keyguardManager查看锁状态依然为true

问题描述 android解锁屏幕后使用keyguardManager查看锁状态依然为true 使用KeyguardLock.disableKeyguard()方法解锁手机后,手机可以正常使用,但用ke ...

串口操作的數据接收問題

问题描述我用C#做的串口通信,在循環測試的時候,接收有問題.例如:發送100次字符串"nihao",接受端兩次就把字符串接收完畢(數量和字符串都是正確的),正常情況是100次接收 ...

机器学习-如何去除图像人脸上的条纹噪声，如图所示

问题描述如何去除图像人脸上的条纹噪声,如图所示可以利用ml或者dip的技术,大家有什么想法? 帮忙看看,本人这领域新手,初步想法是opencv检测人脸区域,在进行中值滤波,但是感觉眉毛会被滤除掉, ...

涉嫌非法生产奶粉，重新灌装并私自更改生产日期和保质期

奶粉品牌美素丽儿的进口商玺乐丽尔进出口(苏州)有限公司,在只有食品流通许可证,而不具备食品生产许可证的情况下,涉嫌非法生产奶粉,重新灌装并私自更改生产日期和保质期. <每日经济新闻>记者注 ...

hdu 3695 Computer Virus on Planet Pandora （没过+TLE）

/* hdu 3695 TLE 题 */ #include<iostream> #include<cstdio> #include<cstring> #includ ...

热搜