使用E-MapReduce服务处理阿里云文件存储(NAS)的数据

简介

文件存储是阿里云今年新推出的存储服务,因为它提供标准的文件访问协议,用户无需对现有应用做任何修改,即可使用具备无限容量及性能扩展、单一命名空间、多共享、高可靠和高可用等特性的分布式文件系统。E-MapReduce服务是阿里云上的开源大数据解决方案,可以帮用户构建基于Hadoop等开源组件的大数据平台。

今天我给大家介绍一个使用场景,可以将E-MapReduce的Hadoop作业和文件存储(NAS)结合在一起,发挥分布式存储和分布式计算在一起的威力。

环境准备

第一步:按照官方文档在文件存储的管理控制台依次创建文件系统、创建挂载点、配置权限组规则。值得注意的是,如果使用经典网络环境,挂载点不提供默认权限组,且经典网络类型权限组规则授权地址只能是单个 IP 而不能是网段,所以你需要在控制台里手动添加规则。所以需要确保E-MapReduce集群里所有的节点都设置了对NAS的访问权限(读写)。

第二步:通过SSH登录E-MapReduce节点,挂载NAS。注意:master节点和worker节点都需要挂载:

sudo mkdir /mnt/nas
sudo mount -t nfs4 <nas-url>.cn-hangzhou.nas.aliyuncs.com:/ /mnt/nas

第三步:测试挂载是否生效,比如可以在Master节点上创建目录:

mkdir /mnt/nas/wc-in

并在worker节点上创建文件

touch /mnt/nas/wc-in/1.txt

确保所有节点上都能看到文件,这样NAS配置就算成功了

[hadoop@emr-header-1 ~]$ ls -l  /mnt/nas/wc-in
total 8
-rw-rw-r-- 1 hadoop hadoop 27 12月 12 10:32 1.txt
-rw-rw-r-- 1 hadoop hadoop 28 12月 12 10:32 2.txt

运行Hadoop MapReduce任务

环境准备好之后,我们就可以运行Hadoop任务,这里的例子采用了最常见的WordCount:

hadoop jar /opt/apps/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount file:///mnt/nas/wc-in file:///mnt/nas/wc-out

因为NAS就是挂载在本地的文件系统,所以可以采用Hadoop自带的处理组件,我们只需要在输入和输出目录(或文件)前面加上 file:/// 前缀,MapReduce任务就会自动定位到NAS上,处理NAS上的数据,并把结果写到NAS上。

查看结果

[hadoop@emr-worker-2 wc-out]$ cat /mnt/nas/wc-out/part-*
world   2
aliyun  2
alibaba 1
hadoop  1
hello   1
tencent 1
时间: 2024-11-01 15:16:09

使用E-MapReduce服务处理阿里云文件存储(NAS)的数据的相关文章

阿里云文件存储SMB协议服务及其申请和使用指南

阿里云于2016年发布了支持NFS网络文件系统访问协议的阿里云文件存储.2017年3月,又增加了SMB文件系统访问协议的支持,正式对外公测.本文简单描述了SMB文件存储访问协议以及阿里云SMB协议公测功能,并简单介绍了该服务的使用场景,以及公测申请和使用流程. 一.SMB文件系统访问协议简介 网络文件系统NAS(NAS-Network Area Storage),将本地的存储空间共享给其他主机使用, 通过 C/S 架构实现文件级别的共享,多个客户端计算机可以并发访问同一个文件系统.常见的 NAS

【文件存储NAS】数据迁移工具介绍及使用指南

一.简介     文件存储NAS是面向阿里云ECS.HPC.Docker等计算节点的共享文件存储服务,具备简单易用.多共享.高性能.安全等特性,目前支持NFSv3和NFSv4协议.NAS的推出极大丰富了阿里云存储产品线,为用户存储上云提供了更加多样的选择.     与其他存储产品(主要是对象存储和块存储)及自建NAS相比,阿里云文件存储NAS具备鲜明的特点: 文件存储NAS 对象存储(如OSS.七牛.S3等) 块存储(如阿里云磁盘.AWS EBS等) 自己搭建NAS 标准协议(标准NFS协议.标

阿里云文件存储和自我管理的云解决方案的TCO比较

    阿里云文件存储是一种完全托管的文件存储服务. 很多客户也会使用第三方软件搭建自我管理的云解决方案. 本文重点从总体拥有成本(TCO)的角度,对这两种文件存储服务进行比较.   使用阿里云文件存储服务的总拥有成本,是使用第三方软件的自我管理云解决方案的28.91%     阿里云文件存储架构:                                           图1: 阿里云文件存储功能块图        阿里云文件存储是基于阿里云飞天平台的分布式共享文件系统.具有高可靠.

Windows系统如何使用阿里云文件存储

     阿里云文件存储除了在Linux ECS上挂载使用之外,也可以在Windows ECS的虚拟机中进行挂载和使用.     很多客户也在询问如何进行配置和挂载,我们针对现有阿里云ECS售卖的windows的版本进行了总结和整理.     Windows7系统开启NFS客户端和配置流程: 1.  安装 NFS 客户端和管理工具 如图1进行安装NFS客户端:                                                        图1 安装NFS客户端 1

阿里云文件存储助力悦跑圈上云之成功案例

广州悦跑信息科技有限公司是一家专注于通过移动互联网应用以及跑步社交运动和线下赛事活动,为中国跑步爱好者提供全方位服务的高科技企业.截止2017年1月,旗下悦跑圈APP用户规模达3000万.   作为典型的O2O的应用,悦跑圈需要在服务器端维护海量的核心业务数据,并且需要高可用.高可靠和稳定安全的平台来存储数据.   针对以上需求,有三种方案可以从不同层面满足,分别是: 本地文件服务器.自建文件服务器和阿里云文件存储服务.   本地文件服务器方案: 需要在本地IDC中维护独立的硬件设备和文件服务的

阿里云文件存储产品说明

  背景介绍 云端存储最早的发展是在对象存储.块存储.分布式数据库等方面,在基于NFS和SMB协议的共享文件存储方面则发展缓慢.原因主要在于传统基于Posix的文件系统协议设计的过于复杂,引用计数.锁.数据冗余等要求在分布式环境中挑战较多,不利于大规模集群的scale-out.  但是传统的树形文件系统结构依然是很自然的资源组织方式,传统企业业务对NAS系统的依赖促成了云端NAS产品的发展. 以阿里云NAS为代表的云端NAS 产品是近几年出现的一个极其重要的云端服务,可以使用的商业场景主要包括企

阿里云对象存储服务OSS 学习笔记

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量.安全.低成本.高可靠的云存储服务 OSS服务先使用后付费 可以使用阿里云提供的API/SDK接口或者OSS迁移工具轻松地将海量数据移入或移出阿里云OSS.阿里云OSS服务的三种类型:1.标准类型(Standard):移动应用.大型网站.图片分享或热点音视频的主要存储方式2.低频访问类型(Infrequent Access):成本更低.存储期限更长3.归档类型(Archive):不经常访问数据的备

阿里云表格存储技术分享

  下面是之前在一个技术群里面分享的阿里云表格存储的内容,因为时间因素,只对[技术分享附件]中的少部分内容进行了分享,下面是分享内容,欢迎下载附件并就里面的内容深入交流.   接下来的内容分为几个方面,第一是背景,就是为什么要做这个东西:第二是几个使用场景,让大家有个感性的认识:第三是系统架构以及该架构如何做到高性能.高可靠.高可用:第四是一些工程经验:我也比较希望大家看看最后的附录中我对垂直和分层两大设计体系的思考,这部分我们可以做更深入的交流.     好,下面正式开始.先介绍为什么要做,大

WordPress和阿里云对象存储OSS配置教程

传统情况下,网站源码以及数据库.图片等资源都是存储在一个服务器上的.这样的配置会存在这样的尴尬问题:当网站数据越来越多的时候,就面临着存储空间不够用.升级服务器配置.访问出现卡顿等情况.而解决此问题的最好方法就是将网站.数据库以及图片等资源分开管理,存储在不同的服务器上,这样使用时只需要在主服务器上调用即可.浪子虎博客使用的就是阿里云的OSS存储服务.下面,就随着浪子虎的脚步踏入WordPress博客使用阿里云OSS存储资源的步伐吧. 1. 安装WordPress 当然,如果你连WordPres