Hadoop文件系统访问的两种方式

在这里记录下学习hadoop 的过程，并对重要内容记录下来，以备以后查漏补缺。

要从Hadoop文件系统中读取文件，一般有两种方式：

1.使用java.net.URL对象

package com.ytu.chapter3;

import java.io.IOException;
import java.io.InputStream;
import java.net.MalformedURLException;
import java.net.URL;

import org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import org.apache.hadoop.io.IOUtils;

public class URLCat {
	static {
		URL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());
	}
	public static void main(String[] args) {
		InputStream input = null;

		try {
			input = new URL("hdfs://localhost:9000/user/liujiacai/build.xml").openStream();
			IOUtils.copyBytes(input, System.out, 4096, false);
		} catch (MalformedURLException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		} finally {
			IOUtils.closeStream(input);
		}

	}
}

这种方式需要让Java识别Hadoop文件系统的URL方案，就是通过一个FsUrlStreamHandlerFactory实例来调用URL中的setURLStreamHandlerFactory方法。这种方法在一个java虚拟机中只被调用一次，所以一般放在static块中。这个限制意味着如果程序的其他部件设置了一个URLStreamHandlerFactory，我们便无法再从Hadoop中读取数据了。

这需要是我第二种方法。

2.使用FileSystemAPI读取数据

在命令行中，我们可以和使用linux系统命令一样来操作hdfs系统。

hadoop fs -ls /

这个命令可以查看根目录下的文件，如果想要递归查看，参数改为 -lsr 即可

如果想知道更多的帮助可以用以下命令：

hadoop fs -help ls

可以得到ls的用法提示。

这里重点讲解用hadoop api操作hdfs文件系统。

通过调用FileSystem.get(Configuration conf)工厂方法可以得到FileSystem的实例。

Configuration class is a special class for holding key/value configuration parameters.

Configuration对象封装了一个客户端或者服务器的配置，这是用从类路径对去而来的配置文件（如conf/core-site.xml）来设置。

public static FileSystem get(Configuraion conf) throws IOException

这个静态方法返回的是默认文件系统(在conf/core-site.xml中设置，如果没有设置过，则是默认的本地文件系统)。

我们可以这样得到HDFS文件系统：

Configuration conf = new Configuration();
FileSystem hdfs = FileSystem.get(conf);

我们可以这样得到本地文件系统

FileSystem local = FileSystem.getLocal(conf);

在hadoop文件api中，我们用Path对象来编码文件名和文件夹名，用FileStatus对象来存储文件与文件夹的元信息(metadata)

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class PutMerge {

	public static void main(String[] args) throws IOException {
		Configuration conf = new Configuration();
		FileSystem hdfs = FileSystem.get(conf);
		FileSystem local = FileSystem.getLocal(conf);

		Path inputDir = new Path(args[0]);
		Path outputDir = new Path(args[1]);

		FileStatus[] inputFiles = local.listStatus(inputDir);

		//FSDataOutputStream是Java标准库java.io.DataOutputSteam的子类，同时增加了随机访问的功能
		FSDataOutputStream out = hdfs.create(outputDir);

		for (int i = 0; i < inputFiles.length; i++) {
			System.out.println(inputFiles[i].getPath().getName());
			FSDataInputStream in = local.open(inputFiles[i].getPath());//默认4K为缓冲区大小
			byte[] buffer = new byte[256];
			int bytesRead = 0;
			while((bytesRead = in.read(buffer))>0) {
				out.write(buffer,0,bytesRead);
			}
			in.close();
		}
		out.close();
	}

}

上面这个完整的程序完成的功能是：把本地的一个文件夹中的文件再上传到hdfs文件系统时将它们合并。

除此之外FileSystem类也有诸如delete(),exists(),mkdirs(),rename()等方法。

FSDataInputStream不是标准的java.io类，这个类是java.io.DataInputStream的一个子类，支持随机访问，这样就可以从流的任意位置读取数据了。

public class FSDataInputStream extends DataInputStream
    implements Seekable, PositionedReadable, Closeable

上面是它的签名，Seekable接口允许在文件中定位，并提供一个查询方式，用于查询当前位置相对于文件开始位置的偏移量。

public interface Seekable {
  /**
   * Seek to the given offset from the start of the file.
   * The next read() will be from that location.  Can't
   * seek past the end of the file.
   */
  void seek(long pos) throws IOException;

  /**
   * Return the current offset from the start of the file
   */
  long getPos() throws IOException;

  /**
   * Seeks a different copy of the data.  Returns true if
   * found a new source, false otherwise.
   */
  boolean seekToNewSource(long targetPos) throws IOException;
}

调用seek方法来定位大于文件长度的位置会导致IOException异常。与java.io.InputStream中的skip()方法不同，seek()并没有指出数据流当前位置之后的一点，他可以转移到文件中任何一个位置。

应用程序员并不常用seekToNewSource方法。此方法一般倾向于切换到数据的另一个副本并在新的副本中寻找targetPos指定的位置。HDFS内部就采用这种方式在数据节点故障时为客户端提供可靠的数据流。

FsDataInputStream也实现了PositionedReadable接口

public interface PositionedReadable {
  /**
   * Read upto the specified number of bytes, from a given
   * position within a file, and return the number of bytes read. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public int read(long position, byte[] buffer, int offset, int length)
    throws IOException;

  /**
   * Read the specified number of bytes, from a given
   * position within a file. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public void readFully(long position, byte[] buffer, int offset, int length)
    throws IOException;

  /**
   * Read number of bytes equalt to the length of the buffer, from a given
   * position within a file. This does not
   * change the current offset of a file, and is thread-safe.
   */
  public void readFully(long position, byte[] buffer) throws IOException;
}

这个接口内的方法都会保留文件当前位置并且是线程安全的，因此他们提供了在读取文件的主要部分时访问其他部分的便利方法。

最后务必记住：seek方法是一个相对高开销的操作，需要慎重使用。

时间： 2025-01-20 13:45:19

Hadoop文件系统访问的两种方式的相关文章

javascript面向对象之访问对象属性的两种方式分析_javascript技巧

本文实例分析了javascript面向对象之访问对象属性的两种方式.分享给大家供大家参考.具体如下: javascript面向对象的访问对象属性的两种方式.如下代码所示: 复制代码代码如下: <script language="javascript" type="text/javascript"> function Person(){}; var p1 = new Person(); p1.name="王美人"; document.

FTP文件传输协议两种方式的工作原理

FTP是一种文件传输协议,它支持两种模式,一种方式叫做Standard (也就是 Active,主动方式),一种是 Passive (也就是PASV,被动方式). Standard模式 FTP的客户端发送 PORT 命令到FTP server.Passive模式FTP的客户端发送 PASV命令到 FTP Server. 下面介绍一个这两种方式的工作原理: Standard模式 FTP 客户端首先和FTP Server的TCP 21端口建立连接,通过这个通道发送命令,客户端需要接收数据的时候在这个

oracle中dblink创建的两种方式

当用户要跨本地数据库,访问另外一个数据库表中的数据时,本地数据库中必须创建了远程数据库的dblink,通过dblink本地数据库可以像访问本地数据库一样访问远程数据库表中的数据.下面讲介绍如何在本地数据库中创建dblink. 创建dblink一般有两种方式,不过在创建dblink之前用户必须有创建dblink的权限.想知道有关dblink的权限,以sys用户登录到本地数据库: select * from user_sys_privs t where t.privilege like upper(

Flume直接到SparkStreaming的两种方式

Flume直接到SparkStreaming的两种方式,一般是flume->kafka->SparkStreaming,如果非要从Flume直接将数据输送到SparkStreaming里面有两种方式,如下: 第一种:Push推送的方式程序如下: package cn.lijie import org.apache.log4j.Level import org.apache.spark.streaming.flume.FlumeUtils import org.apache.spark.str

SqlServer2008 数据库同步的两种方式(Sql JOB)

原文:SqlServer2008 数据库同步的两种方式(Sql JOB) 数据库同步是一种比较常用的功能.以下结合我自己的体会整理的,如果有理解不完全或者有误的地方望大牛不理赐教.下面介绍的就是数据库同步的两种方式: 1.SQL JOB的方式 sql Job的方式同步数据库就是通过SQL语句,将一个数据源中的数据同步到目标数据库中.特点是它可以灵活的通过SQL的方式进行数据库之间的同步操作.可以在制定的时间时间作为任务计划自动执行.缺点是需要写SQL来进行操作.既然是数据库之间的同步就涉及

不停止MySQL服务增加从库的两种方式

现在生产环境MySQL数据库是一主一从,由于业务量访问不断增大,故再增加一台从库.前提是不能影响线上业务使用,也就是说不能重启MySQL服务,为了避免出现其他情况,选择在网站访问量低峰期时间段操作. 一般在线增加从库有两种方式,一种是通过mysqldump备份主库,恢复到从库,mysqldump是逻辑备份,数据量大时,备份速度会很慢,锁表的时间也会很长.另一种是通过xtrabackup工具备份主库,恢复到从库,xtrabackup是物理备份,备份速度快,不锁表.为什么不锁表?因为自身会监控主

免遭勒索软件侵害必备技能之：两种方式解除恶意密码加密

系统被黑只是时间问题?即使如此还是有办法来延缓勒索软件的攻击.我们在第一部分<免遭勒索软件侵害必备技能之:换位思考>中介绍,对于盛行的勒索软件,你需要换位思考:如果病毒感染了用户的计算机,它会在什么账号下发作?是用户的域帐户?本地管理员的帐户,还是系统帐户和网络帐户?专家TREVOR POTT给出了自己的答案. 本文为第二部分,更多专家将介绍防止Windows用户数据被恶意加密的两种方式以及企业级PowerShell环境对勒索软件产生的影响. 勒索软件体现出恶意软件对企业级IT领域不断变化的威

不停止 MySQL 服务增加从库的两种方式

二维数组的认识及其表示元素的两种方式

/* ============================================================================ Name : TeatArr.c Author : lf Version : Copyright : Your copyright notice Description : 二维数组的认识以及其表示元素的两种方式备注说明 1 要理解二维数组的存储方式. 2 实际上利用a[i][j]的方式并不"正统",但这靠近我们的常识一些,

猜你喜欢

第十七节 HTML样式

一个网页页面或一个站点中,会有不少地方要用到相同的几个文本格式.每次重复这几个格式会很麻烦,于是把这些格式做成一个html样式,每次只需使用一次这个样式即可. 点击Laucher面板上左起第三个图标, ...

解析网站有权重却没有流量的原因

站长对网站权重及流量是比较重视的.很多seoer知道,利用站长工具对网站综合查询,流量跟权重是成正比.网站关键词排名高,带来的流量会很大,从而使得权重值也高.流量跟权重的比例如下:百度流量1~100, ...

结合百度与搜狗竞也说腾讯效果推广

笔者早几日参加了长沙腾讯效果推广代理商举办的一次会议,会上代理商与腾讯效果推广华南区的代表仔细介绍了腾讯的该款产品.笔者并不是其广告主,本文结合百度与搜狗竞价,以一个局外人的眼光来看腾讯效果推广. 一 ...

网页设计规范用FrontPage 2000做样式表

frontpage|规范|设计|网页|网页设计|样式表 Dreamweaver以其强大的功能正在扩张到更多"网虫"的硬盘里,然而Dreamweaver并非每个功能都那么出色. ...

虚子雨：网站关键词制定策略转化率才是王道

大家好,我是虚子雨.对于网站的优化,前前后后已经有不下于十个了,对于优化网站真的多多少少还是有一定心得的,心得不是藏在心里面的秘密,心得是需要拿出来分享的.对于优化网站有的时候我们真的不能简单的只用关 ...

jQuery-free的实现

jQuery是现在最流行的JavaScript工具库. 据统计,目前全世界57.3%的网站使用它.也就是说,10个网站里面,有6个使用jQuery.如果只考察使用工具库的网站,这个比例就会上升到惊人的 ...

Photoshop快速制作游戏人物海报

效果图简洁大气,作者的制图方法也非常不错,能根据极有限的人物素材进行发挥,加入了背景,渲染了颜色,再加上装饰等,效果非常不错. 最终效果 1.选择树林的原画背景是因为和人物素材接近,必须让人物融入 ...

无线路由器如何防止蹭网?

本人路由器型号:斐讯302M,以此路由器为例,其他型号路由器均可以以此为教程设置. 1.[修改路由器管理地址及管理账号.密码] PS:如果蹭网者连上你的网络,如未修改默认管理地址.管理账号及密码, ...

win7打开文件夹不是文件内容而是搜索界面怎么回事

win7打开文件夹不是文件内容而是搜索界面怎么回事具体方法如下: 1.使用快捷键"win+r",打开运行窗口,并输入"regedit" ...

win7中hosts文件无法保存怎么办？

hosts文件无法保存方法一: 关闭360一类的杀毒软件,再修改,就不会出现不能保存了.比如360就有某种安全软件保护措施,会自动恢复hosts文件为默认状态,所以就会出现hosts文件不能保存. ...

如何给文件夹添加背景音乐

操作依次为,在文件夹空白处单击鼠标右键──自定义文件夹──选择'创建或编辑HTML文档',单击下一步,系统会自动弹出用记事本打开的Folder.htt文件,在文件中找到这段代码,在下面加入: 注 ...

.csh是什么文件？

问:在清理电脑文件的时候,发现一个扩展名为.csh的文件,请问这是什么文件,可以直接打开吗? 答:.csh是photoshop中用到的一个形状文件,photoshop里默认情况下有一些形状,但是那 ...

Linux 后台开发工作中常用的开源库

后台开发,语言主要是 c 和 c++ , 这里简单罗列一下工作中用的很频繁的那些开源软件 1. OpenSSL openssl OpenSSL 是一个安全套接字层密码库,囊括主要的密码算法.常用的密钥 ...

Swift调用Objective-C

Swift调用Objective-C需要一个名为"<工程名>-Bridging-Header.h"的桥接头文件,如下图所示.桥接头文件的作用是为Swift调用Objec ...

async / await：更好的异步解决方案

在实际开发中总会遇到许多异步的问题,最常见的场景接口请求之后一定要等一段时间才能得到结果,如果遇到多个接口前后依赖,那么问题就变得复杂.大家都一直在尝试使用更好的方案来解决这些问题.最开始只能利用回调 ...

云计算、虚拟化未来技术的商业智慧

本文讲的是云计算.虚拟化未来技术的商业智慧,[IT168 资讯]从云计算.虚拟化.到随时随地上网等,未来技术不再仅仅是工程师驾驭的产物,而是创新精神与商业智慧的巧妙结合 "如果您的孩子需要 ...

IT界十大最尴尬瞬间盖茨遭遇Win98死机列榜首

导读:<Computerworld>网站10月17日评出了IT史上10大最尴尬瞬间,其中包括比尔·盖茨遭遇Windows 98蓝屏死机.索尼BMG 版权保护软件引起消费者反感等.下面就是这 ...

ThreadLocal的使用场景

文/杜琪(简书作者) 原文链接:http://www.jianshu.com/p/cadd53f063b9 著作权归作者所有,转载请联系作者获得授权,并标注"简书作者". 最近项目 ...

Deep Learning vs. Machine Learning vs. Pattern Recognition

Introduction: Deep learning, machine learning, and pattern recognition are highly relevant topics co ...

spring-ApplicationContext.xml配置数据源问题

问题描述 ApplicationContext.xml配置数据源问题如何把hibernate4+spring4整合如何配置ApplicationContext.xml,达到下面目的, 想要达到的目 ...

微软正融合OneDrive 与Xbox Music

摘要: 微软正将旗下在线文件存储服务 OneDrive 和自有音乐流媒体平台 Xbox Music 相融合,从而允许用户将 Xbox Music Store 中没有的音乐上传至前者,并能在任何运行 X ...

证明费马最后定理的英国数学家，终获2016阿贝尔奖

他的工作堪称当代数学领域最震撼人心的成果,现在他赢得了该领域最重大的奖项.来自牛津大学的安德鲁·怀尔斯(Andrew Wiles)被授予了2016年的阿贝尔奖,他曾经在九十年代成功解决了数百年悬而未决 ...

文件读取-c语言，用fgets将文件的数据读取后，如何对返回的数据进行操作，例如排序

问题描述 c语言,用fgets将文件的数据读取后,如何对返回的数据进行操作,例如排序代码如下,我做法是将fgets(readline, N, fp) 返回的readline 用atoi函数转为整型 ...

苹果联手IBM，坚持硬件赚钱

导言:至少在现在,我们还无法确定苹果下一代硬件产品会则产生怎样的神奇魔力,但苹果俨然会用稳步增长的硬件收入维持高利润甚至高增长,或许,可以考虑入手苹果的股票了. iDoNews 专栏 7月17日精选 ...

Mac OS上搭建Apache+PHP+MySQL开发环境的详细教程_C 语言

一.启动Apache 有两种方法 1.打开网络共享打开"系统偏好设置"->"共享",在"互联网共享"那一项前面打√. 2.打开 ...

世界主要搜索引擎规则揭密

如果您,正在从事互联网营销或有意进入电子商务领域,且您的在线生意不仅面向中国,更是面向整个世界: 浏览过我们有关搜索引擎和查询结果排名重要性等内容: 对互联网电子商务和网络营销有一定了解, 那么以下的 ...

C#.net 12月11日前帮我解决送100分用户注册远程图像管理远程数据查询谁能帮我解决

问题描述代码都写了,没有提示代码错误,却实现不了功能.下面是我写的代码和要求谁能在11号前帮我解决我把所有分都送给他1.用户注册客户端程序采用B/S结构,程序要求:l客户端程序是一个login.ht ...

在DataGridView中如何进行唯一性和非空约束处理

问题描述在数据库中的物理表上分别为两个字段设置了NOTNULL和UNIQUE约束数据在UI上以DataGridView呈现,用户可以在其中进行添加.删除.修改操作当用户的输入违反唯一性和非空性约束时 ...

数据对接—kettle使用之十一

这一篇我们继续介绍字符串处理插件的使用,增加常量控件和增加序列字段. 增加常量控件这个步骤很简单,主要是添加常量到流中.它的使用也很容易:用字符串形式指定名称,类型和值.利用选择的数据类型指定转换格 ...

核心编程随笔7——线程调度和优先级

NOTE0--何为上下文切换每一个线程都有一个上下文.后者保存在线程的内核对象中.这个上下文反映了线程上一次执行时cpu寄存器的状态.大约每隔20ms(GetSystemTimeAdjustMent ...

热搜