伪分布模式-读取HDFS上的文件问题

问题描述

读取HDFS上的文件问题: 在伪分布模式下测试代码，在eclipse里建了个项目，然后在map函数里我想从hdfs中读取文件数据（testData.csv），然后这几段代码就会出现问题，String str_url="hdfs://localhost:9000";URI.creat(str_url);String str="hdfs://localhost:9000/user/input/testData.csv";Path path=new Path(str);
我发现如果是str="/user/input/testData.csv";Path=new Path(str);就不会出现问题，但是这个路径是不存在的。
因为有两个文件需要读取，不知道怎么处理啊~~~

解决方案

import org.apache.hadoop.fs.FileSystem;

这个包有两种方式调用

    FileSystem.get(arg0, arg1);
    FileSystem.get(conf)；

    String uri = "hdfs://bigdata/tmp/1.txt";

    Configuration conf = new Configuration();

    FileSystem fs = FileSystem.get(URI.create(uri), conf);  

    或者

    FileSystem fs = FileSystem.get(conf);

    欢迎加入 hadoop 基础培训： http://blog.csdn.net/biperler/article/details/44731489

时间： 2024-10-07 08:46:43

伪分布模式-读取HDFS上的文件问题的相关文章

spark计算hdfs上的文件时报错

问题描述 spark计算hdfs上的文件时报错 scala> val rdd = sc.textFile("hdfs://...") scala> rdd.count java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$AppendRequestProto overrides final method getUnknownFields.

hdfs上传文件难以刷新-hdfs文件系统刷新问题

问题描述 hdfs文件系统刷新问题 hdfs上传文件难以刷新,先是在/usr那里跳个1 ,然后立马变成0 解决方案看看是不是权限不够,包括hdfs权限和登录用户权限

hadoop学习第一天之伪分布模式安装（上）

Hadoop核心项目: 1. HDFS:Hadoop Distributed File System 分布式文件系统 2. MapReduce:并行计算框架 HDFS的架构: 主从结构: 主节点:只有一个,namenode 从节点:有很多歌,datanodes Namenode负责: 3. 接收用户操作请求 4. 维护文件系统的目录结构 5. 管理文件与block之间的关系,block与da

HDFS设计思路，HDFS使用，查看集群状态，HDFS，HDFS上传文件，HDFS下载文件，yarn web管理界面信息查看，运行一个mapreduce程序，mapreduce的demo

26 集群使用初步 HDFS的设计思路 l 设计思想分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析: l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务 l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1.查看集群状态命令: hdfs dfsadmin –report 可以看出,集群共有3个datanode可用也可打开web控制台查看

hdfs上传文件出现Call to localhost/127.0.0.1:9000 failed on local exception

问题描述求职各位大神,我是个Hadoop新手,在上传文件是遇到个问题解决不了,简直要疯了环境是虚拟机Ubuntu里面Hadoop2.02,0加myeclipse8.5,想写一个javaweb的海量数据管理系统.Hadoop配置应该没有问题,可以看到DFSLocation里面的目录结构但是在上传的时候,只要一运行到FileSystemhdfs=FileSystem.get(URI.create(dst),conf);这句话,就会报错java.io.IOException:Calltolocalh

将hdfs 上的文件通过shell脚本导入到hive上面

一个应用的数据来源从PostgreSql导入到hdfs 需要使用API来定义这样做的好处就是一次写入永久执行而从hdfs导入到hive表中有多种方式 shell 脚本算一种在整个应用构建中处于一个新的模块中通过new新的文件因为是类sql(导入到hive上)所以文件格式为xxx.hql整个项目创建或许会产生很多文件所以对与命名上也需要按照一定的格式xx_yy_zz.hql xx 表示当前所在文件夹文件名 yy表示所建立的表名与内容性质相关zz是按照怎样的分区分桶格式如yyyyMMdd 表示按

如何读取远程主机上的文件

问题描述我现在知道远程linux主机名test001.test.com,和文件在远程主机上的路径/home/log/log.txt,我现在也有登陆主机的用户名密码,如何用java获取该文件的内容呢? 解决方案解决方案二:如果在linux上开启ftp或samba服务的话,就可以读了没有协议支持的话,好像是不可能的.解决方案三:StringsmbMachine="smb://username:password@test001.test.com/log.txt";StringlocalP

以字符串形式读取github上.json文件

如下: https://github.com/hpu-spring87/ebooks/blob/master/update.json 如果直接用httpclient读取该URL地址,得到结果是这样的: <!DOCTYPE html> <html lang="en" class=" is-copy-enabled emoji-size-boost is-u2f-enabled"> <head prefix="og: ht

spark读取hdfs的时候出现io异常

问题描述我现在只部署了一个节点来测试,但是发现无法读取hdfs上的文件,每次都抛出这个io异常.求大神拯救nero01为主机名,192.168.189.101为ip地址.scala>textFile.countjava.io.IOException:Failedonlocalexception:com.google.protobuf.InvalidProtocolBufferException:Messagemissingrequiredfields:callId,status;HostDet