伪分布模式-读取HDFS上的文件问题

问题描述

读取HDFS上的文件问题

在伪分布模式下测试代码,在eclipse里建了个项目,然后在map函数里我想从hdfs中读取文件数据(testData.csv),然后这几段代码就会出现问题,String str_url="hdfs://localhost:9000";URI.creat(str_url);String str="hdfs://localhost:9000/user/input/testData.csv";Path path=new Path(str);
我发现如果是str="/user/input/testData.csv";Path=new Path(str);就不会出现问题,但是这个路径是不存在的。
因为有两个文件需要读取,不知道怎么处理啊~~~

解决方案

import org.apache.hadoop.fs.FileSystem;

这个包 有两种方式 调用

    FileSystem.get(arg0, arg1);
    FileSystem.get(conf);

    String uri = "hdfs://bigdata/tmp/1.txt";

    Configuration conf = new Configuration();

    FileSystem fs = FileSystem.get(URI.create(uri), conf);  

    或者

    FileSystem fs = FileSystem.get(conf);

    欢迎加入 hadoop 基础培训: http://blog.csdn.net/biperler/article/details/44731489
时间: 2024-10-07 08:46:43

伪分布模式-读取HDFS上的文件问题的相关文章

spark计算hdfs上的文件时报错

问题描述 spark计算hdfs上的文件时报错 scala> val rdd = sc.textFile("hdfs://...") scala> rdd.count java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$AppendRequestProto overrides final method getUnknownFields.

hdfs上传文件难以刷新-hdfs文件系统刷新问题

问题描述 hdfs文件系统刷新问题 hdfs上传文件难以刷新,先是在/usr那里跳个1 ,然后立马变成0 解决方案 看看是不是权限不够,包括hdfs权限和登录用户权限

hadoop学习第一天之伪分布模式安装( 上)

Hadoop核心项目: 1.   HDFS:Hadoop Distributed File System 分布式文件系统 2.   MapReduce:并行计算框架   HDFS的架构: 主从结构:                    主节点:只有一个,namenode                    从节点:有很多歌,datanodes    Namenode负责: 3.   接收用户操作请求 4.   维护文件系统的目录结构 5.   管理文件与block之间的关系,block与da

HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo

26 集群使用初步 HDFS的设计思路 l 设计思想   分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析:   l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务   l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1.查看集群状态 命令:   hdfs  dfsadmin –report 可以看出,集群共有3个datanode可用 也可打开web控制台查看

hdfs上传文件出现Call to localhost/127.0.0.1:9000 failed on local exception

问题描述 求职各位大神,我是个Hadoop新手,在上传文件是遇到个问题解决不了,简直要疯了环境是虚拟机Ubuntu里面Hadoop2.02,0加myeclipse8.5,想写一个javaweb的海量数据管理系统.Hadoop配置应该没有问题,可以看到DFSLocation里面的目录结构但是在上传的时候,只要一运行到FileSystemhdfs=FileSystem.get(URI.create(dst),conf);这句话,就会报错java.io.IOException:Calltolocalh

将hdfs 上的文件通过shell脚本 导入到hive上面

一个应用的数据来源从PostgreSql导入到hdfs 需要使用API来定义这样做的好处就是一次写入永久执行而从hdfs导入到hive表中有多种方式 shell 脚本算一种在整个应用构建中 处于一个新的模块中通过new新的文件因为是类sql(导入到hive上)所以文件格式为xxx.hql整个项目创建或许会产生很多文件 所以对与命名上也需要按照一定的格式xx_yy_zz.hql xx 表示当前所在文件夹文件名 yy表示所建立的表名与内容性质相关zz是按照怎样的分区分桶格式如yyyyMMdd 表示按

如何读取远程主机上的文件

问题描述 我现在知道远程linux主机名test001.test.com,和文件在远程主机上的路径/home/log/log.txt,我现在也有登陆主机的用户名密码,如何用java获取该文件的内容呢? 解决方案 解决方案二:如果在linux上开启ftp或samba服务的话,就可以读了没有协议支持的话,好像是不可能的.解决方案三:StringsmbMachine="smb://username:password@test001.test.com/log.txt";StringlocalP

以字符串形式读取github上.json文件

如下:   https://github.com/hpu-spring87/ebooks/blob/master/update.json   如果直接用httpclient读取该URL地址,得到结果是这样的: <!DOCTYPE html> <html lang="en" class=" is-copy-enabled emoji-size-boost is-u2f-enabled"> <head prefix="og: ht

spark读取hdfs的时候出现io异常

问题描述 我现在只部署了一个节点来测试,但是发现无法读取hdfs上的文件,每次都抛出这个io异常.求大神拯救nero01为主机名,192.168.189.101为ip地址.scala>textFile.countjava.io.IOException:Failedonlocalexception:com.google.protobuf.InvalidProtocolBufferException:Messagemissingrequiredfields:callId,status;HostDet