nutch1.8 问题

问题描述

使用nutch1.8+hadoop2.2.1运行爬虫任务时候出现的如下问题:15/01/1222:35:23ERRORcrawl.Injector:Injector:java.lang.IllegalArgumentException:WrongFS:hdfs://192.168.137.131:9000/user/haduser/crawld/crawldb/1501539946,expected:file:///atorg.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:642)atorg.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:69)atorg.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:516)atorg.apache.hadoop.fs.FileSystem.isDirectory(FileSystem.java:1410)atorg.apache.hadoop.fs.ChecksumFileSystem.rename(ChecksumFileSystem.java:496)atorg.apache.nutch.crawl.CrawlDb.install(CrawlDb.java:159)atorg.apache.nutch.crawl.Injector.inject(Injector.java:295)atorg.apache.nutch.crawl.Injector.run(Injector.java:316)atorg.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)atorg.apache.nutch.crawl.Injector.main(Injector.java:306)atsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atsun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)atjava.lang.reflect.Method.invoke(Method.java:606)atorg.apache.hadoop.util.RunJar.main(RunJar.java:212)有哪位大神知道解决办法么?

解决方案

解决方案二:
Hadoop的配置文件是否拷贝到Nutch的conf目录下,并编译打包?
解决方案三:
引用1楼wulinshishen的回复:

Hadoop的配置文件是否拷贝到Nutch的conf目录下,并编译打包?

试过了啊还是一样的错误,蛋疼

时间: 2024-11-03 17:09:11

nutch1.8 问题的相关文章

nutch1.9myeclipse启动

问题描述 nutch1.9myeclipse启动 nutch1.9在myeclipse中安装成功但是由于1.9版本没有bin/nutch 中的crawl命令使其中的一些源码中的类也改变了导致无法像1.7那样启动只能手动添加启动类,但是无法将nutch的结果同步到solr上

cygwin下nutch1.6:cygpath:can't convert empty path

问题描述 cygwin下nutch1.6:cygpath:can't convert empty path 错误是如何发生的,该怎么解决?感谢! 解决方案 参考下http://stackoverflow.com/questions/17887365/starting-hbase-cygpath-cant-convert-empty-path 解决方案二: 网络上有人遇到与你同样的问题,可使用搜索引擎由 Baidu/Bing.Bing:cygpath:can't convert empty pat

nutch1.3在哪里设置要抓取的网址啊和1.2不同啊那些文件

问题描述 谁用过nutch1.3啊在哪里设置要抓取的网址啊1.2是在目录下新建一个url.txt然后更改crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分在接着配置nutch-site.xml请问1.3的要修改些什么,怎么改.我的目的就想简单的抓取几个网址然后搜索下关键词就好了 解决方案 解决方案二:1.3url过滤规则在regex-urlfilter.txt文件里源文件里#acceptanythingelse+.改为#acceptanythingelse-.在#a

Apache nutch1.5 & Apache solr3.6

第1章引言 1.1nutch和solr Nutch 是一个开源的.Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具. Solr 拥有像 web-services API 的独立的企业级搜索服务器.用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果. 1.2研究nutch 的原因 可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3 点原因: 透明度:nutch 是开放源代码的,因此任何人都

nutch1.7/1.8爬取pdf无法解析,全是乱码,求大神!急,好久了。

问题描述 最近公司让研究nutch.我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊.为什么我爬取的pdf都是乱码,解析不了.http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf 解决方案

Apache Gora介绍

介绍         Gora是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化.目前Gora支持对于列数据.key-value数据,文档数据与RDBMS数据的存储,还支持使用Apache Hadoop来对对大数据进行分析 特点             虽然目前市面上有很多不错的关系数据库的ORM框架,但是基于数据模型的框架如JDO还是有一些不足,如对于列数据模型的存储与持久化.Gora正好弥补了这个问题,它能使用户很容易对大数据时行 内存建模与持久化,而且支持Hadoop来对大

nutch 代理 本地ip与代理ip之间转换

问题描述 nutch 代理 本地ip与代理ip之间转换 我用的是Nutch1.9版本的,在爬去网站过程中好像因为同一ip访问频繁然后ip被封了,正在尝试用代理,但是如果代理ip被封了的话,nutch会使用本机的ip继续进行爬去吗?然后等本机ip被封的时候又转代理ip进行爬去?这样循环转换..... 解决方案 http://fuliang.iteye.com/blog/148999

Nutch介绍及使用

1. Nutch介绍 Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容. 现在Nutch分为两个版本,1.x和2.x.1.x最新版本为1.7,2.x最新版本为2.2.1.两个版本的主要区别在于底层的存储不同. 1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase.Accumulo.Cassandra.MySQL.DataFileAvroStore.AvroStore等NoSQL.

Cygwin运行nutch报错:Failed to set permissions of path

错误信息: Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700 官方BUG参考: https://issues.apache.org/jira/browse/HADOOP-7682 解决方法: 1.下载并解压http://mirror.bit.edu.c