nutch1.8 问题

问题描述

使用nutch1.8+hadoop2.2.1运行爬虫任务时候出现的如下问题：15/01/1222:35:23ERRORcrawl.Injector:Injector:java.lang.IllegalArgumentException:WrongFS:hdfs://192.168.137.131:9000/user/haduser/crawld/crawldb/1501539946,expected:file:///atorg.apache.hadoop.fs.FileSystem.checkPath(FileSystem.java:642)atorg.apache.hadoop.fs.RawLocalFileSystem.pathToFile(RawLocalFileSystem.java:69)atorg.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:516)atorg.apache.hadoop.fs.FileSystem.isDirectory(FileSystem.java:1410)atorg.apache.hadoop.fs.ChecksumFileSystem.rename(ChecksumFileSystem.java:496)atorg.apache.nutch.crawl.CrawlDb.install(CrawlDb.java:159)atorg.apache.nutch.crawl.Injector.inject(Injector.java:295)atorg.apache.nutch.crawl.Injector.run(Injector.java:316)atorg.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)atorg.apache.nutch.crawl.Injector.main(Injector.java:306)atsun.reflect.NativeMethodAccessorImpl.invoke0(NativeMethod)atsun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)atsun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)atjava.lang.reflect.Method.invoke(Method.java:606)atorg.apache.hadoop.util.RunJar.main(RunJar.java:212)有哪位大神知道解决办法么？

解决方案

解决方案二：
Hadoop的配置文件是否拷贝到Nutch的conf目录下，并编译打包？
解决方案三：
引用1楼wulinshishen的回复:

Hadoop的配置文件是否拷贝到Nutch的conf目录下，并编译打包？

试过了啊还是一样的错误，蛋疼

时间： 2024-11-03 17:09:11

nutch1.8 问题的相关文章

nutch1.9myeclipse启动

问题描述 nutch1.9myeclipse启动 nutch1.9在myeclipse中安装成功但是由于1.9版本没有bin/nutch 中的crawl命令使其中的一些源码中的类也改变了导致无法像1.7那样启动只能手动添加启动类,但是无法将nutch的结果同步到solr上

cygwin下nutch1.6：cygpath：can&amp;#39;t convert empty path

问题描述 cygwin下nutch1.6:cygpath:can't convert empty path 错误是如何发生的,该怎么解决?感谢! 解决方案参考下http://stackoverflow.com/questions/17887365/starting-hbase-cygpath-cant-convert-empty-path 解决方案二: 网络上有人遇到与你同样的问题,可使用搜索引擎由 Baidu/Bing.Bing:cygpath:can't convert empty pat

nutch1.3在哪里设置要抓取的网址啊和1.2不同啊那些文件

问题描述谁用过nutch1.3啊在哪里设置要抓取的网址啊1.2是在目录下新建一个url.txt然后更改crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分在接着配置nutch-site.xml请问1.3的要修改些什么,怎么改.我的目的就想简单的抓取几个网址然后搜索下关键词就好了解决方案解决方案二:1.3url过滤规则在regex-urlfilter.txt文件里源文件里#acceptanythingelse+.改为#acceptanythingelse-.在#a

Apache nutch1.5 & Apache solr3.6

第1章引言 1.1nutch和solr Nutch 是一个开源的.Java 实现的搜索引擎.它提供了我们运行自己的搜索引擎所需的全部工具. Solr 拥有像 web-services API 的独立的企业级搜索服务器.用 XML 通过 HTTP 向它添加文档(称为做索引),通过 HTTP 查询返回 XML 结果. 1.2研究nutch 的原因可能有的朋友会有疑问,我们有google,有百度,为何还需要建立自己的搜索引擎呢?这里我列出3 点原因: 透明度:nutch 是开放源代码的,因此任何人都

nutch1.7/1.8爬取pdf无法解析，全是乱码，求大神！急，好久了。

问题描述最近公司让研究nutch.我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊.为什么我爬取的pdf都是乱码,解析不了.http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf 解决方案

Apache Gora介绍

介绍 Gora是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化.目前Gora支持对于列数据.key-value数据,文档数据与RDBMS数据的存储,还支持使用Apache Hadoop来对对大数据进行分析特点虽然目前市面上有很多不错的关系数据库的ORM框架,但是基于数据模型的框架如JDO还是有一些不足,如对于列数据模型的存储与持久化.Gora正好弥补了这个问题,它能使用户很容易对大数据时行内存建模与持久化,而且支持Hadoop来对大

nutch 代理本地ip与代理ip之间转换

问题描述 nutch 代理本地ip与代理ip之间转换我用的是Nutch1.9版本的,在爬去网站过程中好像因为同一ip访问频繁然后ip被封了,正在尝试用代理,但是如果代理ip被封了的话,nutch会使用本机的ip继续进行爬去吗?然后等本机ip被封的时候又转代理ip进行爬去?这样循环转换..... 解决方案 http://fuliang.iteye.com/blog/148999

Nutch介绍及使用

1. Nutch介绍 Nutch是一个开源的网络爬虫项目,更具体些是一个爬虫软件,可以直接用于抓取网页内容. 现在Nutch分为两个版本,1.x和2.x.1.x最新版本为1.7,2.x最新版本为2.2.1.两个版本的主要区别在于底层的存储不同. 1.x版本是基于Hadoop架构的,底层存储使用的是HDFS,而2.x通过使用Apache Gora,使得Nutch可以访问HBase.Accumulo.Cassandra.MySQL.DataFileAvroStore.AvroStore等NoSQL.

Cygwin运行nutch报错：Failed to set permissions of path

错误信息: Exception in thread "main" java.io.IOException:Failed to set permissions of path:\tmp\hadoop-ysc\mapred\staging\ysc-2036315919\.staging to 0700 官方BUG参考: https://issues.apache.org/jira/browse/HADOOP-7682 解决方法: 1.下载并解压http://mirror.bit.edu.c

猜你喜欢

掌握五招新网站SEO极速“破冰”

新站优化针对新手SEO来说确实不是一件容易的事,不仅要考虑网站初期的关键词分析.布局.网站结构优化,还有外链方案的制定等等,都是一系列系统的工作.不过做任何事只要思路清晰,做起来也不是那么难,下面我们 ...

Secret of Photoshop 纹理篇（波斯地毯

布料研究(1)--波斯地毯随机和有序是两个相反的概念么?这是两个极端,但是又非常接近. 反复合理的利用,就能创造出令人难以置信的纹理效果. 好了,我们来做一块地毯,大家也许就能明白我 ...

第十五章-数据访问部件的应用及编程（二）(4)

15.5.1 TDataSource部件的属性 TDataSource部件除了其他部件都拥有的Name属性和Tag属性之外,主要有下面几个属性: DataSet属性:该属性说明TDataSource部 ...

Linux下编程时的conflicting types for 'dev_t'问题

在Linux下编译程序有时会遇到这种问题,这貌似是一个Linux历史遗留问题: /usr/include/sys/types.h:62: error: conflicting types for 'd ...

asp cookies实例教程

想利用COOKIE记录当前用户刚才是否发了贴, MyVar=Request.Cookies("starttime") if myvar="" then Res ...

设置在Word2007中实现自动卷动

有些老式的两键鼠标是没有滚轮的,因此在使用Word时往往要移到窗口右边拖动垂直滚动条来实现文章翻页,十分不便.那么有没有较好的方法可以用来滚动页面查看文件呢? 其实,从Word 2002版本开始, ...

Win7总是自动弹出拨号连接怎么办？

我们上网必须的用到宽带才能够上网,但有的时候一直会跳出宽带拨号连接的对话框,这样就很烦了.Win7系统的用户,每次开机都会弹出拨号连接的对话框,一直显示正在连接,无法将该窗口关闭,导致无法正常使用 ...

Mac电脑如何在提醒事项中设置每日提醒

Mac提醒事项设置教程 1.首先我们在Launchpad中找到"提醒事项"应用的图标并点击打开. 2.打开提醒事项后我们可以看到它的操作界面,左侧可以添加相关的列表,将你的提醒 ...

怎样用迅雷测试网络速度？

1.首先对此功能进行安装,如果已经安装了,就可以忽略这一个步骤.点击"小工具"中的"网速测试"按钮,下载安装此功能. 2.接下来就是对网速进行测试了.打开测 ...

win8无法打开.mht文件怎么办

1.打开ie浏览器,进入Internet选项,切到"程序"选项卡. 2.单击"设置关联". 3.勾选".mht" 4.点击保存后即可. ...

新浪微博WP客户端如何修改微博阅读模式？

选择微博最右边"更多"下拉菜单中的设置,进入设置页面.在常规-阅读模式中可进行:预览图模式.经典模式以及文字模式的切换.根据选择结果不同,首页展现形式也有所区别.

在XP下锁定当前用户的桌面设置

如果不希望自己或他人有意无意地改变windows xp桌面上的各种设置,那么可以通过修改注册表将桌面锁住. 第1步:打开注册表编辑器,依次展开HKEY-CURRENT_USERSoftwareMi ...

视图-很老的那个DDMenuController

问题描述很老的那个DDMenuController 在ios8下主页顶部的状态栏是黑色的,左右控制器的视图是全屏的.怎样修改让他主页顶部正常显示运营商时间电池啊

2015 CALLED THE INTERFACE OF 2014

Reprint it anywhere u want. "Hi , Happy New Year.Written in Stupid Enlish,Dont push me *.* &quo ...

美开发数据自毁技术适用云计算架构

本文讲的是美开发数据自毁技术适用云计算架构,[IT168 资讯]华盛顿大学的计算机科学家开发出了让电子信息经过一段时间后自毁的技术.研究人员表示,由于个人或企业信息将不再存储在PC,而存储在服务器上 ...

使用OracleDataAdapter填充数据和oracle实际的查询数据不一致

问题描述使用OracleDataAdapter填充如下SQL语句生成的数据到DataSet,DataSet的table[0].rows显示8条但实际在pl/sqldeveloper查询出来为5条记录 ...

佛说，是我们自己苦了自己

一.人之所以痛苦,在于追求错误的东西. 二.与其说是别人让你痛苦,不如说是自己的修养不够. 三.如果你不给自己烦恼,别人也永远不可能给你烦恼.因为在你自己的内心,你放不下. 四.好好的管教你自己,不要 ...

请教这段HTML文本用Jsoup怎么解析出来？

问题描述 <font class="size1"><b><img src="./黄道吉日查询老黄历结婚吉日开业吉日搬家吉日查询_fi ...

数组-为什么会溢出呢？求java大神指教

问题描述为什么会溢出呢?求java大神指教 public class Test6{ public static void main(String[]args){ int size=10; doubl ...

证通的态势感知：立足合规，打造适应性安全

ThreatBook较真之作第二期,看看作为金融科技企业的证通股份有限公司(以下简称 "证通") 如何理解网络安全? "别人家的安全"是安全威胁情报(微信ID: ...

android中的edittext获得光标就报这样的错误，求大神指点怎么解决啊

问题描述 android中的edittext获得光标就报这样的错误,求大神指点怎么解决啊 5C 04-29 00:37:49.491 2548-2548/jt.com.shoppingcar W/Re ...

web服务器-如何做好生产环境的更新升级？

问题描述如何做好生产环境的更新升级? 首次接触生产环境,要增量更新代码,只知道关闭web服务器替换程序文件. 现在遇到3个问题: 1.怎么把要更新的文件拎出来 2.怎么替换旧文件 3.怎么备份旧文件 ...

Ding Framework 1.6.0发布 PHP框架

Ding 是一个PHP框架.它通过调节器.构造函数和类函数提供了注入的依赖性,面向编程,XML,YAML,事件支持,以及一些JSR 250/330 注释作为bean定义的提供商.其特点是轻量级,可以部 ...

android radiogroup 取消选中怎么写

问题描述 android radiogroup 取消选中怎么写 android radiogroup 取消选中该怎么写. 选中后再点击,取消选中,该怎么做. 解决方案 http://bbs.csdn. ...

use default location问题

问题描述在eclipse创建一个新的project,出现以下现象:如果勾上Use Default Location选项,那么,创建出来的项目正常:如果不勾上Use Default Location选 ...

JQuery在光标位置插入内容的实现代码_jquery

复制代码代码如下: (function($){ $.fn.extend({ insertAtCaret: function(myValue){ var $t=$(this)[0]; if (docu ...

python元组操作实例解析_python

本文实例讲述了python元组操作方法,分享给大家供大家参考.具体分析如下: 一般来说,python的函数用法挺灵活的,和c.php的用法不太一样,和js倒是挺像的. 在照着操作时,可以发现一个很神奇 ...

OpenGLES - glGenTextures 生成命名纹理

OpenGLES - glGenTextures 生成命名纹理太阳火神的美丽人生 (http://blog.csdn.net/opengl_es) 本文遵循"署名-非商业用途-保持一致&q ...

互联网理财“逼宫” 多家银行酝酿“类余额宝”理财产品

互联网与基金的融合正迎来新时代,也促使金融业理财格局悄然生变.继余额宝大获成功之后,阿里.腾讯.百度.苏宁等纷纷推出基金理财产品,他们利用自己强大的互联网平台和积累的用户群,开发出快捷和人性化的金融理 ...

Ubuntu下安装Xdebug

在学习应用Yii和PHP进行敏捷Web开发一书中提到了XDebug,查了下资料,下面总结下安装扩展的具体步骤. sudo apt-get install php-pearsudo apt-get ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.018 s.