请教nutch和solr集成问题

问题描述

请教nutch和solr集成问题

最近在学习搜索引擎，按照nutch官网上的教程下载了nutch2.2.1和solr4.6.1
通过执行bin/crawl 能够在hbase数据库中看到爬虫下载的网页，但是solr 里面没有数据且没有异常，为什么呢？
请高手帮忙

注：采用nutch1.7可以成功进行索引

解决方案

可以问你个问题么，我用的nutch2.2.1 solr4.8 hadoop1.1.2 hbase0.94 ，为什么nutException in thread "main" java.lang.NullPointerException
at java.util.Hashtable.put(Hashtable.java:542)
at java.util.Properties.setProperty(Properties.java:161)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:419)
at org.apache.nutch.indexer.IndexerJob.createIndexJob(IndexerJob.java:128)
at org.apache.nutch.indexer.solr.SolrIndexerJob.run(SolrIndexerJob.java:44)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:192)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.apache.hadoop.util.RunJar.main(RunJar.java:156)ch在爬取过程报错
你用的版本是多少的

解决方案二：

我也遇到这样的问题，最后怎么解决的呢

时间： 2025-01-25 03:39:57

请教nutch和solr集成问题的相关文章

请教大家一个jms集成处理问题

问题描述需求:有系统 A, B. 用户在A中做某一业务操作时往B实时集成信息,以在B中创建审批电子流.要求:不能对同样的业务信息,创建多个电子流.若检查到已存在电子流,不能再创建电子流也必须邮件通知用户.若创建电子流成功时,必须邮件通知用户.当前方案:采用XML+JMS + 消息驱动Bean做集成. A把业务单据信息用XML格式发送到MQ服务器, B从服务器接收后做如下处理.设计如下,首先设计表: TABLE1 主要有一个clob字段来存放XML内容, 该表的意图是,存放原始的集成内容TABL

nutch+tomcat+solr 出现如下问题求详解~

问题描述 HTTPStatus500-{msg=SolrCore'collection1'isnotavailableduetoinitfailure:Couldnotloadconfforcorecollection1:Errorloadingsolrconfigfromsolr/collection1/conf/solrconfig.xml,trace=org.apache.solr.common.SolrException:SolrCore'collection1'isnotavailab

Nutch 教程

国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送)国内私募机构九鼎控股打造,九鼎投资是在全国股份转让系统挂牌的公众公司,股票代码为430719,为"中国PE第一股",市值超1000亿元. -----------------------------------------------------------------------------

Solr学习总结（八）IK 中文分词的配置和使用

最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧. 有的时候,用户搜索的关键字,可能是一句话,不是很规范.所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词. 目前有很多优秀的中文分词组件.本篇只以 IKAnalyzer 分词为例,讲解如何在 solr 中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易.具

hadoop1.1.2+hbase0.92.2+nutch2.2.1+solr4.6.1配置全记录

花了两天时间,总算把这些东西弄好了,环境是vmware9虚拟机上的Ubuntu12.04_x86版.做了个简单的测试,跑通了.不过还是有很多不明白的地方,后期再陆续记录. 目前楼主配的是单机模式,分布式模式中遇到的问题以后再做记录. 另外强烈的吐槽一下,有些版本的在官网上面都找不到,搜了好久找到了某论坛资源,下载还要积分,郁闷.我想说的是其实所有的版本都可以在这个地址上下载: http://archive.apache.org/dist/ ,那些要积分的真无语,本来这东西

Nutch2.3.1源码开发环境搭建

源码下载修改配置文件编译项目导入intellij idea 调整依赖顺序运行测试联系作者源码下载下载地址:http://nutch.apache.org/downloads.html 解压后得到目录apache-nutch-2.3.1,进入该目录. 修改配置文件修改配置文件conf/nutch-site.xml  <configuration> &l

不用Cloudera Manager安装Cloudera Search

Cloudera Search 用来在 hadoop 基础上建立索引和全文检索,本文主要记录如何安装 CLoudera Search 的过程,其中也包括如何安装和启动 Zookeeper.Solr.MapReduce等工具和服务. Cloudera Search介绍 Cloudera Search 核心部件包括 Hadoop 和 Solr,后者建立在 Lucene 之上:而 Hadoop 也正是在06年正式成为 Lucene 的一个子项目而发展起来的. 通过 Tika, Cloudera Sea

SolrLucene优劣势分析

最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch.solr的出现,lucene变得更加热.Nutch.Solr的发展,极大推动了lucene的升级.对于一些接触过搜索,使用过lucene.solr的人来说,一般都会感觉lucene.solr很牛逼.我个人也认为solr.lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高性能的实现方式.从solr的结构,扩展.维护整体看,发现有非常多的"工程亮点",熟读solr定会增

一分钟了解互联网数据挖掘流程

1.爬虫抓取网络数据真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了. Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引.我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据.nutch支持把抓取的数据转化成文本,如(PDF.WORD.EXCEL.HTML.XML等形式)转换成纯文字字符. Nutch与Hadoop集成,

猜你喜欢

具体实现 XML 的三种方式

xml 在熟悉XML之前,我们至少应该了解一下这个技术到底是如何具体实现的.就目前的趋势来看(因为XML的有关标准改动都多达十七八次的,所以先不管它最后会怎样,先就目前的实现方式来看),要使得用户最后 ...

从极酷网页播放器看九宫格的应用

在前面的三篇系列文章中,我对九宫格布局作了详细的介绍.先从一个基本布局入手,将在制作过程中遇到的问题逐一进行了讲解.这三篇文章都是基本原理的讲解,没有一个有力的应用案例来证明这种原理是否正确,可能有些 ...

WAP中的ASP技术之五

WAP中的ASP技术第四节:另一种预订你电影票的方法在上一节中,我讲解了最基本的WAP和WML的概念,这一节我们就来看看ASP和WAP是如何结合的. 现在在奥斯陆,电影院提供了一种基于电话系统的来 ...

ORACLE编译失效对象

在日常数据库维护过程中,我们会发现数据库中一些对象(包Package.存储过程Procedure.函数Function.视图View.同义词.....)会失效,呈现无效状态(INVALID).有时候需 ...

系统还原不起作用的若干原因

Windows 操作系统的还原点如果还原的时候不起作用,你知道是什么原因吗?下面请看我们的介绍. 出现还原点故障的可能原因入如下: 受"系统还原"监视的分区中可用磁盘空间太少.请 ...

负距离-相互影响的迭代过程

负距离指的是换位思考前言(抛出问题): 产品经理把握功能功能-指事物或方法所发挥的有利作用 .比如实用性,操作性. 设计师主导品相品相-用来表示收藏品的完好程度. 但我个人喜欢拿来这个词比作对美 ...

Win8系统安装全过程介绍

越来越多的人想要转移到Win8平台,也决定要使用正版了,那么一个问题就很现实了--Win8怎么装?这的确跟Win7不一样,所以本期的<Win8公开课>我们就将说说到底怎样才能顺利地把Win ...

win7系统关闭360防火墙的方法

win7系统关闭360防火墙的方法.说到360安全卫士相信大家都比较熟悉了, 360安全卫士是大家使用比较多的一款电脑防护软件.很多win7系统用户都在自己电脑中安装360安全卫士,但是在运行36 ...

如何在Yosemit系统的Mac上打电话？

iOS 8和OS X Yosemite目前都已经正式推送,OS X Yosemite中的FaceTime应用现在也支持拨打和接听电话了.至于如何实现的?那就是借助iOS 8 iPhone通过iPh ...

数据库-c# 中操作csv 文件的方法，用控制台的方式。

问题描述 c# 中操作csv 文件的方法,用控制台的方式. 对excel 操作第一次接触,很多概念都不熟,请大神指点将.csv 文件中的内容存放到数据库中,关键是怎么读出其中的数据,操作需要那些函数? ...

动态添加删除li

这个功能的需求是这样的,接收人处显示多个用户名(是结果),在输入框输入完成后,回车键或者失去焦点,就去查询,查询结果出来后,通过点击加号再添到接收人处.这样中间有个验错的过程( ...

史上最高科技，Big Data奥运

2012年伦敦奥运,让世人看见英国深厚的文化底蕴,重温她每回驱动世界前进的历史,不论从社会.文化.科技等方面来看,英国带动了好几次人类文明的创新. 事实上,2012年的伦敦奥运也揭开了影响人类未来 ...

求助，tomcat内存泄露呀！

问题描述我用的SSH框架,web服务器用的是tomcat6.0.29,运行一段时间tomcat首页访问就特别慢,然后关闭tomcat时,日志显示Waitingforxxinstance(s)tobe ...

警惕一大波银行类木马正在靠近，新型BankBot木马解析

警惕一大波银行类木马正在靠近,新型BankBot木马解析背景来自安全公司Dr.Web的研究人员说,最近一个未命名的Android银行木马源代码在地下黑客论坛遭到了泄露.就在近期,阿里聚 ...

手势识别之平移、缩放、长按、旋转、滑动

前面了解了手势识别的点击以及代理方法,其他的几个手势识别都是差不多 #import "ViewController.h" @interface ViewController () ...

从零开始学数据库（一）——安装、启动、进入、创建表、检查表结构、类型说明、更改表项名、插入值

(一)安装搜索:mysql-5.6.17-winx64.zip 下载安装类型MySQL,5.6绿色版安装参考这个博客:http://blog.csdn.net/zhuxiaowei716/art ...

Facebook推荐使用Opera取代Chrome

Facebook周四将谷歌Chrome浏览器从所支持的浏览器列表中移除,转而加入了Opera,这进一步加剧了Facebook收购Opera的传闻. 根据浏览器博客FavBrowser在缓存中保存的页面 ...

flex 自定义组件事件问题

问题描述 flex 自定义组件事件问题实现功能:定义自定义组件中mx:Image控件的鼠标经过事件: 自定义组件(名称为Component1.mxml)主要代码: <fx:Script> ...

数据中心网络架构的新变化

由于混合云和container(容器)技术的出现,数据中心网络架构比以往任何时候都更加难以被攻破. 当然,这个技术再好,还是有法可循,如果我们遵循一种简单的方法,还是可以破解的. 在不太远的过去,数据 ...

什么样的网站才是草根站长适合的创业项目

摘要: 百度权重查询站长交易友情链接交换网站监控服务器监控 SEO监控最近我的一些个人站长朋友出去上班了.这些朋友不是养活不了自己,而是可以把自己养活的很好,少的收入几千块百度权重查询站 ...

c语言-if(scanf(&amp;quot;%d&amp;quot;, array + i) != 1)运行到这句，程序停止，联机检查是怎么回事？？

问题描述 if(scanf("%d", array + i) != 1)运行到这句,程序停止,联机检查是怎么回事?? /* **读取.排序和打印一列整型值. */ #include ...

c#-C#中throw和try catch的区别是什么？throw是不是用的比较少？什么时候需要throw

问题描述 C#中throw和try catch的区别是什么?throw是不是用的比较少?什么时候需要throw C#中throw和try catch的区别是什么?throw是不是用的比较少?什么时候需 ...

asp.net的web应用程序开发理念，带来的便捷还是麻烦？

问题描述我是一个asp.net的菜鸟,正在读清华版的<asp.net2.0入门经典>,对asp.net的web应用程序开发理念非常欣赏:只要拖放服务器控件,就可以搭建一个复杂的web网站 ...

浅谈域名转入解析过程中遇到的问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅前面写了一篇SEO内功心法内容+ ...

SMSLIB 短信部署到TOMCAT下就不行了急啊！！

问题描述我把开发的SMSLIB程序部署到TOMCAT下就不行了在main()方法里没事一部署到TOMCAT下就不行了出现的错误是org.smslib.GatewayException:Commlib ...

PHP 抓取网页图片并且另存为的实现代码_php技巧

下面是源代码,及其相关解释复制代码代码如下: <?php //URL是远程的完整图片地址,不能为空, $filename 是另存为的图片名字 //默认把图片放在以此脚本相同的目录里 func ...

js中switch case循环实例代码_javascript技巧

复制代码代码如下: switch (objNameType) { case 'PD': valueUD = obj.id; id = objName; var loadVUD = UserData. ...

VS 引用文件结构

问题描述我想将引用的第3方dll放到一个解决方案文件夹中,和项目文件夹同目录,以便各个项目能够引用.如Nuget安装log4net后,会创建一个package文件夹.我的问题是,这个文件夹如何受VS ...

请教一个发送邮件是的发送人的问题，谢谢！~~

问题描述最近做一个发送邮件的功能,首先用我自己的ID登陆:session=NotesFactory.createSession((String)null,(String)null,passwd);然 ...

再论 golang 环境配置建议

再论 golang 环境配置建议摘要在之前的实践中满足开发环境所有特征的情况下进行了大量方式上的升级.经过8次的版本升级,调整,爬坑,终于觉得这次版本升级足够有意义替代之前版本的建议. 我总觉得花 ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.022 s.