请教nutch和solr集成问题

问题描述

请教nutch和solr集成问题

最近在学习搜索引擎,按照nutch官网上的教程下载了nutch2.2.1和solr4.6.1
通过执行bin/crawl 能够在hbase数据库中看到爬虫下载的网页,但是solr 里面没有数据且没有异常,为什么呢?
请高手帮忙

注:采用nutch1.7可以成功进行索引

解决方案

可以问你个问题么,我用的nutch2.2.1 solr4.8 hadoop1.1.2 hbase0.94 ,为什么nutException in thread "main" java.lang.NullPointerException
at java.util.Hashtable.put(Hashtable.java:542)
at java.util.Properties.setProperty(Properties.java:161)
at org.apache.hadoop.conf.Configuration.set(Configuration.java:419)
at org.apache.nutch.indexer.IndexerJob.createIndexJob(IndexerJob.java:128)
at org.apache.nutch.indexer.solr.SolrIndexerJob.run(SolrIndexerJob.java:44)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:192)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:601)
at org.apache.hadoop.util.RunJar.main(RunJar.java:156)ch在爬取过程报错
你用的版本是多少的

解决方案二:

我也遇到这样的问题, 最后怎么解决的呢

时间: 2024-08-31 19:06:28

请教nutch和solr集成问题的相关文章

请教大家一个jms集成处理问题

问题描述 需求:有系统 A, B. 用户在A中做某一业务操作时往B实时集成信息,以在B中创建审批电子流.要求:不能对同样的业务信息,创建多个电子流.若检查到已存在电子流,不能再创建电子流也必须邮件通知用户.若创建电子流成功时,必须邮件通知用户.当前方案:采用XML+JMS + 消息驱动Bean做集成. A把业务单据信息用XML格式发送到MQ服务器, B从服务器接收后做如下处理.设计如下,首先设计表: TABLE1 主要有一个clob字段来存放XML内容, 该表的意图是,存放原始的集成内容TABL

nutch+tomcat+solr 出现如下问题 求详解~

问题描述 HTTPStatus500-{msg=SolrCore'collection1'isnotavailableduetoinitfailure:Couldnotloadconfforcorecollection1:Errorloadingsolrconfigfromsolr/collection1/conf/solrconfig.xml,trace=org.apache.solr.common.SolrException:SolrCore'collection1'isnotavailab

Nutch 教程

国内私募机构九鼎控股打造APP,来就送 20元现金领取地址:http://jdb.jiudingcapital.com/phone.html 内部邀请码:C8E245J (不写邀请码,没有现金送)国内私募机构九鼎控股打造,九鼎投资是在全国股份转让系统挂牌的公众公司,股票代码为430719,为"中国PE第一股",市值超1000亿元.  -----------------------------------------------------------------------------

Solr学习总结(八)IK 中文分词的配置和使用

最近,很多朋友问我solr 中文分词配置的问题,都不知道怎么配置,怎么使用,原以为很简单,没想到这么多朋友都有问题,所以今天就总结总结中文分词的配置吧.   有的时候,用户搜索的关键字,可能是一句话,不是很规范.所以在 Solr 中查询出的时候,就需要将用户输入的关键字进行分词.   目前有很多优秀的中文分词组件.本篇只以  IKAnalyzer 分词为例,讲解如何在 solr  中及集成中文分词,使用 IKAnalyzer的原因 IK 比其他中文分词维护的勤快,和 Solr 集成也相对容易.具

hadoop1.1.2+hbase0.92.2+nutch2.2.1+solr4.6.1配置全记录

    花了两天时间,总算把这些东西弄好了,环境是vmware9虚拟机上的Ubuntu12.04_x86版.做了个简单的测试,跑通了.不过还是有很多不明白的地方,后期再陆续记录.     目前楼主配的是单机模式,分布式模式中遇到的问题以后再做记录.     另外强烈的吐槽一下,有些版本的在官网上面都找不到,搜了好久找到了某论坛资源,下载还要积分,郁闷.我想说的是其实所有的版本都可以在这个地址上下载: http://archive.apache.org/dist/ ,那些要积分的真无语,本来这东西

Nutch2.3.1源码开发环境搭建

源码下载 修改配置文件 编译项目 导入intellij idea 调整依赖顺序 运行测试 联系作者 源码下载 下载地址:http://nutch.apache.org/downloads.html 解压后得到目录apache-nutch-2.3.1,进入该目录. 修改配置文件 修改配置文件conf/nutch-site.xml <!-- Put site-specific property overrides in this file. --> <configuration> &l

不用Cloudera Manager安装Cloudera Search

Cloudera Search 用来在 hadoop 基础上建立索引和全文检索,本文主要记录如何安装 CLoudera Search 的过程,其中也包括如何安装和启动 Zookeeper.Solr.MapReduce等工具和服务. Cloudera Search介绍 Cloudera Search 核心部件包括 Hadoop 和 Solr,后者建立在 Lucene 之上:而 Hadoop 也正是在06年正式成为 Lucene 的一个子项目而发展起来的. 通过 Tika, Cloudera Sea

SolrLucene优劣势分析

最早lucene2.4以及以前,追溯到2008年前后,lucene刚刚引起大家的关注,到后来Nutch.solr的出现,lucene变得更加热.Nutch.Solr的发展,极大推动了lucene的升级.对于一些接触过搜索,使用过lucene.solr的人来说,一般都会感觉lucene.solr很牛逼.我个人也认为solr.lucene确实非常NB,他涵盖了信息检索的几乎全部基础知识和非常高性能的实现方式.从solr的结构,扩展.维护整体看,发现有非常多的"工程亮点",熟读solr定会增

一分钟了解互联网数据挖掘流程

  1.爬虫抓取网络数据 真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了. Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引.我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据.nutch支持把抓取的数据转化成文本,如(PDF.WORD.EXCEL.HTML.XML等形式)转换成纯文字字符. Nutch与Hadoop集成,