试用nutch

今天看站点的log,发现有几个搜索nutch的反向链接过来。其实我只是在java编码规范一文提了一下这个词,这样的结果肯定让前来的朋友倍感失望。

下面将我对nutch的一些试用公布一下,供有兴趣的朋友参阅。需要说明的是,nutch现在没有稳定的release,还在不断地根据反馈进行修改,而且目前还不支持汉语的检索。总而言之,现在这个版本对中国用户而言还不实用。我想,这也应当是一直研究并关注nutch的车东没有写笔记的原因吧。

前几天和车东在msn上谈起,觉得目前搭建网站时实现本站检索的最好的方案,是采用车东基于lucene的开源项目web lucene的软件包。而nutch似乎比较适合于建立垂直搜索引擎网站,至少目前如此,我认为。

1、下载安装

不知为什么,这个网站不能直接访问。我用的是2003-09-18的打包(有兴趣的朋友可从此下载),在Red Hat Linux 8.0+JRE 1.4.1+Tomcat 4.1试用通过。

tar zxvf nutch-2003-09-18.tar.gz

cd nutch-2003-09-18 <----命令执行完后所在目录称之为$NUTCH_HOME,仅供描述之用。

ant

ant package

bin/nutch <---如果一切正常,此时应出现“Usage: nutch COMMAND”等字样

2、试运行脚本说明

这个脚本是cutting在tutorial中说明的整理。脚本中的命令最好通过脚本依次运行,$s1、$s2和$s3三个变量的赋值表达式是一样的,但三个值不相同,这依赖于运行的上下文。我第一次运行时,就犯了弱智的错误,拆开运行,结果出错。:)

初始准备    
  mkdir db 建立目录存放web database
  mkdir segments  
  bin/nutch admin db -create 建一个新的空的数据库
第一轮抓取    
  bin/nutch inject db -dmozfile content.rdf.u8 -subset 3000 从DMOZ列表中取得URL并加入数据库
  bin/nutch generate db segments 根据数据库内容,生成一个抓取列表(fetchlist)
  s1=`ls -d segments/2* | tail -1` 刚才生成的抓取列表放在最后一个目录中,取其名
  bin/nutch fetch $s1 利用机器人抓页面
  bin/nutch updatedb db $s1 利用抓取结果更新数据库
第二轮抓取    
  bin/nutch analyze db 5 迭代5次分析页面的链接
  bin/nutch generate db segments -topN 1000 将排行前1000个URL生成新的抓取列表
  s2=`ls -d segments/2* | tail -1` 执行抓取、更新、并迭代2次分析链接
  bin/nutch fetch $s2  
  bin/nutch updatedb db $s2  
第三轮抓取    
  bin/nutch analyze db 2  
  bin/nutch generate db segments -topN 1000  
  s3=`ls -d segments/2* | tail -1`  
  bin/nutch fetch $s3  
  bin/nutch updatedb db $s3  
  bin/nutch analyze db 2 (为下一次做准备?)
索引并去重    
  bin/nutch index $s1  
  bin/nutch index $s2  
  bin/nutch index $s3  
  bin/nutch dedup segments dedup.tmp  
重启tomcat    
  catalina.sh start 在./segments所在的目录中启动
时间: 2024-08-03 16:11:34

试用nutch的相关文章

Nutch 笔记(一):Quick Start

最近用到了nutch,目的是针对指定的一些网站抓取其内容,然后做分析用. nutch 笔记是我使用nutch过程一系列总结,写下自己的学习经过和大家一起分享,也希望能得到大家的指点 好了,废话少说,言归正传,第一篇:Quick Start,我们的目标是快速的能跑起来,能检索出我们想要的结果. 首先要明白nutch是什么? nutch是一个基于lucene的开源搜索引擎,它包括了所有你想要的东西,是一个完整的解决方案 . 一:安装JDK 如果你已经安装了JDK,并且已经设置了JAVA_HOME,那

转 编写一个最简单的Nutch插件

nutch是高度可扩展的,他使用的插件系统是基于Eclipse2.x的插件系统.在这篇文章中我讲解一下如何编写一个nutch插件,以及在这个过程中我遇到的坑. 请先确保你在eclipse中成功运行了nutch,可以参考在eclipse中运行nutch 我们要实现的插件的功能是接管抓取过程,然后无论抓取什么网址,我们都返回hello world,够简单吧... 插件机制 nutch的插件机制大致是这样:nutch本身暴露了几个扩展点,每个扩展点都是一个接口,我们可以通过实现接口来实现这个扩展点,这

Reveal App试用时间破解

以下内容仅用于学习逆向工程.用到的工具有Hopper,lldb. iOS应用调试利器Reveal不必多介绍.应用可以免费试用.目测时间校验并不严谨,修改系统时间就可以将试用状态从已过期变为未过期.先改时间到多天以后,运行会弹出"Your free trial of Reveal has expired".接下来切入正题. 更新:以下方法在1.6.1版本中仍然试用.如果你不关心探索过程,寻找关键代码这一节略过,动手的时候绕过应用自身校验这一节与绕过过期弹窗交换顺序. 寻找关键代码 使用的

360极速浏览器试用扩展程序教程

360极速浏览器试用扩展程序的方法如下: 访问360极速浏览器的扩展中心,查找感兴趣的扩展程序.如果找到了感兴趣的扩展程序,那可以安装试用. 360极速浏览器是一款极速.安全的无缝双核浏览器.它基于Chromium开源项目,具有闪电般的浏览速度.完备的安全特性及海量丰富的实用工具扩展.此外,为了更适合国内用户使用,它加入了鼠标手势.超级拖拽.恢复关闭的标签.地址栏下拉列表等实用功能,配合原有Chromium的顺滑操作体验,让浏览网页时顺畅.安心. 360极速浏览器是国内最安全的双核浏览器.360

转 解析Nutch插件系统

一. 在Nutch的插件体系架构下,有些术语需要解释    1.扩展点(ExtensionPoint )       扩展点是系统中可以被再次扩展的类或者接口,通过扩展点的定义,可以使得系统的执行过程变得可插入,可任意变化.     2.扩展 ( Extension )       扩展式插件内部的一个属性,一个扩展是针对某个扩展点的一个实现,每个扩展都可以有自己的额外属性,用于在同一个扩展点实现之间进行区分.扩展必须在插件内部进行定义.    3.插件 ( Plugin )       插件实

数据-求一份配置完整简单优化过的nutch

问题描述 求一份配置完整简单优化过的nutch 求一份配置完整简单优化过的nutch.自己弄了一个多月了,但是还是爬取不到太多数据, 爬了10多个小时,却只有5万多条数据,所以想找各位大神要一份配置好的可行的nutch(我暂时还没有配hadoop集群,想单机跑), 我试试,看看是不是我配置的问题......实在搞不定了..也使用过自动更改ip的软件来防止ip被封,但是还是没效果........ 解决方案 建议多进程,多台计算机跑,加快速度,也可能和你的单IP有关 解决方案二: 哦...我用软件设

nutch 代理 本地ip与代理ip之间转换

问题描述 nutch 代理 本地ip与代理ip之间转换 我用的是Nutch1.9版本的,在爬去网站过程中好像因为同一ip访问频繁然后ip被封了,正在尝试用代理,但是如果代理ip被封了的话,nutch会使用本机的ip继续进行爬去吗?然后等本机ip被封的时候又转代理ip进行爬去?这样循环转换..... 解决方案 http://fuliang.iteye.com/blog/148999

jira-为啥现在去JIRA官网申请试用30天的license失败

问题描述 为啥现在去JIRA官网申请试用30天的license失败 sign up atlassian 提示request is missing required from field 'recaptcha_challenge_field' 解决方案 同上,有解答了吗????

nutch简介

1.什么是 nutch Nutch 是一个开源的. Java 实现的搜索引擎.它提供了我们运行自己的搜 索引擎所需的全部工具.2.研究 nutch 的原因 (1) 透明度: nutch 是开放源代码的,因此任何人都可以查看他的排序算法是如何工作的.商业的搜索引擎排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的.更进一步,一些搜索引擎允 许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的.因 此 nutch 对学术搜索和政府类站点的搜索来说,是个好选择,因为一 个公