Heritrix Extractor的问题

问题描述

我用了Heritrix写垂直爬虫我写了一个Extractor在爬虫里面不能爬到信息：下面是代码if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中，以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}可是没有下载到一个页面,我把这个爬虫写到另一个爬虫里面，代码是一样的if(newUrl.matches(PATTERN_SERIES)){//将链接加入到队列中，以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}elseif(newUrl.matches(PATTERN_P)){//链接加入到队列中，以备后续处理addLinkFormString(curi,newUrl,"",Link.NAVLINK_HOP);}改成上面那样就下了200多个页面。。。好奇怪啊我怀疑是链接迭代的时候太靠后了，而爬虫爬完了所有页面，就停止了爬虫。。希望有高手帮忙解决

解决方案

本帖最后由 alanww 于 2009-08-27 12:00:57 编辑

时间： 2024-07-28 17:17:27

Heritrix Extractor的问题的相关文章

利用 Heritrix 构建特定站点爬虫

原文地址: http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/ 郭艳芬, IBM 实习生, IBM 简介: Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面.

Heritrix3.x自定义扩展Extractor

一.引言: Heritrix3.x与Heritrix1.x版本差异比较大,全新配置模式的引入+扩展接口的变化,同时由于说明文档的匮乏,给Heritrix的开发者带来困惑,前面的文章已经就Heritrix的配置部署和运行做了说明,本文就Heritrix3.x版本就Extractor扩展做出实例说明. 二.配置说明 Heritrix3.x的WebUI发生了变化,不在是原来那种WebUI选择模式,而是变成了在线配置文件直接编辑模式.在这里自定义的Extractor要想加入Heritrix运行,首先需要

java-过滤Heritrix爬虫爬取的内容时的异常

问题描述过滤Heritrix爬虫爬取的内容时的异常 java.lang.NullPointerException at com.luceneheritrixbook.extractor.pconline.mobile.ExtractPconlineMoblie.extract(ExtractPconlineMoblie.java:121) at com.luceneheritrixbook.extractor.Extractor.traverse(Extractor.java:208) at

T-SQL Extractor

/****************************************************************************** * Author: iret * Desc: T-SQL Extractor * Extract the comments and blanks and tabs from the SQL statement * 为了比较两个存储过程,或者SQL语句是否一致,抽空写了一个可以删除T-SQL 语句中的注释和空格的脚本,挺

提取SWF Extractor Flash动画中的背景音乐

核心提示:当你找到一首精彩动听的Flash MTV时,一定想立即得到它的MP3歌曲文件.毕竟MP3文件不仅容易播放,而且管理和收藏也很方便. 当你找到一首精彩动听的Flash MTV时,一定想立即得到它的MP3歌曲文件.毕竟MP3文件不仅容易播放,而且管理和收藏也很方便. 谈到Flash MTV变MP3,大家首先想到的可能是找转换工具.不过,能把Flash格式的SWF文件转换为MP3的工具不多,并且在转换的过程中可能存在音质损失.其实,无需转换工具,用分解工具拆分SWF文件,直接把它里面的音

DNF Extractor修改DNF背景图片与时装

dnf Extractor下完后直接安装就行,在这个界面有4个东西,修改DNF只需要安装DNF Extractor就足够了,其他3个是其他游戏的修改软件,装不装随便. /腾讯游戏/地下城与勇士/ImagePack2文件夹: sprite_map_cutscene.NPK 城镇和载入图背景 sprite_worldmap.NPK 进入地下城背景图 sprite_interface.NPK:背景主文件 (createcharacter.img 创建角色背景图 newselectcharacter

开源爬虫: Heritrix 1.14.4 安装/使用

Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行. 目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布),您可以从 SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载.每个版本都有四个压缩包,两个 .t

关于Heritrix运行错误的问题

问题描述各位大侠,我Heritrix配置正确了,进入后运行jobs的默认出现以下问题08:32:21.718EVENTStartingJetty/4.2.2308:32:21.875EVENTStartedWebApplicationContext[/,HeritrixConsole]08:32:21.906EVENTThescratchDiryouspecified:E:HeritrixHeritrixtargetjsp-compiled-developmentisunusable.08:3

Java函数怎样注册到heritrix程序中

问题描述这样的.我需要在Java程序中监听heritrix的爬虫结果.heritrix每爬到一个URI,我的Java程序就能知道.请问,heritrix提供了这个扩展吗?我找了heritrix的文档,好像没提到,或许是我没看清吧.Java如何注册到一个程序中,监听这个程序中某项数据的变化.急急急,在线等求大神!!! 解决方案

猜你喜欢

类 String详细用法小结

所有已实现的接口: Serializable, CharSequence, Comparable<String> public final class String extends Obj ...

PHP 5昨天隆重推出--PHP 5/Zend Engine 2.0新特性

前言今天突然想到PHP官方网站上一转,一眼就看到PHP5推出的通告.虽然以前看到过PHP5的预告,但还是仔细看了PHP 5/Zend Engine 2.0新特性一文,一股JAVA气息扑面而来. ...

ASP.NET 2.0中的登陆控件简介（2）

asp.net|控件 Login控件拖拉一个Login控件到窗体中,就发现和平时见到的登陆窗口差不多了,在该控件的属性窗口中,比较重要的是DestinationPageUrl 属性,该属 ...

利用静态只读字段和静态构造函数提高性能

主要内容一句话概括: 把相对固定的数据在编译时仅通过查询一次数据库填充到公开的静态只读泛型集合类型字段中从而杜绝后续可能的数据库查询以提高性能. 相关背景:我们的应用程序中常常需要一些类似全国的省份列 ...

Lua时间转化的几个小例子

这篇文章主要介绍了Lua时间转化的几个小例子,本文直接给出3段例子代码,需要的朋友可以参考下 1.把时间秒,转化为xx天xx时xx分xx秒的形式代码如下: --把时间秒,转化为xx天xx时 ...

Python实现的彩票机选器实例

本文实例讲述了Python实现彩票机选器的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ...

PhotoShop调出室内美女清新小日系色调效果教程

原图: 三联推荐:photoshop7.0迷你版免费下载 | Photoshop CS5 中文免费下载 | photoshop免费下载效果图: 用修补工具先钩钩用图 ...

JQuery中阻止事件冒泡几种方式及其区别介绍

JQuery中阻止事件冒泡方式有哪些?本文为大家准备了两种阻止事件冒泡的方式,两种方式的区别在于.return false 不仅阻止了事件往上冒泡,而且阻止了事件本身 JQuery 提供了两种方式来 ...

PS后期必学颜色通道新用途

颜色通道新用途在讨论"色彩范围"命令时,读者可能会诧异,得到的选区通道图像与原始图像是那么相似.那么,颜色通道除了表示颜色值之外,能不能作为选区使用呢? 回答是毫无疑问的.颜 ...

Win7系统A卡玩游戏如何设置全屏

各位用户在w764位旗舰版A卡下运行游戏的时候,是否会碰到不能全屏的问题?这种问题为各位玩家带来了极大的困扰,同时又由于这样的问题,恶化了玩家对游戏的体验,不利于玩家长期的畅快游玩游戏,此次将为各 ...

win7系统双击鼠标无法打开回收站的解决方法

1.从图标上能够看到里面有很多的文件.但双击回收站之后并不能打开窗口; 2.打开计算机,单击"工具--文件夹选项"; 3.在打开的文件夹选项窗口中,文件夹栏目和隐藏文件之间直接 ...

ios-导航条的自定义返回键显示不对

问题描述导航条的自定义返回键显示不对设置自定义的返回键,没显示出预期的效果.back键被拉长了,而且button内没有文本时,还是会显示back字符. 解决方案首先看不到你提供的图片.但根据你的 ...

英特尔-Intel Hardware Accelerated Execution Manager安装失败

问题描述 Intel Hardware Accelerated Execution Manager安装失败我已经在BIOS中开启了virtualization technology,为什么还会出现这 ...

安卓自学小白第一天安全卫士 Splash 页面闪退求高人指教

问题描述安卓自学小白第一天安全卫士 Splash 页面闪退求高人指教解决方案在mainyfest文件中申明activity没有解决方案二: 建议你的这个splashActivity 去ex ...

教你一步步实现Android微信自动抢红包_Android

本文介绍微信自动抢红包的实现方法,主要实现以下几个功能: 1.自动拆开屏幕上出现的红包 2.处于桌面或聊天列表时接收到红包信息时自动进入聊天界面并拆红包 3.日志功 ...

终于开发完成的通用软件框架。请大家试试看，给予讨论。

问题描述下载页面http://download.csdn.net/source/244821个人联系可以发信到generic_engine@hotmail.com 解决方案解决方案二:mark解决 ...

专攻年轻女性市场的移动消息应用Cubie

近日,据<移动新发现>报道,在竞争已经白热化的移动消息服务市场,已经拥有Skype.WhatsApp.Kik.Line.微信等众多应用,但来自台湾的Cubie证明了新来者似乎还能在该领域找 ...

用哲学来谈一下SEO

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅哲学是对自然知识.社会知识和思维知 ...

个人信息保护上半年出国标

工业和信息化部信息安全协调司副司长欧阳武昨天接受记者专访时透露,<信息安全技术公共及商用服务http://www.aliyun.com/zixun/aggregation/32730.html ...

mysql多表查询连接问题,

问题描述 mysql多表查询连接问题, 题目:查询平均成绩在80分及以上的所有学生的学号及平均成绩并按平均成绩降序排列. SELECT s1.sno FROM student s1,class c1, ...

大数据-一个程序中，TCP协议用的muduo网络库，UDP协议可以用boos.asio吗？

问题描述一个程序中,TCP协议用的muduo网络库,UDP协议可以用boos.asio吗? 通过TCP协议接收数据,解析好,在用UDP协议转发. UDP转发是后面增加的,muduo网路库不支持Udp ...

窃听风云| 苏联如何用IBM打字机获取美国情报

在一份首次发表后几年最近又重新浮出水面的国家安全局备忘录中,记载了对很可能是全世界史上第一个键盘记录器的详细分析:七十年代苏联间谍将窃听器植入美国外交官的IBM Selectric电动打字机,用来监视 ...

网络赌博社会危害性极大

赌徒朱某在赌场上屡战屡败,为翻本他萌生了利用境外赌博网站开赌场赚钱的念头.本以为http://www.aliyun.com/zixun/aggregation/7491.html">自 ...

mysql常用日期与时间函数详解

MySQL 日期类型:日期格式.所占存储空间.日期范围比较. 日期类型存储空间日期格式日期范围 ------------ --- ...

液晶拼接屏的专业术语有哪些

随着越来越多的生产厂商在这项技术上的投入,液晶拼接屏的相关参数逐渐提高,低功耗.重量轻.寿命长(一般可正常工作5万小时以上),具有无辐射.画面亮度均匀.色泽鲜艳等优点,且拼接缝隙也在逐渐缩小,从7.6 ...

解析json数据

问题描述如何解析网上获取的json数据格式如:{"error_code":0,"reason":"Success","resul ...

HotSpotVM attach机制小结

前面文章我们已经提到过了JDK自带的jstack是使用的Dynamic Attach机制.下面是官方文档对该机制的描述, This is a Sun private mechanism that al ...

《BI项目笔记》创建时间维度（1）

原文:<BI项目笔记>创建时间维度(1) SSAS Date 维度基本上在所有的 Cube 设计过程中都存在,很难见到没有时间维度的 OLAP 数据库.但是根据不同的项目需求, Date ...

发布一个消息框架

问题描述发布一个消息框架,该框架由奕和工作室封装.版本v1.0:制定所有信息模板式发送,接收,持久化存储,消息过滤器功能现支持email发送,接收,过滤器功能.正在扩展:短信猫,短信通道,MQ,mi ...

宁波GQY上市三日即破发分析师回避原因

点击查看最新行情宁波GQY:主营业务市场虽大,但或受限需求韩志刚 5月4日,踏上创业板才三天的宁波GQY(300076.SZ)也加入了破发的队伍. 年初以来,新股开始出现逐个破发,而且破发速度越来 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.024 s.