原文地址: http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/ 郭 艳芬, IBM 实习生, IBM 简介: Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行,最后以抓取北京林业大学网站为例,介绍如何对其进行扩展,实现只抓取特定网站的页面.
Heritrix 是一个由 java 开发的.开源的网络爬虫,用户可以使用它来从网上抓取想要的资源.其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑.本文详细介绍了 Heritrix 在 Eclipse 中的配置.运行. 目前 Heritrix 的最新版本是 3.1.0(2011-10-21 发布),您可以从 SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载.每个版本都有四个压缩包,两个 .t
1.简单介绍OSI的七层网络模型,画图描绘,描述主要几层的各自作用.OSI(Open System Interconnect,开放系统互连)七层网络模型. TCP/IP四层模型和OSI七层模型 表1-1是 TCP/IP四层模型和OSI七层模型对应表.我们把OSI七层网络模型和Linux TCP/IP四层概念模型对应,然后将各种网络协议归类. 表1-1 TCP/IP四层模型和OSI七层模型对应表 OSI七层网络模型 Linux TCP/IP四层概念模型 对应网络协议 应用层(Applicatio
说实话,我不习惯命令行的操作.但是有些工作必须要使用命令行才能完成操作.比如公司的网络设备,都是通过命令行. 唉,没有办法只能去适应了.先来说说Telnet吧.以前我认为Telnet因为是明文的方式进行传输,在实际工作中使用的比较少.但是目前看来我错了,而且错的很离谱呢. 公司很多的管理都是通过Telnet进行的. 除此之外,还有SSH.这个我还是知道的.相对于Telnet来说,SSH还是很安全的. 平时使用Telnet时,要么是使用本机自带的Telnet客户端.操作起来还行,但是前提是本机一定
数据库中间件 这里主要介绍互联网行业内有关数据库的相关中间件.数据库相关平台主要解决以下三个方面的问题: 为海量前台数据提供高性能.大容量.高可用性的访问 为数据变更的消费提供准实时的保障 高效的异地数据同步 应用层通过分表分库中间件访问数据库,包括读操作(Select)和写操作(update, insert和delete等,DDL, DCL).写操作会在数据库上产生变更记录,MySQL的变更记录叫binlog, Oracle的称之为redolog, 增量数据订阅与消费中间件解析这些变更,并以统
周末花时间看了一些比特币原理相关的资料,虽然不敢说把每个细节都完全搞懂了,不过整体思路和关键部分的主要原理还是比较明白.写一篇文章分享给大家.这篇文章的定位会比较科普,尽量用类比的方法将比特币的基本原理讲出来.这篇文章不会涉及算法和协议中比较细节的部分,打算后面会再写一篇程序员视角下的比特币原理,那里会从技术人员的视角对比特币系统中较为关键的数据结构.算法和协议进行一些讲解. 在这篇文章中我会给出一个虚拟的村庄叫"比特村",整个文章会以讲故事的方式,逐步告诉大家比特币提出的动机.解决了
WPF 中 Graphics 相关的类有时候看起来比较晕,有些类的命名也比较相近,所以画出下面几个图,帮助记忆: 1. Geometry 几何图形 2. PathGeometry 路径几何图形 3. Shape 4. Drawing & Visual
问题描述 匹配相关内容,就像邮箱一样 怎么实现在文本框里输入字符串并出现相关的字符串,并且点击出现的内容并在出入框中显示 解决方案 做一个表格,记录相关的内容,然后在输入的文本框里写代码,内容变化时过滤表格来实现你说的功能,用户选择表格中某一行时,把值赋到文本框里 解决方案二: 网页上的一种局部刷新东西搞的?匹配字符完后返回给div?纯属路过 解决方案三: 网页上的一种局部刷新东西搞的 ajax