基于java的分布式爬虫

分类

分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置。

根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类:

1、基于局域网分布式网络爬虫:这种分布式爬行器的所有爬虫在同一个局域网里运行,通过高速的网络连接相互通信。这些爬虫通过同一个网络去访问外部互联网,下载网页,所有的网络负载都集中在他们所在的那个局域网的出口上。由于局域网的带宽较高,爬虫之间的通信的效率能够得到保证;但是网络出口的总带宽上限是固定的,爬虫的数量会受到局域网出口带宽的限制。

2、基于广域网分布式网络爬虫:当并行爬行器的爬虫分别运行在不同地理位置(或网络位置),我们称这种并行爬行器为分布式爬行器。例如,分布式爬行器的爬虫可能位于中国,日本,和美国,分别负责下载这三地的网页;或者位于CHINANET,CERNET,CEINET,分别负责下载这三个网络的中的网页。分布式爬行器的优势在于可以子在一定程度上分散网络流量,减小网络出口的负载。如果爬虫分布在不同的地理位置(或网络位置),需要间隔多长时间进行一次相互通信就成为了一个值得考虑的问题。爬虫之间的通讯带宽可能是有限的,通常需要通过互联网进行通信。

大型分布式网络爬虫体系结构图

分布式网络爬虫是一项十分复杂系统。需要考虑很多方面因素。性能可以说是它这重要的指标。当然硬件层面的资源也是必须的。

架构

下面是项目的总体架构,第一个版本基于此方案来做。

上面的web层包括:控制台、基本权限、监控展示等,还可以根据需要再一步进行扩展。

核心层由控制者统一调度,将任务发给工人队列中的工人进行爬取操作。各个结点动态的向监控模块发送模块状态等信息,统一由展示层展示。

项目目标

众推,开源版的今日头条!

基于hadoop思维的分布式网络爬虫。

目前已经将fourinone、jeesite、webmagic整合进来,并且进一步进行改进。想最终做成一个基于设计器的动态可配置的分布式爬虫系统,这个是第一阶段的目标。

项目目前情况

目前项目进展情况:

1、sourceer,可以接入多种数据源,接口已经定义(加入builder封装,可以使用简单爬虫)。

2、web架构工程(web工程上传并测试成功,权限、基础框架改造,导入等已经录成视频,删除activiti,删除cms部分)。

3、分布式框架研究(分布式项目分包,添加部分注释,测试单机单工人爬取)。

4、插件化整合。

5、文章等各种去重方式及算法(目前已实现bloomfilter,指纹算法去重,已经实现simhash,分词算法(ansj))。

6、分类器测试(bayes,文本分类单机测试成功)。

项目地址:

(分布式爬虫)http://git.oschina.net/zongtui/zongtui-webcrawler

(去重过滤器)https://git.oschina.net/zongtui/zongtui-filter

(文本分类器)https://git.oschina.net/zongtui/zongtui-classifier

(文档目录)https://git.oschina.net/zongtui/zongtui-doc

项目界面:

启动jetty,目前皮肤暂时还未换。

总结

目前项目正在进一步完善当中,希望能得到你更多的意见!

时间: 2024-08-04 08:15:43

基于java的分布式爬虫的相关文章

java基于web的一个爬虫

问题描述 java基于web的一个爬虫 在第一个控件先输入一个范围数字i作为学号 然后密码是234 然后登陆 然后登陆 然后保存页面 然后for i加一 解决方案 这不算爬虫,只是一个网页抓取而已http://blog.csdn.net/zgyulongfei/article/details/7909006 要处理登录,只要带上cookie里面的session id,具体你可以用fiddler看下. 解决方案二: java写一个爬虫一个简化版的Java多线程爬虫Java开源Web爬虫

详解Java如何实现基于Redis的分布式锁_java

前言 单JVM内同步好办, 直接用JDK提供的锁就可以了,但是跨进程同步靠这个肯定是不可能的,这种情况下肯定要借助第三方,我这里实现用Redis,当然还有很多其他的实现方式.其实基于Redis实现的原理还算比较简单的,在看代码之前建议大家先去看看原理,看懂了之后看代码应该就容易理解了. 我这里不实现JDK的java.util.concurrent.locks.Lock接口,而是自定义一个,因为JDK的有个newCondition方法我这里暂时没实现.这个Lock提供了5个lock方法的变体,可以

基于JAVA技术的搜索引擎的研究与实现

搜索引擎 摘要 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人.索引引擎.Web服务器三个方面进行详细的说明.为了更加深刻的理解这种技术,本人还亲自实现了一个自己的搜索引擎--新闻搜索引擎. 新闻搜索引擎是从指定的Web页面中按照超连接进行解析.搜索,并把搜索到的每条新闻进行索引后加入数据库.然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻. 本人在介绍

9个基于Java的搜索引擎框架

在这个信息相当繁杂的互联网时代,我们已经学会了如何利用搜索引擎这个强大的利器来找寻目标信息,比如你会在Google上搜索情人节如何讨女朋友 欢心,你也会在百度上寻找正规的整容医疗机构(尽管有很大一部分广告骗子).那么如果在你自己开发的网站系统中需要能让用户搜索一些重要的信息,并且能以 结构化的结果展现给用户,下面分享的这9款Java搜索引擎框架或许就可以帮助到你了. 1.Java 全文搜索引擎框架 Lucene 毫无疑问,Lucene是目前最受欢迎的Java全文搜索框架,准确地说,它是一个全文检

众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定. 大家决定 全力以付,集中攻克"分布式爬虫". 分布式爬虫架构1 使用队列,即生产者,消费都模式. 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取. 分布式爬虫架构2 类似于webmagic,webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫.webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取.页面

阿里中间件技术专家魏鹏:基于Java容器的多应用部署技术实践

首届阿里巴巴在线技术峰会(Alibaba Online Technology Summit),将于7月19日-21日 20:00-21:30 在线举办.本次峰会邀请到阿里集团9位技术大V,分享电商架构.安全.数据处理.数据库.多应用部署.互动技术.Docker持续交付与微服务等一线实战经验,解读最新技术在阿里集团的应用实践. 阿里巴巴在线技术峰会专题:https://yq.aliyun.com/activity/97峰会统一报名链接:https://yq.aliyun.com/webinar/j

构建自己的基于Java的超级计算机

构建自己的基于 Java 的超级计算机 作者:转载自:如果您曾想过构建自己的超级计算机,但却对用 C 语言进行并行编程望而生畏,那么伪远程线程可以帮您解决这一问题.这种获奖的 Java 编程模型极大地简化了集群上的并行编程,并使超级计算走出实验室,使每一位 Java 程序员都能使用它.在过去的三年里,并行集群已在改变着超级计算的面貌.一旦价值数百万美元的单体机占了主导,并行集群很快就会成为超级计算机的选择.可以想像得到,开放源码圈内的高涨热情已导致产生了数百 -- 如果不是数千的话 -- 并行集

基于Java的PHP框架

简介 Quercus 是一个开源 PHP 5 引擎,它已经拥有了纯 Java 的完整实现.Quercus 文档指出,Quercus 在 Resin 应用服务器之上运行,利用了负载平衡.代理缓存等 Resin 特性.本文介绍了在 Apache Tomcat 之上运行 Quercus 所提供的特性.另外,本文还将展示 Quercus 针对 Web 服务和应用程序的 "PHP + Java" 混合方法的易用性和灵活性. 为何选择 Quercus? Quercus PHP 库在 Java 中得

WebSphere Application Server 中现代化的基于 Java 的批处理(四)

与企业调度程序相集成 简介 IBM WebSphere Application Server V8.5 和更高版本为基于 Java 的批处理应用程序提供了一个执行平台.除了提供功能丰富的编程模型和高级特性,比如并行处理.跳过记录处理.重试步骤处理和 COBOL 支持,它还为批处理程序提供了企业级 "质量",比如可用性.可恢复性和性能.与 WebSphere Application Server 支持相结合,WebSphere Batch 可成为一个富有吸引力的企业批处理解决方案选择.