分布式爬虫技术架构

Spiderman

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构:

依赖关系如下:

webmagic

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

工程结构:

工程间的关系:

众推

用整体正在进行中,目前积中在分布式爬虫阶段。

目前设计阶段的结构为:

基本思想为:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要调用的核心包。

RULES:规则处理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式处理部分。

ADAPTER:代理适配部分。

STORE:存储层。

目前项目的地址在:

https://github.com/zongtui/zongtui-webcrawler

时间: 2024-09-20 19:50:43

分布式爬虫技术架构的相关文章

数据产品设计专题(5)- 分布式数据仓库技术架构

一.分布式数据仓库技术架构 二.核心内容解读  (1)分布式数据仓库存储技术:hive+hdfs:  (2)事实计算平台技术框架:spark:  (3)数据挖掘算法技术框架:mllib + sparkR

众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定. 大家决定 全力以付,集中攻克"分布式爬虫". 分布式爬虫架构1 使用队列,即生产者,消费都模式. 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取. 分布式爬虫架构2 类似于webmagic,webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫.webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取.页面

OceanBase 1.0 分布式技术架构

OceanBase 1.0项目从2013年初开始做总体设计,2014年开始编码.测试,2015年底正式上线并无缝迁移部分集团MySQL业务,直到2016年中才正式上线蚂蚁核心业务,包括会员视图.花呗.账务,等等,最后"丝般柔顺"地通过了2016年双十一大考. 从技术架构的角度看,一个分布式数据库主要就是两个部分:一个部分是怎么做存储,怎么做事务:另外一个部分是怎么做查询.首先我们看第一个部分,主要是三个关键点:可扩展.高可用以及低成本,它们代表了OceanBase的核心技术优势. 分布

系列解读:《信息技术区块链和分布式账本技术参考架构》(一)

雷锋网(公众号:雷锋网)注:本文来自全国信标委软件工程分技术委员会(微信号:TC28_SC7),获授权发布. 一.引言 区块链作为一种颠覆性的创新应用模式,其广泛的应用范围在价值创造优势的同时也带来了挑战,尤其是各行业缺乏核心的理念和基本技术共识,使得行业发展碎片化严重.并且,区块链跨领域.跨业务的特性一定程度上增加了社会交易成本.总的来说,区块链应用的开发和部署缺乏标准化引导,缺乏安全性.可靠性和互操作性的评估方法. 应对这些技术和业务上的挑战需要一个描述区块链基本图像的标准,也就是参考架构标

浅析阿里数据技术架构(下)大规模分布式知识图谱

阿里数据要做的是:把数据真正打通,深度挖掘数据的价值,为业务创新应用提供数据决策基础和依据. 下面具体介绍我们在大规模分布式知识图谱上的技术实践. 为什么需要知识图谱? 大规模知识图谱抽象也是一种图计算.基于大规模分布式知识图谱做了哪些工作?我们为什么要做这样一件事情? 阿里巴巴的生态非常丰富,而丰富的业态背后给我们数据工作者带来的困难就是,我们常常需要接入各种数据,并将他们有效地管理和整合起来,传统的方法,我们可能需要花几个月,投入几十个人做这样一件事情,对数据进行打标. 但是,假设我们已经知

京东技术架构(二)构建需求响应式亿级商品详情页

该文章是根据velocity 2015技术大会的演讲<京东网站单品页618实战>细化而来,希望对大家有用. 商品详情页是什么 商品详情页是展示商品详细信息的一个页面,承载在网站的大部分流量和订单的入口.京东商城目前有通用版.全球购.闪购.易车.惠买车.服装.拼购.今日抄底等许多套模板.各套模板的元数据是一样的,只是展示方式不一样.目前商品详情页个性化需求非常多,数据来源也是非常多的,而且许多基础服务做不了的都放我们这,因此我们需要一种架构能快速响应和优雅的解决这些需求问题.因此我们重新设计了商

分布式防火墙技术

随着政府.企业.个人主机的网络安全需求的与日俱增,防火墙技术应运而生.传统的边界式防火墙是企业内部网络与外部网络的一道屏障,但是其无法对内部网络访问进行控制,也没有对黑客行为进行入侵检测和阻断的功能.企业迫切需要一套真正能够解决网络内部和外部,防火墙和防黑客的安全解决方案,而基于C/S架构的分布式防火墙很好地满足了这一需求:它是由安全策略管理服务器[Server]以及客户端防火墙[Client]组成,综合运用多种先进的网络安全技术,为客户提供可靠的网络安全服务. 一. 分布式防火墙系统架构 分布

空格App亿元A轮融资背后:云上多场景技术架构实践与经验

直播视频: (点击图片观看) 幻灯片下载地址: https://oss.aliyuncs.com/yqfiles/382bc642fc0b621a9368138a74d8fd36.pdf 阿里云在空格   图一 空格服务端整体架构   在空格初始创业阶段,人员十分缺乏,但依靠着阿里云,空格两周便实现APP上线.空格服务端整体架构包括在线和离线两大部分.在线服务端的前端包括用户服务端集群.商家服务端集群和IM PUSH集群:在线服务端的后端由搜索/推荐引擎集群组成:架构底层的存储采用传统的MySQ

基于java的分布式爬虫

分类 分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行.由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫.这些爬虫可能分布在同一个局域网之中,或者分散在不同的地理位置. 根据爬虫的分散程度不同,可以把分布式爬行器分成以下两大类: 1.基于局域网分布式网络爬虫:这种分布式爬行器的所有爬虫在同一个局域网里运行,通过高速的网络连接相互通信.这些爬虫通过同一个网络