多线程爬虫的设计问题

问题描述

大家好，最近要写个基于爬虫的小工具，主要是爬行单个网站并解析数据保存其中需要的内容。我的想法是这样的，爬行线程从unsearchedUrl队列中取出url，去请求该url将获取的页面响应及其url存入到unparsedResponse队列中，解析线程从unparsedResponse队列中取出一条响应，分析该响应中包含的超链接，过滤掉重复的链接后存入unsearchedUrl队列中，当然，解析线程还要进行其他内容的提取。我这样做主要是为了提高性能，对每个url只进行一次网络访问。现在主要的问题是单个的线程实现了，可是爬行线程和解析线程同时多个进行不知该怎么弄，麻烦大家给分析分析，谢谢！下面是参考流程图。问题补充：要是用ExecutorService线程池来做的话，那任务里应该是怎么写呢，我想把爬行和解析响应分开onlylau 写道

解决方案

你可以试下用线程池,取得的url可以放到队列中看看java.util.concurrent包下的相关类如线程池类：java.util.concurrent.ThreadPoolExecutor
解决方案二：
其实，我不是很看得懂楼主的意思，就随便谈谈，看看对楼主有没有什么启发：1.楼主可以弄一个监听线程，只要爬虫队列里有url，就生成一个线程，并且线程活动数加1线程完成的话，就要活动数减一。同理，对应解析线程。2.只要队列，跟活动数为0就是程序结束的标志。3.使用一定的同步机制，防止出错。

时间： 2025-01-20 13:13:59

多线程爬虫的设计问题的相关文章

垂直型爬虫架构设计(1)

从事爬虫方向开发马上也将近两年时间了,今天基友问我关于爬虫的架构设计问题.其实这么久也想总结一下自己的整个开发的过程,架构的设计问题..对自己进行一些总结..仅作参考. 1.爬虫的分类 : 对于我来说,爬虫分为两类: 需要载入配置文件的爬虫与不需要载入配置文件的爬虫. 其实也就是人们常说的垂直型爬虫跟宽度(深度)遍历爬虫. 2.爬虫的架构: 1.宽度遍历爬虫. 做过SEO的朋友大概都知道,如果一个网站需要百度能够尽快的抓取,那么仅仅优化关键词,提高权重等都是比较简单的优化,爬虫友好性需要网站在建

使用Python多线程爬虫爬取电影天堂资源_python

最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. 先来简单介绍一下,网络爬虫的基本实现原理吧.一个爬虫首先要给它一个起点,所以需要精心选取一些URL作为起点,然后我们的爬虫从这些起点出发,抓取并解析所抓取到的页面,将所需要的信息提取出来,同时获得的新的URL插入到队列中作为下一次爬取的起点.这样不断地循环,一直到获得你想得到的所有的信息爬虫的任务

php与python实现的线程池多线程爬虫功能示例_php技巧

本文实例讲述了php与python实现的线程池多线程爬虫功能.分享给大家供大家参考,具体如下: 多线程爬虫可以用于抓取内容了这个可以提升性能了,这里我们来看php与python 线程池多线程爬虫的例子,代码如下: php例子 <?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { sel

Python 爬虫学习笔记之多线程爬虫_python

XPath 的安装以及使用 1 . XPath 的介绍刚学过正则表达式,用的正顺手,现在就把正则表达式替换掉,使用 XPath,有人表示这太坑爹了,早知道刚上来就学习 XPath 多省事啊.其实我个人认为学习一下正则表达式是大有益处的,之所以换成 XPath ,我个人认为是因为它定位更准确,使用更加便捷.可能有的人对 XPath 和正则表达式的区别不太清楚,举个例子来说吧,用正则表达式提取我们的内容,就好比说一个人想去天安门,地址的描述是左边有一个圆形建筑,右边是一个方形建筑,你去找吧,而使

php与python 线程池多线程爬虫的例子

php例子 <?php class Connect extends Worker //worker模式 { public function __construct() { } public function getConnection() { if (!self::$ch) { self::$ch = curl_init(); curl_setopt(self::$ch, CURLOPT_TIMEOUT, 2); curl_setopt(self::$ch, CURLOPT_R

多线程爬虫 CPU 占用 100%的问题

问题描述之前的解析用的是正则表达式,没什么问题,三十个线程稳稳的,后来改成了XPath的方式取页面内容,CPU没一会就占用到了百分之百解决方案解决方案二:这是线程监控解决方案三:线程状态是等待的,应该不是这个线程的问题是不是有些线程中出异常了,如果对方的网页html并没遵循xml规范(标记或者<>不完整),有试过没解决方案四:是查下你是设置了几个线程同时运行的?解决方案五:引用2楼dongxinxi的回复: 线程状态是等待的,应该不是这个线程的问题是不是有些线程中出异常了,如果对方的网页

[申精]淘宝网爬虫引擎设计架构图等

问题描述我曾经是一名JAVAWEB程序员,2009年12月辞去工作后,来到北京找工作,我现在在一家金融公司做网管,白天工作很是郁闷(网管的郁闷想必大家都知道吧,领导不重视技术,看待搞技术的和看待民工类似),只有晚上下班后,才是我的自由程序员时间,沉浸在我编程得到快感之中.我现在利用我所有的闲余时间,所有的周末.制作了淘宝网决策搜索引擎啊.但随着项目的制作进展,我发现<淘宝网>自身由于掌握自己数据库,做的会比我更好,目前我计划将项目做成一个网罗各大购物网站的专业搜索引擎,提供各种商品和商家的情

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码_python

复制代码代码如下: #coding=gbkfrom xml.dom import minidom,Nodeimport urllib2,re,osdef readsrc(src): try: url = urllib2.urlopen(src) content = url.read()#.decode('utf-8') return content except: print 'error' return Non

如何使用.Net来设计一个爬虫系统

创业以来尝试过好几个创业项目,在每次 bootstrap的时候,往往都需要借助于一些Internet上的内容,这里不可避免的就需要写一些简单的爬虫来抓取一些数据来完成项目的初期引导.这些小的爬虫对于我学习.Net,Http Protocol, Framework Design, Design Patterns提供了很多的帮助.爬虫版本的一次一次refactoring和upgrade都往往能够加深我对于某些领域的知识的掌握. Open source方面比较有名的爬虫项目有Nutch和Heritri

猜你喜欢

获得本机IP和名称

//iplabel.javaimport java.net.*;import java.awt.*;import javax.swing.*; public class iplabel{JFrame ...

Java正则表达式详解(上)

详解|正则如果你曾经用过Perl或任何其他内建正则表达式支持的语言,你一定知道用正则表达式处理文本和匹配模式是多么简单.如果你不熟悉这个术语,那么"正则表达式"(Regular ...

使用SQL-DMO实现定制SQL Scripts

我是个负责数据库应用的开发人员,昨夜和旧同事电话聊天中谈到了一个大家共同的苦恼:因为几乎每天都要将自己的数据库项目生成SQL Scripts 以供备份存档或发给客户更新,所以生成SQ ...

入门知识：动态网页PHP编程中字符串5个技巧

字符串注意单引号和双引号的区别注意转义字符\的使用\\,\",\$注意使用8进制或16进制字符表示 \xf6echo "H\xf6me";//需要察看是否支持此类文字编码 ...

uclinux-2008R1-RC8(bf561)到VDSP5的移植(51)：fork.c编译失败

出现一个莫明奇妙的编译错误: ../../kernel/fork.c At end of source: : internal error: Uncaught exception Assertion ...

Photoshop给帅哥加上超炫的魔法能量球教程

本教程重点是水晶球部分的制作.作者用简单的滤镜加上一些高光笔刷来完成.过程也比较简单:先用云彩滤镜做出底纹,然后用液化等滤镜加强体积感.大致球体做好后适当改变图层混合模式,只保留高光部分,然后用高光笔 ...

将ps好的图片保存为.pcx格式

编辑好一张图片之后,点击<文件>-<另存为>,将弹出一个对话框.操作如图所示: 接下来就是选择需要保存为的格式了,在下拉选项中选择有.pcx的这一项: 接下来选择保存位置, ...

mfc- MFC读取24位bmp图像出问题了，求大神来解决

问题描述 MFC读取24位bmp图像出问题了,求大神来解决我要实现的是将24位bmp文件读入并在用户区显示,但是显示结果都不对的,谁能来帮忙看下? 注:因为对bmp文件还要做后续的处理(比如RGB转 ...

使用matlab画出椭圆图形以及求出方程

问题描述使用matlab画出椭圆图形以及求出方程已知椭圆上的x,y的坐标矩阵为:x=[0.8812 1.1455 0.6326 0.9475 1.1465 0.4881 1.0438 0.7772 ...

得到一个简单的子目录内容清单

要求:得到一个简单的子目录内容清单.子目录中的每一个文件单独列在一行上.如果是一个下级子目录,在它的名字后面加一个斜线字符"/".下级子目录中的文件在缩进4个空格后一次排列. 打 ...

MySQL向GraphQL迁移

GraphQL 是一个开源的图形数据库(基于Node.js实现), 中文文档: https://graphql.js.cool/ sequelize-auto 将 MySQL 数据库转变成模型 [no ...

HTML5实现图片压缩上传功能

上篇文章中提到移动端上传图片,我们知道现在流量还是挺贵的,手机的像素是越来越高,拍个照动不动就是好几M,伤不起.虽然客户端可以轻轻松松实现图片压缩再上传,但是我们的应用还可能在浏览器里面打开,怎么办呢 ...

HTML5 表单错误信息提前显示

问题描述 HTML5 表单错误信息提前显示 5C HTML5的表单有通过设置错误提示信息的方法 setCustomValidity(""错误提示信息"")但是这 ...

“前.NET Core时代”如何实现跨平台代码重用 ——程序集重用

除了在源代码层面实现共享("前.NET Core时代"如何实现跨平台代码重用 --源文件重用)之外,我们还可以跨平台共享同一个程序集,这种独立于具体平台的"中性" ...

嵌入式-STC89C52利用PCF8591如何采集pulse sensor模拟信号

问题描述 STC89C52利用PCF8591如何采集pulse sensor模拟信号本人是单片机初学者买了个pulse sensor,不过买家配套的单片机例程是STC12的(这个单片机有自带AD的 ...

SDN:优雅的间歇性访问限制

一.项目简介目的:设有一台PC机(Host1),一台Web服务器(Host2)提供简单的静态网页访问服务.通过RYU控制网络流,限制PC访问服务器的频率,如两次访问的间隔不能低于5秒.应用场景: ① ...

Wordpress 网站搭建及性能监控方法详解！

前言说到 Wordpress,大家往往想到的是博客,其实,如今的 WordPress 已经成为全球使用量最多的开源 CMS 系统.并且,如果你有一定的技术基础稍加改动,就可以搭建出新闻网站.企业网站 ...

线程-socket通信中，socket建立连接后能进行长时间的反复读写操作吗？

问题描述 socket通信中,socket建立连接后能进行长时间的反复读写操作吗? 服务端和客户端以socket建立连接进行通信,我想以单线程实现多文件传输,循环发送多个文件,只是对输入输出流进行打开 ...

java-spring的schema申明到底怎么写，有相关说明吗

问题描述 spring的schema申明到底怎么写,有相关说明吗最近学spring,<beans 后面的schema申明书上根本就没说在哪里可以看到,完全没规律啊,spring的文档上也没有一 ...

求助。。。

问题描述这个命令是要完成对一个表的修改.privatevoidalterbtn_Click(objectsender,EventArgse){DataSetds=newDataSet();SqlCo ...

移动开发-如何实现csdn手机客户端

问题描述如何实现csdn手机客户端请问如何在安卓编应用编程实现csdn客户端这样滑动翻页的效果? 解决方案 http://blog.csdn.net/sjf0115/article/details ...

Uvaoj 10048 - Audiophobia（Floyd算法变形）

/* 题目大意: 从一个点到达另一个点有多条路径,求这多条路经中最大噪音值的最小值! . 思路:最多有100个点,然后又是多次查询,想都不用想,Floyd算法走起! */ #include<io ...

php unset全局变量运用问题的深入解析_php技巧

PHP unset全局变量在实际使用中只能销毁局部变量,并不能实现全局变量的目的.下面我们就来具体解决这一问题.希望对大家有所帮助. PHP中语言中有些函数对于初学者来说在字面上是很难理解的,需要在实 ...

大规模存储的未来——内存云

计算机系统中最快的存储方式是传统上主要用作内存的RAM.由于硬盘的访问性能多年来有恶化的趋势,而RAM的成本不断降低,近年来,有很多研究者都在探索如何用内存取代硬盘. 早在1980年代,David D ...

服务器操作系统应该选择 Debian/Ubuntu 还是 CentOS？

服务器操作系统应该选择 Debian/Ubuntu 还是 CentOS? 编辑推荐!本文来自知乎的袁昊洋,是我见过的关于如何选择服务器操作系统的最有理有据的文章,而且富有实践基础.小编基本上同意全文观 ...

http请求后，releaseConnection()流就关闭了，请教大家

问题描述 publicstaticInputStreamsendGetAsStream(Stringurl,HttpClienthttpClient){/**创建GET方法的实例*/GetMethod ...

javaweb-java多语言怎么实现？

问题描述 java多语言怎么实现? java怎么实现多语言要能处理很多语言的求教最好是有代码实现 ligu583976696@126.com这是我的邮箱解决方案如果是用struts等框架,本 ...

Android下2d物理引擎Box2d用法简单实例_Android

本文实例讲述了Android下2d物理引擎Box2d用法.分享给大家供大家参考.具体如下: 程序运行的时候需要加载Jbox2d的库,可到以下地址下载(使用的是不带渲染部分的库jbox2d-2.0.1- ...

王珏林：房价调控达到阶段性目标

专家认为,一系列的调控政策出台后,热点城市的房价基本处在停滞,或下降的状态,应该说这是一个很好的成绩.不仅要关注实际的供给量,更要关注保障房的供给结构 [财新网](记者张旭升)这一段,针对控制需求的 ...

c++数据类型万能转换器boost::lexical_cast .

boost::lexical_cast为数值之间的转换(conversion)提供了一揽子方案,比如:将一个字符串"123"转换成整数123,代码如下: string s = &q ...

热搜

© 2025 iVAN | info#iamivan.net | 11 q. 0.025 s.