精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

1.5　爬虫扩展——聚焦爬虫

由于聚焦爬虫可以按对应的主题有目的地进行爬取，并且可以节省大量的服务器资源和带宽资源，具有很强的实用性，所以在此，我们将对聚焦爬虫进行详细讲解。图1-2所示为聚焦爬虫运行的流程，熟悉该流程后，我们可以更清晰地知道聚焦爬虫的工作原理和

过程。

首先，聚焦爬虫拥有一个控制中心，该控制中心负责对整个爬虫系统进行管理和监控，主要包括控制用户交互、初始化爬行器、确定主题、协调各模块之间的工作、控制爬行过程等方面。

然后，将初始的URL集合传递给URL队列，页面爬行模块会从URL队列中读取第一批URL列表，然后根据这些URL地址从互联网中进行相应的页面爬取。爬取后，将爬取到的内容传到页面数据库中存储，同时，在爬行过程中，会爬取到一些新的URL，此时，需要根据我们所定的主题使用链接过滤模块过滤掉无关链接，再将剩下来的URL链接根据主题使用链接评价模块或内容评价模块进行优先级的排序。完成后，将新的URL地址传递到URL队列中，供页面爬行模块使用。另一方面，将页面爬取并存放到页面数据库后，需要根据主题使用页面分析模块对爬取到的页面进行页面分析处理，并根据处理结果建立索引数据库，用户检索对应信息时，可以从索引数据库中进行相应的检索，并得到对应的结果。

图1-2　聚焦爬虫运行的流程

这就是聚焦爬虫的主要工作流程，了解聚焦爬虫的主要工作流程有助于我们编写聚焦爬虫，使编写的思路更加清晰。

时间： 2024-10-26 03:02:50

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫的相关文章

精通Python网络爬虫（0）：网络爬虫学习路线

精通Python网络爬虫：核心技术、框架与项目实战导读

精通Python网络爬虫：核心技术、框架与项目实战.3.1　网络爬虫实现原理详解

精通Python网络爬虫：核心技术、框架与项目实战.3.6　网络爬虫实现技术

精通Python网络爬虫：核心技术、框架与项目实战.1.1　初识网络爬虫

精通Python网络爬虫：核心技术、框架与项目实战.3.8　小结

《精通Python网络爬虫：核心技术、框架与项目实战》——第2章网络爬虫技能总览 2.1 网络爬虫技能总览图

精通Python网络爬虫：核心技术、框架与项目实战.1.2　为什么要学网络爬虫

精通Python网络爬虫：核心技术、框架与项目实战.1.4　网络爬虫的类型

精通Python网络爬虫：核心技术、框架与项目实战.1.5 爬虫扩展——聚焦爬虫

精通Python网络爬虫：核心技术、框架与项目实战.1.5 爬虫扩展——聚焦爬虫的相关文章

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫

精通Python网络爬虫：核心技术、框架与项目实战.1.5　爬虫扩展——聚焦爬虫的相关文章