用Python编写网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。

项目内容:

用Python写的百度贴吧的网络爬虫。

使用方法:

新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。

程序功能:

将贴吧中楼主发布的内容打包txt存储到本地。

原理解释:

首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了:

http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1

可以看出来,see_lz=1是只看楼主,pn=1是对应的页码,记住这一点为以后的编写做准备。

这就是我们需要利用的url。

接下来就是查看页面源码。

首先把题目抠出来存储文件的时候会用到。

可以看到百度使用gbk编码,标题使用h1标记:

<h1 class="core_title_txt" title="【原创】时尚首席(关于时尚,名利,事业,爱情,励志)">【原创】时尚首席(关于时尚,名利,事业,爱情,励志)</h1>

同样,正文部分用center和class综合标记,接下来要做的只是用正则表达式来匹配即可。

运行截图:

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索存储
, 文件
, 反爬虫
, 源码
, 网络爬虫
, webmagic 爬虫
, python爬虫
, 爬虫 数据挖掘
, 网络爬虫 c++
, 贴吧
, python 爬虫
, re 爬虫
, 网络爬虫 运行错误
百度贴吧
,以便于您获取更多的相关知识。

时间: 2024-10-29 19:18:46

用Python编写网络爬虫(九):百度贴吧的网络爬虫(v0.4)源码及解析的相关文章

从Python的源码来解析Python下的freeblock

  这篇文章主要介绍了从Python的源码来解析Python下的freeblock,包括内存空间分配等知识,需要的朋友可以参考下 1 引言 在python内存管理中,有一个block的概念.它比较类似于SGI次级空间配置器. 首先申请一块大的空间(4KB),然后把它切割成一小份(8, 16 一直到512). 当有内存申请的请求时候,简单的流程是:根据大小找到对应的block,然后在freeblock 上给它一份. 2 问题 整个过程是一种比较自然的slab分配方式.但当我读到这段代码时,却感到疑

用Python编写网络爬虫(八):糗事百科的网络爬虫(v0.2)源码及解析

项目内容: 用Python写的糗事百科的网络爬虫. 使用方法: 新建一个Bug.py文件,然后将代码复制到里面后,双击运行. 程序功能: 在命令提示行中浏览糗事百科. 原理解释: 首先,先浏览一下糗事百科的主页:http://www.qiushibaike.com/hot/page/1 可以看出来,链接中page/后面的数字就是对应的页码,记住这一点为以后的编写做准备. 然后,右击查看页面源码: 观察发现,每一个段子都用center标记,其中class必为content,title是发帖时间,我

用Python编写网络爬虫(六):一个简单的百度贴吧的小爬虫

# -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期:2013-05-14 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数. # 功能:下载对应页码内的所有页面并存储为html文件. #--------------------------------------- import string,

Python编写百度贴吧的简单爬虫_python

操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名 代码: # -*- coding: utf-8 -*- #---------------------------- # 程序:百度贴吧的小爬虫 # 日期:2015/03/28 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数 # 功能:下载对应页码的所有页面并储存为HTML文件,以当前时间命名 #-----

Python编写知乎爬虫实践

爬虫的基本流程 网络爬虫的基本工作流程如下: 首先选取一部分精心挑选的种子URL 将种子URL加入任务队列 从待抓取URL队列中取出待抓取的URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中.此外,将这些URL放进已抓取URL队列. 分析已抓取URL队列中的URL,分析其中的其他URL,并且将URL放入待抓取URL队列,从而进入下一个循环. 解析下载下来的网页,将需要的数据解析出来. 数据持久话,保存至数据库中. 爬虫的抓取策略 在爬虫系统中,待抓取URL

python编写网页爬虫脚本并实现APScheduler调度_python

前段时间自学了python,作为新手就想着自己写个东西能练习一下,了解到python编写爬虫脚本非常方便,且最近又学习了MongoDB相关的知识,万事具备只欠东风. 程序的需求是这样的,爬虫爬的页面是京东的电子书网站页面,每天会更新一些免费的电子书,爬虫会把每天更新的免费的书名以第一时间通过邮件发给我,通知我去下载. 一.编写思路: 1.爬虫脚本获取当日免费书籍信息 2.把获取到的书籍信息与数据库中的已有信息作比较,如果书籍存在不做任何操作,书籍不存在,执行插入数据库的操作,把数据的信息存入Mo

Python爬虫系列(一)初期学习爬虫的拾遗与总结

一.环境搭建和工具准备 1.为了省去时间投入学习,推荐直接安装集成环境 Anaconda 2.IDE:Pycharm.Pydev 3.工具:Jupyter Notebook(安装完Anaconda会有的) 二.Python基础视频教程 1.疯狂的Python:快速入门精讲(Python2.x,可体验到与Python3.x的差异) 2.零基础入门学习Python 看完这些课程,自己对Python有一个感觉和掌握,可以继续看一些进阶教程 3.Python3大全(pasword:bf3e) 三.Pyt

【Python数据挖掘课程】一.环境配置及数据挖掘与爬虫入门普及

        最近因为需要给大数据金融学院的学生讲解<Python数据挖掘及大数据分析>的课程,所以在这里,我将结合自己的上课内容,详细讲解每个步骤.作为助教,我更希望这门课程以实战为主,同时按小组划分学生,每个小组最后都提交一个基于Python的数据挖掘及大数据分析相关的成果.但是前面这节课没有在机房上,所以我在CSDN也将开设一个专栏,用于对该课程的补充.        希望该文章对你有所帮助,尤其是对大数据或数据挖掘的初学者,很开心和夏博.小民一起分享该课程,上课的感觉真的挺不错的,挺

Perl &amp;amp; Python编写CGI

最近偶然玩了一下CGI,收集点资料写篇在这里留档. 现在想做HTTP Cache回归测试了,为了模拟不同的响应头及数据大小,就需要一个CGI按需要传回指定的响应头和内容,这是从老外的测试页面学习到的经验. CGI其实就是使用STDIN和环境变量作为输入,  STDOUT做为输出,依照Http协议生成对应的数据. 一. 数据输出 数据输出遵循HTTP协议,分为四部分:   状态行 (Status Line):      200 OK   响应头(Response Headers):      Co