python-为何用Python做爬虫时抓取下来的页面跟源代码不一样？

问题描述

为何用Python做爬虫时抓取下来的页面跟源代码不一样？

代码如下：

-- coding:utf-8 --

import urllib
import urllib2
import re
baseURL = 'http://zhidao.baidu.com/question/491268910.html'
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.110 Safari/537.36'}
#request = urllib2.Request(baseURL)
request = urllib2.Request(url=baseURL,headers=headers)
response = urllib2.urlopen(request)
print response.read().decode("GBK")

我用上面的代码爬取一个百度知道的答案，把抓取到的信息打印出来为什么有的地方跟网页审查元素所显示的代码不一样？
网页原来的段落为：
这段话对应的源代码为：
抓取网页信息后的对应的代码为：
我尝试了一个，在提取页面时，加载一个headers头部，但是结果还是不行，求各路大神指点，直接把解决办法附在评论区里，谢谢各路大神了。。。

解决方案

我想要把网页采纳的答案给抓取出来，但是抓取到的信息里，为什么好多文字都被等代替了，怎么能让他直接显示原来的源代码啊

解决方案二：

他很可能用了JavaScript动态加载页面。你获取的页面只是原来的html而已。

解决方案三：

要爬取js等动态生成的数据，可以使用神箭手云爬虫开发框架（shenjianshou.cn）,只需要设置一下enableJS：true就可以自动爬取了，很方便！

时间： 2024-08-30 15:40:54

python-为何用Python做爬虫时抓取下来的页面跟源代码不一样？的相关文章

python做爬虫时，如何获取下一页的html？

问题描述 python做爬虫时,如何获取下一页的html? 具体网址http://data.10jqka.com.cn/market/yybhyd/![图片说明](http://img.ask.csdn.net/upload/201603/09/1457522333_494323.png) 解决方案分析网页数据,提取链接先做了再说. 解决方案二: 遍历页面内容中的tag a等内容然后循环爬出下一层解决方案三: 一般都通过一个当前页面整数作为请求参数,每次访问的时候递增这个参数就行了解决方

java-利用crawler4j做网络爬虫如何抓取特定标题和发表时间

问题描述利用crawler4j做网络爬虫如何抓取特定标题和发表时间利用crawler4j做网络爬虫如何抓取特定标题和发表时间,地区等,还有什么值得推荐的爬虫工具(java)方向解决方案利用crawler4j做网络爬虫,你能抓取到数据的话,然后分析数据就行.特定的标题和发表时间,应该有特定的标识的,检查此标识然后取得想要的数据. 解决方案二: 如果服务器支持rss,那么可以直接从中过滤,不支持rss,就只能先抓取标题和时间字段,然后再下载文章.这个不同的网站是不同的. 虽然理论上可以通过L

javascript-python爬虫如何抓取包含JavaScript的网页中的信息

问题描述 python爬虫如何抓取包含JavaScript的网页中的信息这里本科生一枚..做本研要求抓取一些数据碰到了一些问题求指教> <我想要抓取汽车之家上关于供应商的一些数据,然后在车型详情页里找到了关于供应商的框架源代码如下(只截取有用部分):<br> //属性<br> document.domain = "autohome.com.cn";<br> var page=1;<br> var parameters = {

搜索引擎爬虫优先抓取哪些网页

网站的整体流量主要取决于网站页面的整体收录.网站页面的整体排名以及网站页面的整体点击率,这三个因素也是有先后顺序的,排名排一位的就是整体收录了,那么整体收录又是由哪些决定的呢?首先要想被收录,肯定页面要被搜索引擎抓取吧,没有抓取,也就不可能有收录.所以我们在优化收录的时候,一定要想办法让搜索引擎的爬虫程序去尽量抓取更多的页面,那么对于搜索引擎来说,它的源也是有限的,而且由于各种限制,它也只能抓取互联网上所有网页的一部分,而在抓取的这些页面中,它索引的也只是一部分,搜索引擎的蜘蛛程序会优先抓取哪些

Google爬虫如何抓取JavaScript的？

我们测试了谷歌爬虫是如何抓取 JavaScript,下面就是我们从中学习到的知识. 认为 Google 不能处理 JavaScript ?再想想吧.Audette Audette 分享了一系列测试结果,他和他同事测试了什么类型的 JavaScript 功能会被 Google 抓取和收录. 长话短说 1. 我们进行了一系列测试,已证实 Google 能以多种方式执行和收录 JavaScript.我们也确认 Google 能渲染整个页面并读取 DOM,由此能收录动态生成的内容. 2. DOM 中的

CloudCC:如何用CRM更快更多抓取客源？

本文讲的是 :CloudCC:如何用CRM更快更多抓取客源? , [IT168 资讯]云计算时代,信息化飞速发展,企业要想提高营销的投入产出比,唯有借助CRM将企业前端营销与销售.合同和回款等有机整合,实施销售全流程管理,才能在市场竞争中抓取更多客源,赢得更多订单,赚取更多利润. 据麦达数字联合移动信息化研究中心调研显示,汽车行业的SaaS营销管理NPS值为6%,金融行业的SaaS营销管理NPS值为2%,消费品行业的SaaS营销管理NPS值为17%,大健康行业的SaaS营销管理NPS值为17

php curl抓取网页的介绍和推广及使用CURL抓取淘宝页面集成方法_php实例

php的curl可以用来实现抓取网页,分析网页数据用, 简洁易用, 这里介绍其函数等就不详细描述, 放上代码看看: 只保留了其中几个主要的函数. 实现模拟登陆, 其中可能涉及到session捕获, 然后前后页面涉及参数提供形式. libcurl主要功能就是用不同的协议连接和沟通不同的服务器~也就是相当封装了的sock PHP 支持libcurl(允许你用不同的协议连接和沟通不同的服务器)., libcurl当前支持http, https, ftp, gopher, telnet, dict,

php+curl+302+淘宝-用curl抓取淘宝页面信息，本地可以，服务器却不行

问题描述用curl抓取淘宝页面信息,本地可以,服务器却不行看下面的代码,在本地appach服务器可以正常打印出页面内容,但是到服务器上却提示15s 的timeout错误: $htmlstr = get_html("http://detail.tmall.com/item.htm?id=41159437194"); echo $htmlstr; function get_html( $url ) { $ch = curl_init(); curl_setopt($ch, CURLOP

如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。

问题描述如何抓取百度知道页面里边问题答案的'评论'信息.现在我用jsoup能抓到整个页面,但是评论内容是要通过点击'评论'才能加载下面内容.所以现在无法获取评论信息.我用phantomjs模拟浏览器来点击评论,但貌似无法成功.然后现在怀疑这种方法是否可行.求大神指导或者推荐其他方法.... 解决方案解决方案二:模拟浏览器的点击可以不解决方案三:没用过phantomjs."但是评论内容是要通过点击'评论'才能加载下面内容.所以现在无法获取评论信息"看了一下这个功能是通过ajax来加载

猜你喜欢

图片及文件上传和下载

上传|下载本文简单介绍ASP.NET 2.0中将图片或文件上传到服务器或保存到数据库的方法,以及保存后如何显示和下载.1．图片及文件保存到服务器1.1 上传本示例构造一个能将文件上传到服务器指定目录 ...

利用HTML优化加快网页速度

速度|网页|优化 web开发人员是否必须掌握复杂的组件技术才能加快html页面的访问速度?答案是:不一定!实际上,有许多关于HTML与DHTML方面的技巧,它们原理简单而且上手容易.无论是技 ...

网站优化与移动端手机网站优化的变向

从事搜索引擎优化工作者的人员不可否认SEO已经越来越不受欢迎了,在过去的2013年搜索引擎的完善可以证明SEO越来越不好做了,但是SEO从宣传的角度来看是打造品牌必须使用的手法,seo在不断的进步,创 ...

SYSMOD简介

本文将着重介绍SMP/E中System Modification,或称为SYSMOD,它是SMP/E安装的对象.而SMP/E是安装z/OS及IBM大型机相关软件产品的重要工具,因此清楚理解SYSMOD ...

Asp.net Mvc Framework 十二 Castle扩展

由于Monorail是.net下MVC的先驱所以 Asp.net MVC理所当然要支持老的Castle用户在Asp.net MVC扩展包中就提供了对Castle的支持与兼容虽然这个扩展还有很多BU ...

Asp加密函数的代码

<% Private Const BITS_TO_A_BYTE = 8 Private Const BYTES_TO_A_WORD = 4 Private Const BITS_TO_ ...

ps设计打造可爱雪人技巧

先看效果图. 新建文档400x300,双击背景,添加图层样式,颜色分别为#FFFFFF, #759CC3 和 #02143A. 效果如下. 建新层,画一正圆,填充任意颜色,添加图层样式. 得到下图效果 ...

Word2013文本下有红色波浪线怎么办

有没有发现Word2013中的文档有些文字或者字母的下面会出现一些红色的波浪线,可不要误以为是下划线哦,这是Word2013自动检查文档中拼写和语法错误的这项功能所致的.OK,了解了原因,我们就来 ...

微软重调对处理器的技术支持都怪你不升Win10？

最近有用户发现,英特尔最新的第七代酷睿处理器和AMD Ryzen处理器在运行Windows 7和Windows 8.1时遇到了问题:在检查自动更新的时候遇到了"不支持的硬件"或者& ...

注册表-mfc单文档文件嵌入word的文档，运行后报错

问题描述 mfc单文档文件嵌入word的文档,运行后报错我是按照这个链接做的.https://support.microsoft.com/zh-cn/kb/238611 但运行后就出现了未能创建新对 ...

jsp问题！急！！

问题描述 messagedescriptionTheserverencounteredaninternalerror()thatpreventeditfromfulfillingthisrequest ...

vc++编程问题-编程实现DFA识别字符串的过程，求大神解答

问题描述编程实现DFA识别字符串的过程,求大神解答编程实现DFA识别字符串的过程,1DFA的输入与DFA的存储,确定DFA的数据结构以及存储格式2DFA的正确性检查,看DFA的五元组是否正确,3输 ...

NoSQL数据库概览及其与SQL语法的比较

[文章摘要] HBase是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,同时也是知名的NoSQL数据库之一.NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据 ...

第5章(1) 构造器

构造器是一个在创建对象时被自动调用的特殊方法. 1. 构造器的命名: 构造器采用与类相同的名称.这么做的意义在于: (1). 避免与类的某个成员的名称冲突. (2)让编译器自己知道应该调用那个方法. ...

深度学习如何“助攻”医学影像？我们来听听学界大拿的解释 | CNCC 2017

雷锋网消息, 10 月 26 日上午 8:30 分,由中国计算机学会(CCF)主办,福州市人民政府.福州大学承办,福建师范大学.福建工程学院协办的 2017 中国计算机大会(CNCC 2017)在福州 ...

iOS设计模式之代理模式

代理模式基本理解代理模式(Proxy),为其他对象提供一种代理以控制对这个对象的访问. 代理模式的应用远程代理:就是为一个对象在不同的地址空间提供据不代表.这样可以隐藏一个对象存在于不同地址空间 ...

发帖-这样的功能是怎么实现的?

问题描述这样的功能是怎么实现的? 用jsp,有没有知道的,指点一下谢谢. 解决方案有不少现成的编辑器,比如 KindEditor CKEditor CuteEditor UEditor

linux驱动 spi bus-linux中Platform bus和SPI bus有什么关系？

问题描述 linux中Platform bus和SPI bus有什么关系? 最近在写SPI驱动,想用内核的SPI驱动:找了点资料,下面是我的理解: 内核已经自带有SPI总线的支持,就是说,SPI BU ...

求大神解答一下-C++ primer plus 第6版中文版第16章复习题的一个问题

问题描述 C++ primer plus 第6版中文版第16章复习题的一个问题奇葩的是课后居然没答案...... 求正规.严谨.简洁的标准答案! 程序清单16.15(在p708页):functo ...

Win10总提示无法更新正在撤销安装怎么办

制作Windows 10的安装盘.备份数据.格式化硬盘,安装操作系统--这些如行云流水般顺畅,真心让人感觉舒坦,周年更新也顺利完成.但万万没想到竟然死在了"Windows 10 Versio ...

Spring 的 autowire (自动装配）会不会很影响程序的性能呢？

问题描述如果 struts2 的 action 由 spring 来管理, 并且struts.objectFactory.spring.autoWire=name, 由于 action 并不是单例的 ...

卸载卷-windows如何卸载每个分区的文件系统

问题描述 windows如何卸载每个分区的文件系统我想以独占的方式打开和使用一个磁盘卷,以后都不让文件系统对其有任何操作,应该怎么办? 具体情况是:当我把一个磁盘卷删除,然后新建卷的时候,如果不对该 ...

中移动近期正式推出针对全球开发者的“MM云服务”计划

12月4日消息,记者从中国移动获悉,该公司将于近期正式推出针对全球开发者的"MM云服务"计划.基于这一计划,中国移动将向应用开发者提供远程培训.技术支撑.测试服务.数据分析.资金引 ...

sql2008启动代理未将对象应用到实例解决方案_mssql2008

原因可能有几点你可以一点一点的排除 1.没有指定用户给他分配一个用户(能够有管理员权限的),服务里面找到对应的sql服务:计算机-->管理--->服务与应用程序-->服务--> ...

寻找让手指录入最轻松的编程语言

问题描述有没有哪一种计算机语言,在键盘录入的时候手指疲劳度最低.产生疲劳度的原因比如,频繁使用上档键组合,小指使用比较多(因为小指不灵活,使用比较累)当然这种语言最好是有实现的,不只是语法定义解决 ...

ralis中的脚手架问题

问题描述如何在rails2.3中使用脚手架,我用rubyscript/generatescaffoldproduact(模型)admin(控制器)怎么就不能生成静态脚手架,动态的更不用说了,想用都不 ...

Unexpected exception parsing XML document from ServletContext resource [/WEB-INF

问题描述我的struts2和spring整合,但整合后出这问题找不到怎么回事高手帮我看看好不?我的配置没什么问题,不知道是不是那个jar包有问题这是在web.xml中的配置 <context ...

消息称Retina屏MacBook Air三季度问世

[搜狐IT消息]北京时间2月20日消息,据台湾<经济时报>报道,苹果计划在今年3季度推出配有Retina显示屏的MacBook Air笔记本.11寸和13寸MacBook Air笔记本都将 ...

js-请教a标签click事件问题

问题描述请教a标签click事件问题见下: <body> <a href="http://www.baidu.com" id="a" on ...

构筑安全“云-管-端”

通信产业报记者逄丹卢子月伊佳在整个"云-管-端"的架构中,最容易受到攻击的是端.一些用户认为"云"不安全而抗拒使用,其实往往是用户自身对安全重视程度不高 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.020 s.