如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。

问题描述

如何抓取百度知道页面里边问题答案的‘评论’信息。现在我用jsoup能抓到整个页面,但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息。我用phantomjs模拟浏览器来点击评论,但貌似无法成功。然后现在怀疑这种方法是否可行。求大神指导或者推荐其他方法。。。。

解决方案

解决方案二:
模拟浏览器的点击可以不
解决方案三:
没用过phantomjs。“但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息”看了一下这个功能是通过ajax来加载评论的,要是能获取加载评论的请求路径,就很简单了
解决方案四:
引用2楼gagewang1的回复:

没用过phantomjs。“但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息”看了一下这个功能是通过ajax来加载评论的,要是能获取加载评论的请求路径,就很简单了

关键是找不到请求路径啊。。。js微微有点复杂。。通过idclassalog-action都找不到引用的地方。。也可能我找的方法不对。。我是在firefox里面通过firebug找的。。。
解决方案五:
引用1楼rui888的回复:

模拟浏览器的点击可以不

理论上可以。但是目前还么有成功。。。求phantom大神帮忙
解决方案六:
求大神解答。。。。。

时间: 2024-10-24 16:17:18

如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。的相关文章

python-为何用Python做爬虫时抓取下来的页面跟源代码不一样?

问题描述 为何用Python做爬虫时抓取下来的页面跟源代码不一样? 代码如下: -*- coding:utf-8 -*- import urllib import urllib2 import re baseURL = 'http://zhidao.baidu.com/question/491268910.html' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版_python

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行. 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地. 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/2296712428?see_lz=1&pn=

国家版权局裁定360抓取百度内容属侵权

"剑网行动"新闻通气会现场. 12月29日,国家版权局在打击网络侵权盗版专项治理"剑网行动"新闻通气会上指出:360综合搜索提供百度网页快照不适用"避风港原则",对于百度拥有权利的作品,360要通过网页快照抓取,必须要取得百度公司的授权,未经授权随意抓取百度拥有版权的作品属侵权行为. 据了解,国家版权局已经要求360综合搜索进行整改,同时将视360的整改情况再采取进一步的管理措施.这也是自360违规抓取百度内容而引发3B大战以来,国家有关部委的首

版权局首表态:360搜索抓取百度内容须获授权

BiaNews消息12月29日,http://www.aliyun.com/zixun/aggregation/2164.html">国家 版权局等4部门昨日联合展示了2012年"剑网行动"的工作成果和视频网站主动监管工作情况.本次"剑网行动"中,国家版权局共接到 各地版权 行政执法部门报送查办的网络侵权盗版案件282件,关闭违法网站183家. 国家版权局还同时通报了对"3B大战"的最新表态,称360搜索要抓取百度内容需要获得百度

零基础写python爬虫之抓取百度贴吧代码分享_python

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 复制代码 代码如下: # -*- coding: utf-8 -*- #--------------------------------------- #   程序:百度贴吧爬虫 #   版本:0.1 #   作者:why #   日期:2013-05-14 #   语言:Python 2.7 #   操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数. #   功能:下载对应页

利用PHP抓取百度阅读的方法示例_php技巧

前言 这篇文章主要介绍的是,如何利用PHP抓取百度阅读的方法,下面话不多说,来一起看看吧. 抓取方法如下 首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的. 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下. 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3

python抓取百度首页的方法

  本文实例讲述了python抓取百度首页的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import urllib def downURL(url,filename): try: fp=urllib.urlopen(url) except: print('download error') return 0 op=open(filename,'wb') while 1: s=fp.read() if not

版权局:360搜索抓取百度网页快照属侵权

腾讯科技讯 在日前举行的"剑网行动"发布会上,针对百度与360之间的"3B大战",国家版权局首次进行了表态--360此举不适用"避风港原则",360要通过网页快照抓取,必须要取得百度公司的授权. 在今年8月29日发生的"3B"大战,曾在业界引起轩然大波.事件起因360综合搜索上线之后,迅速取得10%市场份额,且直接抓取百度网页快照.这引发百度采取反制措施,即用户通过360综合搜索访问百度知道等服务时,将会强行跳转至百度首页.

工具-【在线等/SEO】抓取百度排名快照的功能?

问题描述 [在线等/SEO]抓取百度排名快照的功能? 实在找不到好的思路去**优化抓取百度排名快照**的功能了, 只有在这里发帖了. 有没有哪位朋友做过这样的功能.或者有没有什么 API 可以接入的. 急,感激不尽.(小弟C币不多,有机会给发红包) PS:现在我通过程序能够抓取到排名的快照数据,但是太慢了.有没有其他方式能够更快的获取到排名的数据. 解决方案 // 我的问题没有描述清楚吗? // 为什么没有人来呢. 解决方案二: // 人呢? 我准备发红包了.