如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。

问题描述

如何抓取百度知道页面里边问题答案的‘评论’信息。现在我用jsoup能抓到整个页面，但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息。我用phantomjs模拟浏览器来点击评论，但貌似无法成功。然后现在怀疑这种方法是否可行。求大神指导或者推荐其他方法。。。。

解决方案

解决方案二：
模拟浏览器的点击可以不
解决方案三：
没用过phantomjs。“但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息”看了一下这个功能是通过ajax来加载评论的，要是能获取加载评论的请求路径，就很简单了
解决方案四：
引用2楼gagewang1的回复:

没用过phantomjs。“但是评论内容是要通过点击‘评论’才能加载下面内容。所以现在无法获取评论信息”看了一下这个功能是通过ajax来加载评论的，要是能获取加载评论的请求路径，就很简单了

关键是找不到请求路径啊。。。js微微有点复杂。。通过idclassalog-action都找不到引用的地方。。也可能我找的方法不对。。我是在firefox里面通过firebug找的。。。
解决方案五：
引用1楼rui888的回复:

模拟浏览器的点击可以不

理论上可以。但是目前还么有成功。。。求phantom大神帮忙
解决方案六：
求大神解答。。。。。

时间： 2024-10-24 16:17:18

如何抓取百度知道页面里面问题答案的 ‘评论’ 信息。。的相关文章

python-为何用Python做爬虫时抓取下来的页面跟源代码不一样？

问题描述为何用Python做爬虫时抓取下来的页面跟源代码不一样? 代码如下: -*- coding:utf-8 -*- import urllib import urllib2 import re baseURL = 'http://zhidao.baidu.com/question/491268910.html' headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, li

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版_python

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件. 项目内容: 用Python写的百度贴吧的网络爬虫. 使用方法: 新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行. 程序功能: 将贴吧中楼主发布的内容打包txt存储到本地. 原理解释: 首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了: http://tieba.baidu.com/p/2296712428?see_lz=1&pn=

国家版权局裁定360抓取百度内容属侵权

"剑网行动"新闻通气会现场. 12月29日,国家版权局在打击网络侵权盗版专项治理"剑网行动"新闻通气会上指出:360综合搜索提供百度网页快照不适用"避风港原则",对于百度拥有权利的作品,360要通过网页快照抓取,必须要取得百度公司的授权,未经授权随意抓取百度拥有版权的作品属侵权行为. 据了解,国家版权局已经要求360综合搜索进行整改,同时将视360的整改情况再采取进一步的管理措施.这也是自360违规抓取百度内容而引发3B大战以来,国家有关部委的首

版权局首表态：360搜索抓取百度内容须获授权

BiaNews消息12月29日,http://www.aliyun.com/zixun/aggregation/2164.html">国家版权局等4部门昨日联合展示了2012年"剑网行动"的工作成果和视频网站主动监管工作情况.本次"剑网行动"中,国家版权局共接到各地版权行政执法部门报送查办的网络侵权盗版案件282件,关闭违法网站183家. 国家版权局还同时通报了对"3B大战"的最新表态,称360搜索要抓取百度内容需要获得百度

零基础写python爬虫之抓取百度贴吧代码分享_python

这里就不给大家废话了,直接上代码,代码的解释都在注释里面,看不懂的也别来问我,好好学学基础知识去! 复制代码代码如下: # -*- coding: utf-8 -*- #--------------------------------------- # 程序:百度贴吧爬虫 # 版本:0.1 # 作者:why # 日期:2013-05-14 # 语言:Python 2.7 # 操作:输入带分页的地址,去掉最后面的数字,设置一下起始页数和终点页数. # 功能:下载对应页

利用PHP抓取百度阅读的方法示例_php技巧

前言这篇文章主要介绍的是,如何利用PHP抓取百度阅读的方法,下面话不多说,来一起看看吧. 抓取方法如下首先在浏览器里打开阅读页面,查看源代码后发现小说的内容并不是直接写在页面里的,也就是说小说的内容是通过异步加载而来的. 于是将chrome的开发者工具切到network一栏,刷新阅读页面,主要关注的是XHR和script两个分类下. 经过排查,发现在script分类下有个jsonp请求比较像是小说内容,请求的地址是 http://wenku.baidu.com/content/49422a3

python抓取百度首页的方法

本文实例讲述了python抓取百度首页的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import urllib def downURL(url,filename): try: fp=urllib.urlopen(url) except: print('download error') return 0 op=open(filename,'wb') while 1: s=fp.read() if not

版权局：360搜索抓取百度网页快照属侵权

腾讯科技讯在日前举行的"剑网行动"发布会上,针对百度与360之间的"3B大战",国家版权局首次进行了表态--360此举不适用"避风港原则",360要通过网页快照抓取,必须要取得百度公司的授权. 在今年8月29日发生的"3B"大战,曾在业界引起轩然大波.事件起因360综合搜索上线之后,迅速取得10%市场份额,且直接抓取百度网页快照.这引发百度采取反制措施,即用户通过360综合搜索访问百度知道等服务时,将会强行跳转至百度首页.

工具-【在线等/SEO】抓取百度排名快照的功能？

问题描述 [在线等/SEO]抓取百度排名快照的功能? 实在找不到好的思路去**优化抓取百度排名快照**的功能了, 只有在这里发帖了. 有没有哪位朋友做过这样的功能.或者有没有什么 API 可以接入的. 急,感激不尽.(小弟C币不多,有机会给发红包) PS:现在我通过程序能够抓取到排名的快照数据,但是太慢了.有没有其他方式能够更快的获取到排名的数据. 解决方案 // 我的问题没有描述清楚吗? // 为什么没有人来呢. 解决方案二: // 人呢? 我准备发红包了.

猜你喜欢

用AJAX跟踪Google Adsense广告点击

adsense|ajax|google|广告功能可以完整详细地获得每一个用户点击广告的数据.包括点击时间,用户的IP,页面来源地址,被点击的广告网站地址,如果你的站点上保存了用户cookie的话,甚 ...

如何让iframe自适应高度.

方案一: <iframe src="http://www.alixixi.com/index.htm" name="content" id="c ...

ASP.net hash.web 拒绝访问问题

asp.net|web|访问|问题|asp.net|问题在visual studuo.net中调试 asp.net程序时出现过多次"hash.web"访问被拒绝的情况,查看程序代 ...

使用Maven创建liferay应用时候注意archetype的版本

我们用Maven创建liferay应用(比如portlet,theme)时,常常有个版本选择,如图: 默认的"Show the last version of Archetype only& ...

Delphi语言学习5-函数和方法

1.函数的定义 //格式function functionName(parameterList): returnType; directives; localDeclarations;begin st ...

IBM Rational Rhapsody 8.0和Rhapsody Design Manager 4.0中的新功能

重要的新功能 IBM Rational Rhapsody 开发环境支持广泛的技术,可用于许多用途,例如: 需求分析基于模型的系统工程交易学习分析嵌入式和实时软件开发注重安全性的软件开发基于模 ...

Excel2003入门动画教程专辑（共68篇）

Excel2003入门动画教程专辑(共68篇)请倒序查看教程 Excel防止重复录入数据动画教程发布日期: 2012-05-05 <Excel2003入门动画教程68.Excel防止重复录入数 ...

PC版Windows 10硬件需求公布

继手机版Windows 10的硬件需求公布之后,现在微软又公布PC版Windows 10的硬件需求. 从官方提供的图表来看,Windows 10 PC版32位最低需要1GB内存.16GB硬盘,而6 ...

Win8.1应用商店无法下载错误代码80070057怎么办?

方法一:使用商店用店疑难解答 1.下载应用商店疑难解答工具; 2.运行,软件会自动检测可能存在的问题并修复. 方法二.清理缓存 1.按下Windows+R键输入"services.msc ...

在Win8系统中如何对GPT硬盘创建OEM分区

现在预装Win8的电脑大多是采用新版 UEFI 固件 + GPT 格式磁盘,这样的好处是可以实现安全启动等更多新特性,和支持更多的硬盘分区.更大的分区容量.下面我们主要介绍在Win8系统中如何对G ...

巧用Windows 8的多功能任务管理器

Win8的任务管理器很实用,它不仅可以查看进程,还能"变身"为资源监视器,用图表的方式显示系统资源消耗,帮你找出霸占网络或内存资源的"大户".硬件如硬盘使用 ...

U盘病毒危害有多大?

1.在系统中占用大量cpu资源. 2.在每个分区下建立rose.exe 和autorun.inf 2个文件,且它们都隐藏系统保护文件之内,无论你怎样搜索都找不到,但是在双击该盘符时病毒就自动运行了 ...

MAC使用技巧之Apple Remote遥控器使用指南

随着每一台Intel苹果电脑都配备了苹果遥控器,通过Apple Remote你可以遥控iTunes.QuickTime.iPhoto等多个软件下面是苹果电脑Apple Remote遥控器使用指南. 1 ...

Windows Media Player是否支持DVD播放

Q:为什么刚买的IBM T43安装的Windows Media Player,在依次单击"工具"→"选项"菜单后,在弹出的"选项"窗口中 ...

利用博客增加网站外链权重可观

为在我们手中的博客数目并不是很少,包括sina.souhu.网易.博客大巴.百度空间等等,但是根据各位的观察,谁在搜索引擎中的地位最高呢,理所当然,我们更愿意相信百度自己的产品,但是注意到没有,我们查 ...

在实践中深入理解ARP协议

0.说明在同一个网络(无特别说明,均指以太网络)中进行通信的主机,必须要拥有目标主机的MAC地址才能够正确地将数据发送给目标主机,那么如何知道目标主机的MAC地址呢?可以通过ARP协 ...

代码-服务器程序性能瓶颈追踪

问题描述服务器程序性能瓶颈追踪我的多进程服务程序有几个程序CPU占有率特别高,然后找到相关进程对应的代码,把里面每个函数的单次执行的时间消耗都打印出来,用这种通过时间消耗的方式来寻找瓶颈的方式是否 ...

在ajax success里面 JavaScript跳转页面的方法不不能跳转的吗？我试了好多种没有反应

问题描述 $.ajax({url:"/Ajax/System/ajaxcheshi.ashx",dataType:'text',//datatype:"json" ...

myeclipse运行出错，网页界面无法显示

问题描述 myeclipse运行出错,网页界面无法显示之前都是好的,不知道怎么回事运行不了了,求助~~ 解决方案 mysql没有正确运行,或者你的连接字符串有问题.你是不是换了ip或者机器名?

微博名命名为“提问任雪莲”

本报菏泽5月9日讯(记者李德领通讯员熊文祥)"你今天在系微博提什么问题啦?"."你提的问题老师回复了吗?"9日,记者在菏泽学院物理系学生口中时而听到这样的htt ...

PHP的垃圾回收机制详解

原文:PHP的垃圾回收机制详解最近由于使用php编写了一个脚本,模拟实现了一个守护进程,因此需要深入理解php中的垃圾回收机制.本文参考了PHP手册. 在理解PHP垃圾回收机制(GC)之前,先了解一 ...

亮相ICANN全球会议的中国万网

作为互联网名称与数字地址分配机构(ICANN),其一年三次的全球性会议是各国域名组织及业界关注的焦点.这也让于本月14日在多伦多开幕的ICANN第45次会议成为业界解读新顶级域名计划申请规则的又一次风 ...

用 Flask 来写个轻博客 (22) — 实现博客文章的添加和编辑页面

目录目录前文列表新建表单新建视图函数新建模板在博客文章页面添加 New 和 Edit 按钮实现效果前文列表用 Flask 来写个轻博客 (1) - 创建项目用 Flask 来写个轻 ...

用户控件问题,挂了二天没人答.继续发.

问题描述现有:第一个自定义控件menu.ascx第二个自定义控件menulist.ascx上面有个属性:privatestringsql;publicsetsql{setsql=value;}我把第 ...

联动天下新老代理商com/net域名仅32元

12月9日,中国优秀的一站式http://www.aliyun.com/zixun/aggregation/32376.html">网络服务商联动天下,针对新老代理商推出了域名空间优惠 ...

求java语言程序设计进阶篇课后复习题和编程题答案

问题描述各位好心人,帮忙发到我邮箱,谢谢了解决方案

用户数量暴增对企业有什么影响

文|孙宏超 6月,世界杯彩票和电商促销成为了最热的话题. 根据国家体育彩票管理中心的数据,截至6月26日世界杯期间足球彩票各类销售总额已达到74.53亿元,上届这个数字仅为21亿元.这个数字背后是互联 ...

PHP中的Memcache详解_php实例

一.Memcache简介 Memcache是danga.com的一个项目,最早是为 LiveJournal 服务的,目前全世界不少人使用这个缓存项目来构建自己大负载的网站,来分担数据库的压力.它可以应 ...

PHP在字符断点处截断文字的实现代码_php技巧

复制代码代码如下: //所谓断字 (word break),即一个单词可在转行时断开的地方.这一函数将在断字处截断字符串. // Please acknowledge use of this cod ...

Javafx简单实现【我的电脑资源管理器】效果_java

本文实例讲述了Javafx简单实现[我的电脑资源管理器]效果.分享给大家供大家参考.具体如下: 1. java代码: package ttt; import java.io.File; import ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.