爬虫

问题描述

如题,正在做一个网页爬虫,静态网页都可以获取,现在是一些动态网页,或伪静态页面获取不到源码,就是网页中的js或ajax执行后的页面源码,请问有什么办法?

解决方案

解决方案二:
对方怎么搞你怎么搞呗对方网页从ajax接口去请求数据,你把cookie扒拉下来,参数一模一样的生成好去请求,得到的数据再分析
解决方案三:
我要做的就是像这个网址http://www.wood365.cn/know/KnowDictList.html共52页,页的信息可以趴下来,现在要实现的就是动态获取网页的总页数,这个是js实现的,我不知道该怎么获得?我是新手,不怎么会,所以有经验的指点一下

时间: 2024-10-03 08:41:55

爬虫的相关文章

简易Java爬虫制作

一.文章来由 本来最近任务挺多,但是今天想放松一下,正巧Bill喜欢玩英语配音,而配音都是在配音软件的云上,我想把那些都拿到,于是就写一了一个爬虫,接着就有了这篇爬虫教程~~ 二.爬虫!!爬虫!! 首先要搞清什么叫爬虫~~ 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引.模拟程序或者蠕虫. 当然Java本身应该不算是脚本语言(一个脚本通常是解释运行而非编译,J

玩玩小爬虫——试搭小架构

     第一篇我们做了一个简单的页面广度优先来抓取url,很显然缺点有很多,第一:数据结构都是基于内存的,第二:单线程抓取 速度太慢,在实际开发中肯定不会这么做的,起码得要有序列化到硬盘的机制,对于整个爬虫架构来说,构建好爬虫队列相当重要.      先上一幅我自己构思的架构图,不是很完善,算是一个雏形吧. 一:TODO队列和Visited集合      在众多的nosql数据库中,mongodb还是很不错的,这里也就选择它了,做集群,做分片轻而易举. 二:中央处理器      群架,斗殴都是

php-现在的爬虫原理还是简单的用正则抓取么?

问题描述 现在的爬虫原理还是简单的用正则抓取么? 本人实习生小菜鸟一枚,公司让写个爬虫练练手,之前对这个完全没概念,刚才在网上看了一会,觉得大致思路是抓下来整个文件,用正则表达式处理文本似的根据文法抓取要抓的东西,然后再处理,想问问现在也是这个思路么,就拿最初级的表单里的数据来说,现在有没有更直接的抓取方法,另外希望给几个php爬虫的demo,公司服务器没有python环境,只能用php了,多谢. 解决方案 正则不是用来抓取的,抓取用curl 正则是抓取了html后,解析你需要的数据的. 具体例

c c++-求用c编写的一个简单的爬虫程序,高手赐教,不胜感激

问题描述 求用c编写的一个简单的爬虫程序,高手赐教,不胜感激 本人是初学者,要编写一爬虫程序,抓取60多万个网页上的信息,实在是无从下手,请高手给一个能看得懂的简单的爬虫程序学习用,多谢 解决方案 我也要写一个C爬虫,不过遇到了一些问题,比如58这样的网站,用getaddrinfo返回的ip无法连接,已经耽误了我好几天了,别的问题到还没遇到

众推平台架构——分布式爬虫

分布式爬虫架构 经过新一轮的投票,项目的范围已经基本确定. 大家决定 全力以付,集中攻克"分布式爬虫". 分布式爬虫架构1 使用队列,即生产者,消费都模式. 由于生产者将规则生成到队列,然后由爬虫集群(消费者)到队列中取规则,然后按优先级等规则进行爬取. 分布式爬虫架构2 类似于webmagic,webmagic的是一个无须配置.便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫.webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取.页面

毕业设计-基于内容与链接分析的主题爬虫研究与开发

问题描述 基于内容与链接分析的主题爬虫研究与开发 毕业设计,研究网页排名算法,等等.如何实现?有哪个大神会,加我QQ774921781.帮帮忙,跪求程序.谢谢各位了................ 解决方案 http://wenku.baidu.com/link?url=RYx_EIqHBUszyPyecQkDfDdCPs64xeVqcGVFL7UFJOcxkEKDfOKp_R9J-rLZu_MKTdOlE4U_wMgqaIYEi5rCBlEEbwuzaDS6F4XlO1wr6uS

加密-C#爬虫调用js源码想获取QQ空间get命令的p字段 出现以下问题

问题描述 C#爬虫调用js源码想获取QQ空间get命令的p字段 出现以下问题 我从登录页面下了个c_login_2.js文件,结果用MSScriptControl.ScriptControl出现各种问题,主要就是各种未定义,例如 windows未定义 document未定义 解决方案 那当然,你得放在webbrowser里面运行才行,否则这些和浏览器相关的对象都没有.

python 爬虫 怎么获取标签中的注释?我用得lxml解析html

问题描述 python 爬虫 怎么获取标签中的注释?我用得lxml解析html <span>当前第9127页 <!--共136904条-->  </span> 怎么才能获取注释里的值呢? tree=etree.HTML(page) pagenumber=tree.xpath(xpathStr) for i in pagenumber: totalpage=filter(str.isdigit,str(i)) 解决方案 注释不属于xml格式了,你拿到span节点后获取它的

如何和搜索引擎爬虫对话

抓取策略:那些网页是我们需要去下载的,那些是无需下载的,那些网页是我们优先下载的,定义清楚之后,能节省很多无谓的爬取.更新策略:监控列表页来发现新的页面:定期check 页面是否过期等等.抽取策略:我们应该如何的从网页中抽取我们想要的内容,不仅仅包含最终的目标内容,还有下一步要抓取的url.抓取频率:我们需要合理的去下载一个网站,却又不失效率. 让我对"如何和爬虫对话 "这个课题有了一些思考,下面归纳的主要用于迎合上面提到的爬虫"抓取策略". 1.通过 robots

百度知道的php爬虫

<?php /*  百度知道爬虫! 经过我们分析,百度知道是由静态网页组成.网址格式主要为http://zhidao.baidu.com/question/(编号).html,其中编号便是该问题的编号(PID),按照时间逐个编号的,由于某些问题的删除或者某种原因,可能编号不连续.当我们发现该问题删除时,可以跳过该问题继续. */ class spider {  private $content ;  private $contentlen ;  private $BestAnswer ;  pr