phantomjs 抓取html页面中所有h3标签

问题描述

phantomjs 抓取html页面中所有h3标签: var page = require('webpage').create();
phantom.outputEncoding='gbk';
page.open('http://baidu.com/s?wd=javascript'function(status) {
console.log(page.title);
page.evaluate(function(){
var len=document.getElementsByTagName('h3').length;
var h3=new Array();
for(i=0;i<len;i++){
h3[i]=document.getElementsByTagName('h3')[i].innerHTML;
}
console.log(h3);
});
phantom.exit();
});
这段代码有哪些问题，为什么运行不出结果

时间： 2024-07-28 13:13:06

phantomjs 抓取html页面中所有h3标签的相关文章

利用NodeJS和PhantomJS抓取网站页面信息以及网站截图_javascript技巧

利用PhantomJS做网页截图经济适用,但其API较少,做其他功能就比较吃力了.例如,其自带的Web Server Mongoose最高只能同时支持10个请求,指望他能独立成为一个服务是不怎么实际的.所以这里需要另一个语言来支撑服务,这里选用NodeJS来完成. 安装PhantomJS 首先,去PhantomJS官网下载对应平台的版本,或者下载源代码自行编译.然后将PhantomJS配置进环境变量,输入 $ phantomjs 如果有反应,那么就可以进行下一步了. 利用PhantomJS进行简

利用curl抓取远程页面内容的示例代码

利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下最基本的操作如下复制代码代码如下: $curlPost = 'a=1&b=2';//模拟POST数据 $ch = curl_init(); curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IP curl_setopt($ch, CURLOPT_REFERER, "ht

爬-请问如何抓下去抓取如下链接中的数据？搞了几天了，没有头绪啊，坐等大神帮忙。。。。

问题描述请问如何抓下去抓取如下链接中的数据?搞了几天了,没有头绪啊,坐等大神帮忙.... 各位大神好,我想抓取这个网站上http://xxfb.hydroinfo.gov.cn/ssIndex.html,大江大河的水文数据,,好像是用post方法才能返回表里的数据,但是小白实在是不会用,请各路大神帮忙看看,如何获取这个表中的数据,谢谢啦解决方案可以用浏览器控制台抓一下请求,post的各种参数需要你能够搞清,这样就可以构造对应的参数,一个个发送post获取返回数据,然后再解析结果. 解决方案

利用curl抓取远程页面内容的示例代码_php技巧

最基本的操作如下复制代码代码如下: $curlPost = 'a=1&b=2';//模拟POST数据$ch = curl_init();curl_setopt($ch, CURLOPT_HTTPHEADER, array('X-FORWARDED-FOR:0.0.0.0', 'CLIENT-IP:0.0.0.0')); //构造IPcurl_setopt($ch, CURLOPT_REFERER, "http://www.jb51.net/"); //构造来路 cur

如何用java抓取ajax页面的内容？

问题描述如何用java抓取ajax页面的内容?例如这个页面: http://app.abchina.com/branch/ 中的营业结构查询思路是什么,希望大家给出解答,谢谢! 问题补充:wangqj 写道解决方案用htmlparser就可以了,你不用管ajax,和正常页面一样抓就行.实际上你只要知道你要抓取的页面的网址就可以了

C#抓取AJAX页面的内容

原文 C#抓取AJAX页面的内容现在的网页有相当一部分是采用了AJAX技术,所谓的AJAX技术简单一点讲就是事件驱动吧(当然这种说法可能很不全面),在你提交了URL后,服务器发给你的并不是所有是页面内容,而有一大部分是JS脚本,即用<JAVASCRIPT标签表示的,这其中有些是链接了外部的JS文件,有些是内置的JS脚本,这些脚本是在客户端加载了服务器发回来的源码后才执行的,所以不管是采用C#中的WebClient还是HttpRequest都得不到正确的结果,因为这些脚本是在服务器发送完毕后才执

网络爬虫-用Java来抓取网页实例中HttpClient类的问题

问题描述用Java来抓取网页实例中HttpClient类的问题报这么一大堆错误我也是受不了了...... 主要的问题应该是HttpClient类这个东西,在网上查了这个类是httpclient-2.x.jar包的产物,我导入的是httpclient-4.2.2.jar和httpcore-4.2.2.jar包,而这两个新的工具包并不包含HttpClient类,查阅了Java API帮助文档后,自己并没有找到HttpClient类的替代类,而是一堆接口和抽象类,由于是刚开始写这个,所以有点懵.

php5-怎么用php抓取一个页面的文章标题和标题对应的内容导入数据库，T_T

问题描述怎么用php抓取一个页面的文章标题和标题对应的内容导入数据库,T_T 解决方案 http://www.jb51.net/article/48923.htm 把数据先抓回来,然后筛选你想要的,存入数据库就可以了. 解决方案二: 用xml工具解析,或正则

Nodejs抓取html页面内容（推荐）_node.js

废话不多说,直接给大家贴node.js抓取html页面内容的核心代码了. 具体代码如下所示: var http = require("http"); var iconv = require('iconv-lite'); var option = { hostname: "stockdata.stock.hexun.com", path: "/gszl/s601398.shtml" }; var req = http.request(option,