如何抓取js的嵌套table代码

问题描述

今天抓取数据时页面是<div id=""></div>是在js中写的table,不知道怎么在后台抓取所以新建了一个新的jsp,想将js在table的源代码放到jsp里面去,再通过后台访问自己建的jsp现在只能取出整个页面的源代码,不知道如何取出table的源代码,请教各位或者各位有没有什么其他好的方法,或是在后台直接抓取详细信息,页面http://gtog.ningbo.gov.cn/col/col10267/index.html抓取table代码:<div id="25130"></div> 问题补充:wangqj 写道

解决方案

你可以通过httpclient和htmlParser 做任何你想做的事,很简单
解决方案二:
htmlparser拿到的是树状结构,一个子节点一个子节点的取就可以了
解决方案三:
if (tag instanceof LinkTag)// <a> 标签                 {                     LinkTag link = (LinkTag) tag;                     String linkUrl = link.getLink
解决方案四:
关于网站改版的问题,没有方法改善。。。。任何爬虫,要爬比较细的属性的时候,都需要随时关注网站的动态,除非依据特殊的属性,比如一个class=“aaa”但是aaa也有可能改变
解决方案五:
http://hi.baidu.com/honestt/blog/item/854af551a49bb813367abebb.html
解决方案六:
你抓的是列表吧,列表不在那个div
解决方案七:
你抓的应该是html的数据,怎么会是源码?是用httpclient抓的吗?

时间: 2024-08-28 06:01:46

如何抓取js的嵌套table代码的相关文章

javascript实时抓取天气和汇率的代码

问题描述 javascript实时抓取天气和汇率的代码 前台直接通过接口抓取,网上的说明看不懂啊,有没有完整代码好好研究一下,谢谢了

asp 抓取baidu收录网页数代码

asp 抓取baidu收录网页数代码 <% response.expires = -1 response.addheader "cache-control","no-cache" Response.AddHeader "Pragma","no-cache" wd=Request("d") If Request("s")="baidus" Then BaiduUr

分享下页面关键字抓取www.icbase.com站点代码(带asp.net参数的)_php实例

复制代码 代码如下: <?php/** * HOST: www.icbase.com *///set_time_limit(0);// base functionfunction curl_get($url, $data = array(), $header = array(), $timeout = 15, $port = 80, $reffer = '', $proxy = ''){ $ch = curl_init(); if (!empty($data)) { $data = is_arr

Java_爬虫,如何抓取Js动态生成数据的页面?

问题描述 很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的.HttpClient是不行的,看网上说HtmlUnit,说  可以获取后台js加载完后的完整页面,但是我按照文章上说的 写了 ,都不好使.String url = "http://xinjinqiao.tprtc.com/admin/main/flrp

分享下页面关键字抓取components.arrow.com站点代码_php实例

复制代码 代码如下: <?php /** * HOST: components.arrow.com */ //set_time_limit(0); // base function function curl_get($url, $data = array(), $header = array(), $timeout = 15, $port = 80, $reffer = '', $proxy = '') { $ch = curl_init(); if (!empty($data)) { $da

php curl 登录163邮箱并抓取邮箱好友列表的代码(经测试)

CURL技术说白了就是模拟浏览器的动作实现页面抓取或表单提交,通过此技术可以实现许多有去的功能.复制代码 代码如下: <?php error_reporting(0); //邮箱用户名(不带@163.com后缀的) $user = 'papatata_test'; //邮箱密码 $pass = '000000'; //目标邮箱 //$mail_addr = uenucom@163.com'; //登陆 $url = 'http://reg.163.com/logins.jsp?type=1&

asp.net抓取sina邮箱联系人实现代码

 代码如下 复制代码 using System; using System.Net; using System.IO; using System.Text; using System.Collections.Specialized; using System.Text.RegularExpressions; /*  * AddressSina  * 新浪免费邮箱获取联系人(sina.com/sina.cn)  *  *  改?履?s  * ver 1.00.00 @[20100721]  星缘梦

实时抓取YAHOO股票报价的代码

<? function getYahooQuote($stockSymbol = "CCR") { if (!$targetURL) $targetURL = "http://finance.yahoo.com/q?s=$stockSymbol&d=t"; //设定要抓取的URL目标             $fd = fopen("$targetURL", "r");         $stopExtract

实时抓取YAHOO股票报价的代码_php基础

<? function getYahooQuote($stockSymbol = "CCR") { if (!$targetURL) $targetURL = "http://finance.yahoo.com/q?s=$stockSymbol&d=t"; //设定要抓取的URL目标             $fd = fopen("$targetURL", "r");         $stopExtract