问题描述
今天抓取数据时页面是<div id=""></div>是在js中写的table,不知道怎么在后台抓取所以新建了一个新的jsp,想将js在table的源代码放到jsp里面去,再通过后台访问自己建的jsp现在只能取出整个页面的源代码,不知道如何取出table的源代码,请教各位或者各位有没有什么其他好的方法,或是在后台直接抓取详细信息,页面http://gtog.ningbo.gov.cn/col/col10267/index.html抓取table代码:<div id="25130"></div> 问题补充:wangqj 写道
解决方案
你可以通过httpclient和htmlParser 做任何你想做的事,很简单
解决方案二:
htmlparser拿到的是树状结构,一个子节点一个子节点的取就可以了
解决方案三:
if (tag instanceof LinkTag)// <a> 标签 { LinkTag link = (LinkTag) tag; String linkUrl = link.getLink
解决方案四:
关于网站改版的问题,没有方法改善。。。。任何爬虫,要爬比较细的属性的时候,都需要随时关注网站的动态,除非依据特殊的属性,比如一个class=“aaa”但是aaa也有可能改变
解决方案五:
http://hi.baidu.com/honestt/blog/item/854af551a49bb813367abebb.html
解决方案六:
你抓的是列表吧,列表不在那个div
解决方案七:
你抓的应该是html的数据,怎么会是源码?是用httpclient抓的吗?