急急,求问如何爬取这个json文件

问题描述

文件地址是:http://chuangshi.qq.com/search/getSearchNovels.html?pageIndex=1&Website=&Subjectid=&Contentid=&Bookwords=all&Updatestatus=all&Lastupdate=all&Sortby=all&Isvip=all&TitlePinyin=all&TagList=all我要获取的是页面中<a>标签中的href,怎样才能获取到,并把它转换成正常的个是呢,真心求教,用的Java语言。

解决方案

解决方案二:
没有人吗,求大神出现
解决方案三:
采用Java第三方包HTMLParser进行解析远程页面,可以直接获取页面所有的<a>标签内容,功能强大!
解决方案四:
引用2楼littlebrain4solving的回复:

采用Java第三方包HTMLParser进行解析远程页面,可以直接获取页面所有的<a>标签内容,功能强大!

一般来说,任何你想获取的标签都是没有问题的;但是此包有一个弊端就是无法识别JS内容,如果想处理JS的话可以采用另外一个第三方工具包HTMLUnit,这个更加强大,已经可以作为浏览器内核了!

时间: 2024-09-20 08:40:01

急急,求问如何爬取这个json文件的相关文章

python-Python爬虫爬取网页源代码为空,求问原因&amp;amp;amp;解决方案(向)

问题描述 Python爬虫爬取网页源代码为空,求问原因&解决方案(向) 代码如下:import urllibimport urllib2import re url ='http://www.yingjiesheng.com/guangzhou-moreptjob-2.html'req = urllib2.Request(url)try: html = urllib2.urlopen(req).read() print htmlexcept urllib2.HTTPError e: print '

大数据-新手求大神推荐网络爬取基础的书籍

问题描述 新手求大神推荐网络爬取基础的书籍 自己毕设选到了一个与网络爬取有关的题目,自己有些JAVA基础,想请教大神们我这种菜鸟应该看些什么书?会一些数据库基础知识 解决方案 这种程序也不复杂,所以根本没必要写书,也没有这种书. 你只要在gogle里面搜索 site:download.csdn.net 爬虫 java 找几个例子看下,人家代码怎么写,自己改改也就行了. 解决方案二: 看看http请求相关,学学正则表达式 解决方案三: http://download.csdn.net/detail

急急急,求方法,这种json字符串怎么解析

问题描述 急急急,求方法,这种json字符串怎么解析 "code" : " D1_3300_0000", // 缴费时作为bussCode上送 "action" : "prepay", "title" : "缴费 - 浙江电力", "form" : [ // FormItem列表,定义了用户缴费时需上送的参数,具体返回字段中的哪些元素需要上送见 7.3.1节基本数据类

求助,python 解析爬取的网页源码中的json部分

问题描述 求助,python 解析爬取的网页源码中的json部分 爬下来的网页源码有一部分是这样的 : 中间那一部分是json吧?要怎么才能解析成像浏览器那样的好继续抓取所要的信息? 说部分是因为有另外一些是正常的html,就中间这一部分想要的信息就这样两行超级长的延伸...也使用过json.load()来解析,不想显示错误"没有可以解析的json对象". 这两行中还有一部分"}u0026nicku003d${nick}u0026rnu003d${rn}u0026stats.

数据-python 实现爬取网页的审查元素,求大神路过

问题描述 python 实现爬取网页的审查元素,求大神路过 网页源代码只有 JavaScript,没有我想要的数据.只能通过审查元素看到,怎样才能抓取审查元素的内容 暂时用的是selenium,但只能看源代码.求大神路过 解决方案 selenium拿到数据后,用lxml来解析节点,获取你对应的数据 解决方案二: beautifulsoup试试吧.. 解决方案三: 我发现了一个在云上写和运行爬虫的网站,http://www.shenjianshou.cn/.被吓到了,之前就有过这种想法,终于有人帮

怎么用java代码爬取网页中视频的源地址,不要用嗅探工具!!求高手帮助啊 !!!

问题描述 现在在做一个多媒体管理系统,需要像百度一样抓取一些网站的视频的真实连接,但是想优酷.土豆或者各大视频网站的视频的链接都是经过js加密的,求高手怎么才能获得视频的真实地址啊!!不要用字符串拼接,那个只要算法一变就不行了!!!求各位高手指导指导!!! 解决方案 解决方案二:网络抓包,分析底层协议?解决方案三:eval 解决方案四:解决没有大神,如果解决了,给个实例,邮箱:2087224217@qq.com.谢谢了解决方案五:楼主你好请问这个问题后来是怎么解决的,我最近在做着一个音乐播放器,

求问这段代码哪错了急急急急急急

问题描述 求问这段代码哪错了急急急急急急 解决方案 提示的非常明显呀,字符串格式有误,强制转换肯定会出错了 解决方案二: 打个断点,看下db上来的字符串是个啥模样,必然是个不能转为int的东西. 解决方案三: 代码没错,但是看一下MPrice和labMoney.Text的值,这两个值存在不能转换成Int32的字符 解决方案四: MPrice labMoney.Text中某一个无法转换为int 你可以用try catch忽略这个异常. 解决方案五: MPrice labMoney.Text中某一个

nutch1.7/1.8爬取pdf无法解析,全是乱码,求大神!急,好久了。

问题描述 最近公司让研究nutch.我测试了好多个版本解析如下url的pdf都不行,全是乱码(英文文档)我使用命令bin/nutchreadseg-list-dirtest01/segments/显示PARSED也是0求大神帮忙啊.为什么我爬取的pdf都是乱码,解析不了.http://www.accessdata.fda.gov/drugsatfda_docs/label/2014/202293s000lbl.pdf 解决方案

诚心求问,如何才能让爬虫爬到看不到的链接呢?

问题描述 公司让爬淘宝的数据,可是淘宝具体商品的链接都被隐藏起来了呢.http://list.taobao.com/itemlist/default.htm?cat=50000697&sd=0&as=0&viewIndex=1&spm=a2106.2206569.0.0.gcPy7P&atype=b&style=grid&same_info=1&tid=0&isnew=2&_input_charset=utf-8比如这个链接,