jsoup解析网页时“www”变成“m”的问题

问题描述

jsoup解析网页时“www”变成“m”的问题 1C
Document doc = Jsoup.connect(website).get();其中 website=""http://www.huxiu.com/photo"".这个网址可以打开。但是解析后报这样的错:

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404 URL=http://m.huxiu.com/photo
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:446)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153)
at com.coship.crawler.crawler.parser.huxiu.HuxiuHomeProcessor.processor(HuxiuHomeProcessor.java:38)
at com.coship.crawler.crawler.work.FetchWorker.startDealJob(FetchWorker.java:76)
at com.coship.crawler.crawler.work.FetchWorker.run(FetchWorker.java:37)
at java.lang.Thread.run(Thread.java:662)
问题来了:明明是“http://www.huxiu.com/photo”,怎么就变成了“http://m.huxiu.com/photo”了呢?

解决方案

应该是网站的bug可以尝试如下代码跳过该问题:
Jsoup.connect(""http://www.huxiu.com/photo"").header(""User-Agent""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/40.0.2214.111 Safari/537.36"").get()

时间: 2024-10-30 05:39:57

jsoup解析网页时“www”变成“m”的问题的相关文章

string-JAVA jsoup解析网页时,并以列表方式输出,但采用键值对方式时出现错误,跪求解决!!!!

问题描述 JAVA jsoup解析网页时,并以列表方式输出,但采用键值对方式时出现错误,跪求解决!!!! 部分代码:public static List> getKcList(String str) { List> kcList = new ArrayList>(); Document doc = Jsoup.parse(str); Elements datas = doc.getElementsByTag("table"); Element data = datas

jsoup解析html时,若没有查找到相关标签,Element元素的返回值如何判断为空?

问题描述 jsoup解析html时,若没有查找到相关标签,Element元素的返回值如何判断为空? 1900119429(美)Cay S. Horstmann,Gary Cornell著TP312JA978-7-111-25611-311,852页CNY118.00机械工业出版社2008JAVA核心技术.卷Ⅱ,高级特性.Volume II,Advanced featuresJAVA语言1 10000023610-13-081933-6737p.RMB13.00Sun Microsystems P

nutch解析网页时出现异常NoClassDefFoundError

问题描述 nutch解析网页时出现异常NoClassDefFoundError 如题,我在解析网页的时候出现NoClassDefFoundError异常,可是nekohtml包已经导入了,请问这是怎么回事?log截图:先谢过~ 解决方案 我不是很了解 你咨询下其他人 解决方案二: 问题解决了,在nutch-site.xml文件中添加plugin.folders属性:home/hadoop/nutch-1.7/build/plugins(hadoop是我的用户名,请自行修改)

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便 只需引进依赖 例如 <dependenc

crawler4j抓取页面使用jsoup解析html时的解决方法_java

crawler4j对已有编码的页面抓取效果不错,用jsoup解析,很多会jquery的程序员都可以操作.但是,crawler4j对response没有指定编码的页面,解析成乱码,很让人烦恼.在找了苦闷之中,无意间发现一年代已久的博文,可以解决问题,修改 Page.load() 中的 contentData 编码即可,这让我心中顿时舒坦了很多,接下来的问题都引刃而解了. 复制代码 代码如下: public void load(HttpEntity entity) throws Exception

jsoup-JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了

问题描述 JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了 http://www.oschina.net/question/1863482_211959 问题链接

软件开发-安卓,jsoup,解析网页中的javascript的内容,提取信息

问题描述 安卓,jsoup,解析网页中的javascript的内容,提取信息 开发-安卓,jsoup,解析网页中的javascript的内容,提取信息-jsoup解析javascript"> 这个是网页地址:http://www.bilibili.com/mobile/subchannel.html#tid=33 以下是抓取到的网页源码,以图片发出,实在不好意思了,可是好像因为这个而发不出来了,现在安全起见还是以图片的形式发出,或者可以上该链接获取,我是用ie仿真为windows phon

加载图片顺序-如何让加载网页时,头部和尾部的背景图片先显示?

问题描述 如何让加载网页时,头部和尾部的背景图片先显示? 如:www.willshop.cn首次访问,也就是没有缓存的情况下, 网站的公用头部,导航和尾部,在显示的背景图片时,必须是整个页面的加载完毕才会显示出来,用户体验效果极为不好.如何处理这种情况,从而使得,加载网页时,头部和尾部的图片先显示?谢谢. 解决方案 使用iframe中间部分另外载入,不影响两个图片,但是对于seo有一定影响. 换句话说就可以用js动态加载中间内容,不过有点复杂. 解决方案二: 将你的script加载的文件全部放到

Android利用Jsoup解析html 开发网站客户端小记

这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一 篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多 说,用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看 http://jsoup.org/,这里有全部Api可以查询. 这里解析的网站是一个食谱网站,首先解析的是大类栏目标签. 如果你使用过jquery那么 ,接下来的事情就小菜一碟了,我们按F12进入浏览 器的开发者模式,去分析当前html页面的结构,如下图: 每个