jsoup解析网页时“www”变成“m”的问题

问题描述

jsoup解析网页时“www”变成“m”的问题 1C

Document doc = Jsoup.connect(website).get();其中 website=""http://www.huxiu.com/photo"".这个网址可以打开。但是解析后报这样的错：

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404 URL=http://m.huxiu.com/photo
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:435)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:446)
at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:410)
at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:164)
at org.jsoup.helper.HttpConnection.get(HttpConnection.java:153)
at com.coship.crawler.crawler.parser.huxiu.HuxiuHomeProcessor.processor(HuxiuHomeProcessor.java:38)
at com.coship.crawler.crawler.work.FetchWorker.startDealJob(FetchWorker.java:76)
at com.coship.crawler.crawler.work.FetchWorker.run(FetchWorker.java:37)
at java.lang.Thread.run(Thread.java:662)
问题来了：明明是“http://www.huxiu.com/photo”，怎么就变成了“http://m.huxiu.com/photo”了呢？

解决方案

应该是网站的bug可以尝试如下代码跳过该问题：
Jsoup.connect(""http://www.huxiu.com/photo"").header(""User-Agent""Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/40.0.2214.111 Safari/537.36"").get()

时间： 2024-10-30 05:39:57

jsoup解析网页时“www”变成“m”的问题的相关文章

string-JAVA jsoup解析网页时，并以列表方式输出，但采用键值对方式时出现错误，跪求解决！！！！

问题描述 JAVA jsoup解析网页时,并以列表方式输出,但采用键值对方式时出现错误,跪求解决!!!! 部分代码:public static List> getKcList(String str) { List> kcList = new ArrayList>(); Document doc = Jsoup.parse(str); Elements datas = doc.getElementsByTag("table"); Element data = datas

jsoup解析html时，若没有查找到相关标签，Element元素的返回值如何判断为空？

问题描述 jsoup解析html时,若没有查找到相关标签,Element元素的返回值如何判断为空? 1900119429(美)Cay S. Horstmann,Gary Cornell著TP312JA978-7-111-25611-311,852页CNY118.00机械工业出版社2008JAVA核心技术．卷Ⅱ,高级特性．Volume II,Advanced featuresJAVA语言1 10000023610-13-081933-6737p.RMB13.00Sun Microsystems P

nutch解析网页时出现异常NoClassDefFoundError

问题描述 nutch解析网页时出现异常NoClassDefFoundError 如题,我在解析网页的时候出现NoClassDefFoundError异常,可是nekohtml包已经导入了,请问这是怎么回事?log截图:先谢过~ 解决方案我不是很了解你咨询下其他人解决方案二: 问题解决了,在nutch-site.xml文件中添加plugin.folders属性:home/hadoop/nutch-1.7/build/plugins(hadoop是我的用户名,请自行修改)

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便只需引进依赖例如 <dependenc

crawler4j抓取页面使用jsoup解析html时的解决方法_java

crawler4j对已有编码的页面抓取效果不错,用jsoup解析,很多会jquery的程序员都可以操作.但是,crawler4j对response没有指定编码的页面,解析成乱码,很让人烦恼.在找了苦闷之中,无意间发现一年代已久的博文,可以解决问题,修改 Page.load() 中的 contentData 编码即可,这让我心中顿时舒坦了很多,接下来的问题都引刃而解了. 复制代码代码如下: public void load(HttpEntity entity) throws Exception

jsoup-JSoup 解析网页时候遇到div有很多的标签，然后就卡壳了

问题描述 JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了 http://www.oschina.net/question/1863482_211959 问题链接

软件开发-安卓，jsoup，解析网页中的javascript的内容，提取信息

问题描述安卓,jsoup,解析网页中的javascript的内容,提取信息开发-安卓,jsoup,解析网页中的javascript的内容,提取信息-jsoup解析javascript"> 这个是网页地址:http://www.bilibili.com/mobile/subchannel.html#tid=33 以下是抓取到的网页源码,以图片发出,实在不好意思了,可是好像因为这个而发不出来了,现在安全起见还是以图片的形式发出,或者可以上该链接获取,我是用ie仿真为windows phon

加载图片顺序-如何让加载网页时，头部和尾部的背景图片先显示？

问题描述如何让加载网页时,头部和尾部的背景图片先显示? 如:www.willshop.cn首次访问,也就是没有缓存的情况下, 网站的公用头部,导航和尾部,在显示的背景图片时,必须是整个页面的加载完毕才会显示出来,用户体验效果极为不好.如何处理这种情况,从而使得,加载网页时,头部和尾部的图片先显示?谢谢. 解决方案使用iframe中间部分另外载入,不影响两个图片,但是对于seo有一定影响. 换句话说就可以用js动态加载中间内容,不过有点复杂. 解决方案二: 将你的script加载的文件全部放到

Android利用Jsoup解析html 开发网站客户端小记

这些天业余时间比较多,闲来无事,想起了以前看过开发任意网站客户端的一篇文章,就是利用jsoup解析网站网页,通过标签获取想要的内容.好了废话不多说,用到的工具为 jsoup-1.7.2.jar包,具体jsoup的相关文档,请去这边看 http://jsoup.org/,这里有全部Api可以查询. 这里解析的网站是一个食谱网站,首先解析的是大类栏目标签. 如果你使用过jquery那么 ,接下来的事情就小菜一碟了,我们按F12进入浏览器的开发者模式,去分析当前html页面的结构,如下图: 每个

猜你喜欢

让网站链接样式千奇百怪

经常在各家五花八门的网站晃悠的朋友可能会注意到一些有特点的网站往往在鼠标的链接指向形状上有不规则的变化,比如"十"字形,"问号"或者是不同方向的小箭头,下面我们 ...

网络创新时代，从一个响亮的口号做起

笔者拙文"中国互联网需要更鲜活的口号" (点此查看)一发表,就引起了诸多知名网站的关注.中国站长站编辑人员也非常赞同我的观点,让我借此文呼吁各互联网企业,各草根站长能从网页titl ...

学习ASP之详细讲解Recordset的GetRows属性

大家应该都知道 Recordset 有个 GetRows 属性,但是真正使用的不多,我也是最近才用的!汗-- 其实这个属性很简单,就是把数据集输出到一个数组中.但是实用性可不小,在这里我举一个例子说明 ...

代码详解attachMovie有区别的加载

加载|区别|详解 1.库中有一个MC,名为"ball"并连接为第一桢导出.库中还有一个空的mc名为cont:将空的MC 的cont拖入场景,并给它取事例名cont,在桢上写: ...

对视觉设计作用的常见误解

原文:Common Visual Design Misconceptions 最近,我有机会研究对视觉设计作用的常见误解,这些误解仍然盛行于行政主管.产品主管,工程经理和市场专家中.设计团队成员如何说 ...

新站买链接全攻略

对于一个新站来说,要快速的获得相关关键词的良好排名,要快速地提高网站的权重,这两个都是有一定的难度的.在现在同质化网站越来越多,竞争越来越大的网络环境下面,本着"内容为皇,外链为王&q ...

iframe与主框架跨域如何相互访问

1.同域相互访问假设A.html 与 b.html domain都是localhost (同域) A.html中iframe 嵌入 B.html,name=myframe A.html有js fun ...

用shell完成Informix的性能监控

用shell实现informix的性能监控,并以html格式输出,直观方便. 适合informix系统初建时监控系统性能.本例是按cron机制运行设计的,安排它在每天系统繁忙时进行监控,以便对系统的资 ...

Exchange Server 2003中优化内存使用

注册表编辑器使用不当可造成严重问题,这些问题可能需要重新安装操作系统.Microsoft 不保证能够解决因为注册表编辑器使用不当而产生的问题.使用注册表编辑器需要您自担风险.本文介绍了运行 Excha ...

OneNote 2013新增功能

OneNote 是一个数字笔记本,用于创建和存储您的所有笔记.笔记将自动保存并可供搜索,因此,当需要时您始终能找到它们.当您外出时,它们也与您形影不离,您只需使用喜爱的设备或几乎任何浏览器即可访问. ...

《Programming WPF》翻译第7章 5.可视化层编程

形状元素能提供一种便利的方式与图形一起工作,在一些情形中,添加表示绘图的元素到UI树中,可能是比它的价值更加麻烦.你的数据可能被构造以一种易于编写代码的方式--简单地表现一系列基于数据的绘图操作, ...

ORACLE实例分享：DB

1.修改数据库名 1.查看oracle实例名 2.shutdown immediate 3.lsnrctl stop $ORACLE_SID#----------windows下关闭使用oracle服 ...

百度浏览器特权中心在哪怎么打开

百度浏览器特权中心在哪:1.首先当然是下载最新版本的百度浏览器,下载安装都很快,接着点击设置菜单登陆百度账号,当然你没有也可以,QQ和人人账号也可以登陆,如图所示: 2.登陆账号后,就可以看到登录 ...

教你如何LR调出类似HDR效果大场面照片

一直有许多朋友很喜欢我去年在上海长江迷笛音乐节上拍摄拍摄的这张"沙场秋点兵",也很好奇我从前期到后期的一个流程是怎样的.独乐乐不如众乐乐,今天我就和大家分享一下这张照片的调色思 ...

XP系统提示“程序并行配置不正确”如何解决

XP系统提示"程序并行配置不正确"怎么办?这个问题是我们在安装软件过程中经常会遇到的.一些xp系统用户发现软件老是安装失败,且提示"程序并行配置不正确".针 ...

C#修改文件或文件夹的权限，为指定用户、用户组添加完全控制权限

写在前面在windows系统中,c盘中的目录权限比较高,有时制作安装包的时候,默认的安装路径就是在c盘,但对运行可执行文件,有时候需要为其添加完全控制权限,或者读写权限.这里将当时的解决方案记录一下 ...

z index-div z-index设的非常大，为啥还是同层显示

问题描述 div z-index设的非常大,为啥还是同层显示怎样才能使它变成弹出层脱离出来.上层的z-index如果是1,内部层无论设置多大都无效,有其他办法使其脱离出来么.页面动态生成的,怎样找到 ...

JQuery实现当鼠标停留在某区域3秒后自动执行_jquery

这篇文章主要介绍了JQuery实现当鼠标停留在某区域3秒后自动执行,可以应用于很多场景 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Tra ...

imageview-android获取ImageView的宽高为什么是0？

问题描述 android获取ImageView的宽高为什么是0? public class MainActivity extends Activity { private ImageView iv; ...

《Adobe Illustrator CS6中文版经典教程（彩色版）》—第1课1.14节在多个画板之间导航

1.14 在多个画板之间导航 Adobe Illustrator CS6中文版经典教程(彩色版) Illustrator 支持在单个文件中包含多个画板,让用户能够创建多页文档,在一个文档中包含多项内容 ...

行人统计 —— AdaBoost头部分类器的训练实验报告代码样本

pdf 代码样本下载行人统计 -- AdaBoost头部分类器的训练实验报告代码样本

营销案例：宝洁从宿舍空气中嗅出商业机会

什么时候开始,社交网络竟然取代了其它媒介,成为了世界级品牌营销活动的主要舞台?宝洁公司的旗下品牌Febreeze,在最近的一次在线病毒式营销活动中,单选Facebook为主打媒体.这一手笔,足令网络广 ...

android　微信支付　支付成功后，不回调

问题描述 android 微信支付支付成功后,不回调 android 微信支付成功后,怎么都不进回调的activity和回调方法, 要配置什么东西才可回调吗????求大神,, 解决方案已解决. 再 ...

计算机学习-如何限制笔记本发出wifi热点问题

问题描述如何限制笔记本发出wifi热点问题问题描述 :笔记本连接无线路由器上网,之后笔记本创建了wifi热点,其他设备连接该热点上网,想请教是设备的IP地址是由无线路由器分配的还是热点分配呢,如何 ...

关系

问题描述严重:action:nullorg.springframework.beans.factory.BeanCreationException:Errorcreatingbeanwithname ...

git远程仓库复制Symfony框架项目到本地安装

新同事第一次接触Symfony框架项目的时候,不知道Symfony的整个使用流程是怎样的,下面详细介绍(本文在CentOS下演示,windows相同): 默认条件: 本文默认你已经有配置完善的 Apa ...

职业生涯的甜蜜陷阱

能够带给你训练.锤炼和磨练的公司,并不一定是大公司.反而可能正是大公司们,会使你陷入甜蜜陷阱,一旦你辞职去创业或者去其他公司担任高管,你的"破绽"马上就会露出来. 文/白立新,IB ...

Android 基础课堂 - Lesson.2

Android 基础课堂在上周的基础课堂中,我们说过了,本系列的基础课堂将会结合一个应用的开发过程慢慢带大家慢慢深入理解Android开发的过程,故该基础课堂和正常的Android入门教程不太一样, ...

6G数据库的导入报各种错误的解决办法_Mysql

工具选择一.sqlyog 这个工具还是很强大的,但是面对5个G的数据库来说,也只能罢工了,简单说,本机导入可以,从本机导入服务器不行. 二.phpadmin 自带的这个挺人家说还行,但是最后没用过, ...

站长如何把握“秤”与“砣”

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅这篇文章写给自己还有广大站长们!这 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.022 s.