crawler4j抓取页面使用jsoup解析html时的解决方法_java

crawler4j对已有编码的页面抓取效果不错，用jsoup解析，很多会jquery的程序员都可以操作。但是，crawler4j对response没有指定编码的页面，解析成乱码，很让人烦恼。在找了苦闷之中，无意间发现一年代已久的博文，可以解决问题，修改 Page.load() 中的 contentData 编码即可，这让我心中顿时舒坦了很多，接下来的问题都引刃而解了。

复制代码代码如下:

public void load(HttpEntity entity) throws Exception {
contentType = null;
    Header type = entity.getContentType();
    if (type != null) {
        contentType = type.getValue();
    }

    contentEncoding = null;
    Header encoding = entity.getContentEncoding();
    if (encoding != null) {
        contentEncoding = encoding.getValue();
    }

    Charset charset = ContentType.getOrDefault(entity).getCharset();
    if (charset != null) {
        contentCharset = charset.displayName();
    }else{
    contentCharset = "utf-8";
    }

   //源码
   //contentData = EntityUtils.toByteArray(entity);
    //修改后的代码
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}

时间： 2024-11-16 09:23:38

crawler4j抓取页面使用jsoup解析html时的解决方法_java的相关文章

php抓取页面与代码解析推荐_php技巧

得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来.下面先简单说一下本文的主要内容: 一. PHP抓取页面的主要方法: 1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式 4.curl方式 5. fsockopen()函数 socket模式 6. 使用插件(如:http://sourceforge.net/projects/snoopy/) 二.PHP解析html或x

java使用Jsoup连接网站超时的解决方法_java

今天做了一个Jsoup解析网站的项目,使用Jsoup.connect(url).get()连接某网站时偶尔会出现java.net.SocketTimeoutException:Read timed out异常.原因是默认的Socket的延时比较短,而有些网站的响应速度比较慢,所以会发生超时的情况. 解决方法: 链接的时候设定超时时间即可.doc = Jsoup.connect(url).timeout(5000).get();5000表示延时时间设置为5s. 测试代码如下:1,不设定timeou

Jsoup 抓取页面的数据实例详解

Jsoup 抓取页面的数据需要使用的是jsoup-1.7.3.jar包如果需要看文档我下载请借一步到官网:http://jsoup.org/ 这里贴一下我用到的 Java工程的测试代码 package com.javen.Jsoup; import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.

php抓取页面的几种方法详解_php技巧

在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提取,然后再进行格式化,以更加友好的方式显现出来.下面简单说一下php抓取页面的几种方法及原理:一. PHP抓取页面的主要方法:1. file()函数 2. file_get_contents()函数 3. fopen()->fread()->fclose()模式

asp抓取页面的代码

<% if trim(request.form("url"))<>"" then dim VBody:VBody=GetResStr(trim(request.form("url"))) dim Res:Res=VBody dim code:code=GetCode(VBody,"charset= {0,}([^ ]+) {0,}""") end if

asp抓取页面

<% if trim(request.form("url"))<>"" then dim VBody:VBody=GetResStr(trim(request.form("url"))) dim Res:Res=VBody dim code:code=GetCode(VBody,"charset= {0,}([^ ]+) {0,}""") end if

Python实现抓取页面上链接的简单爬虫分享_python

除了C/C++以外,我也接触过不少流行的语言,PHP.java.javascript.python,其中python可以说是操作起来最方便,缺点最少的语言了. 前几天想写爬虫,后来跟朋友商量了一下,决定过几天再一起写.爬虫里重要的一部分是抓取页面中的链接,我在这里简单的实现一下. 首先我们需要用到一个开源的模块,requests.这不是python自带的模块,需要从网上下载.解压与安装: 复制代码代码如下: $ curl -OL https://github.com/kennethreitz/

heritrix实现抓取页面中apk的地址

问题描述 heritrix实现抓取页面中apk的地址我想用heritrix抓取360助手页面的所有apk的地址,这个能实现吗,如果要是改源码的话需要改哪里解决方案自己顶一下,各位大神,欢迎浏览解决方案二: 自己顶一下,各位大神,欢迎浏览解决方案三: 查一下heritrix怎样搭建和使用,改的地方应该不多.

nutch-如何实现从购书网址抓取页面、再获取里面的图书信息，实现这个功能有什么比较好用的工具或者软件吗？

问题描述如何实现从购书网址抓取页面.再获取里面的图书信息,实现这个功能有什么比较好用的工具或者软件吗? 我期望能实现一个互联网信息收集的功能,如从购书网址抓取页面.再获取里面的图书信息,实现这个功能有什么比较好用的工具或者软件吗? 解决方案 //try python //import scrapy module //http://scrapy.org //import re module //good luck 解决方案二: 任何一种编程语言都很好用.当然你什么都不会,可以用诸如按键助手.火车

猜你喜欢

新技术、新观念与商业应用的开发——也谈AJAX和NUnit

ajax 最近比较忙,起初是对以前开发的一个C/S模式的系统进行升级,比较痛苦而且出了不少问题,好在系统连同另外两个子系统一块顺利发布,经过几天的调整总算可以全力投入到B/S这边来,说来惭愧 ...

通过数据反思搜索引擎营销策略多换位思考

通过一段时间对女装批发网(www.e-hoz.com)的观察和实践,特别是对很多竞争对手的网站进行客观的数据分析,发现很多问题值得我们去反思和改进.互联网上同质化的东西太多了,大同小异,我们要细分市场 ...

DBA（数据库管理员）的等级

DBA的等级并不是很严格的.按照对数据库的掌握情况,我简单地分成三个等级:初级Primary.中级Intermediate和高级Senior. 初级DBA又称为DBBS,是英文Database Bab ...

将ASP.NET UpdatePanel控件用于母版页

任何包含 UpdatePanel 控件的 ASP.NET 页还需要 ScriptManager 控件.若要将 UpdatePanel 控件用于母版页,则可以将 ScriptManager 控件放置在母 ...

PowerPoint2007怎样制作三维数字路径

1.打开一篇插入了"圆形"的演示文稿,选中形状,鼠标切换到功能区的"格式"选项卡,在形状样式区域点击"形状效果"的倒三角按钮,在出现的下 ...

php如何解决无法上传大于8M的文件问题

这篇文章主要介绍了php如何解决无法上传大于8M的文件问题,需要的朋友可以参考下开发一个文件上传共享网站,曾想使用下面的代码实现文件上传的功能: 代码如下: <form enctype=& ...

支付宝钱包在电脑端修改登录名绑定手机号码

1.打开www.alipay.com,点击[登录框右上角二维码区域]; 2.提示[扫码登录],展示二维码; 3.登录支付宝钱包,点击[二维码标志]进入扫码页面,扫描电脑端展示的[扫描登录二维码]; ...

液晶显示器亮度是什么

显示器的亮度定义为全白颜色下的亮度值.事实上在人们日常使用中是不需要这样高的亮度的,过高的亮度反而会给眼睛带来伤害.在绝大多数显示器中,出厂的设置基本为100%亮度,因为亮度更高让使用者对画面直观 ...

联想G510双显卡怎么切换？

1.先打开计算机设备管理器,点开显示设备器,打开后可以看到你笔记本有几个显卡,我的是一个AMD的独立显卡和Intel的集成显卡,因我们要启用独立显卡固把集成显卡禁用,禁用后就只有独立显卡运行了. ...

安全模式下如何还原系统

当系统因为各种原因损坏只能进到安全模式中,这种情况用户可以在安全模式下恢复系统,前提是"系统还原"没有被关闭. 首先进入安全模式中,然后在"开始"中依次打开 ...

[UML]UML系列——类图class的依赖关系

相关文章 [UML]UML系列--用例图Use Case [UML]UML系列--用例图中的各种关系(include.extend) [UML]UML系列-- ...

GDI+双缓冲绘制png透明问题

问题描述 GDI+双缓冲绘制png透明问题我用了gdi+的graphics来绘制png HDC hdc = GetDC(hWnd);//获取窗口的绘图hdcHDC hMdc=CreateCompat ...

利用HTML5开发Android笔记

资源来自于www.mhtml5.com 杨丰盛老师成都场的PPT分享一个很简明的demo 可以作为入门基础学习的过程中做了点笔记整理如下虽然内容比较简单但是数量还是比较多的所以分了3篇 ( ...

实例-一个方法里需要多次使用一个用单例创建的类需要多次使用单例方法创建吗？

问题描述一个方法里需要多次使用一个用单例创建的类需要多次使用单例方法创建吗? 通过单例创建一个实例,下次调用实例和每次都通过单例方法创建有什么不同? 解决方案既然是单例,每次调用都使用第一次 ...

MySQL 架构

原文:MySQL 架构 MySQL架构和结构分析官方架构图: MySQL DB 各模块架构图如下: MySQL安装方式 MySQL初始化简介:什么是事务: 事务: ACID : 事务确保了银 ...

美全面转向数字电视信号300万家庭未做好准备

中新网6月15日电美国上周五关闭了模拟电视信号,全面转向数字电视信号,并为此专门开通的一条帮助热线.据国外媒体6月15日报道,美国联邦通信委员会(FCC)表示,这条帮助热线接听了近80万个电话,其中 ...

url-tomcat部署后URL问题求教！！

问题描述 tomcat部署后URL问题求教!! tomcat中部署的任务 RUL:http://localhost:8080/Web003/load?id%20=%202最后的id怎么不对本来应该 ...

一个ejb的问题

问题描述 YouhaveanentitybeancalledEmployeeBeanthathasthefollowingejbCreate()method:publicLongejbCreate(S ...

【PMP认证考试之个人总结】第 6 章项目成本管理

第 6章项目成本管理 <PMP个人备考笔记(全篇)>下载 6.1 综述 6.2 估算成本主要考点: 1.估算活动资源.估算活动时间.估算活动成本工具的区分? [简单记] ...

怎样防范搜索引擎负面信息给企业带来的不便

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅现在的企业基本上都在做网络推广,而 ...

《Java核心技术卷Ⅱ　高级特性（原书第10版）》一3.7.4　示例：生成SVG文件

3.7.4 示例:生成SVG文件程序清单3-10是一个生成XML输出的典型程序.该程序绘制了一幅现代派绘画,即一组随机的彩色矩形(参见图3-6).我们使用可伸缩向量图形(Scalable Vecto ...

新站必读：网站内链优化一些细节事项

对于站内链接的SEO优化,很多朋友在处理自己的网站内链时,还是有一些细节没有引起重视,正是因为忽视的这几个细节,您的内链可能对于提高网站关健词排名能起到的作用并不大.在刚开始的时候,文章内页中的链接都 ...

web service-webservice 中使用反射

问题描述 webservice 中使用反射我想实现客户端不同的类都调用同一个webservice类的GetTable()方法.在webservice中判断调用者的类型,然后生成对应的数据访问类,调用 ...

使用poi将word2007转换成html问题.

问题描述转成的html文件中,为什么解析的表格没有边框呢?只有表格cell中的数据(原word文档中的表格式有边框的)....怎样才能转成html的时候,表格带有边框. 解决方案解决方案二:既然是 ...

js-JavaEE项目如何实现图片编辑器？

问题描述 JavaEE项目如何实现图片编辑器? 项目使用的是ssh框架,前端用的是html/js/css,现在需要完成一个编辑服务器上图片的功能,能够完成在图片上添加划线.文字等基本的操作,操作完成后 ...

silverlight 设定grid大小

问题描述 <Gridx:Name="RootElement"><Grid.RowDefinitions><RowDefinitionHeight=&q ...

iOS 7、iOS 8屏幕适配

在iOS 8中,[UIScreen bounds] .[UIScreen applicationFrame] .Status bar.Keyboard这些frame都是根据设备真实方向来返回frame ...

请教如何把下面的sql语句转换为lin q

问题描述现在有下面的sql语句,请教下,该如何转换为相应的linq语句,谢谢selecta.PackType,a.ProductDesc,a.ItemCode,a.SMBHKCode,a.RSP,a ...

乐淘获愤怒的小鸟全球首发鞋类形象使用权

[TechWeb消息]6月15日下午消息,网上鞋城乐淘获得<愤怒的小鸟>全球首发鞋类形象使用权,新款<愤怒的小鸟>系列帆布鞋将于6月15日在乐淘上亮相.乐淘CEO毕胜接受采访 ...

中搜微件开放平台发布1.3版本增加7项新功能

2013年4月27消息.昨日,中搜微件开放平台发布1.3版本,增加和优化了数据统计.应用冻结.开发者论坛.定时任务等7项新功能,新版本进一步考虑了开发者的需求.值得提及的是,1.3版本上线距1.2版本 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.021 s.