jsoup v1.5.1发布 一款Java的HTML解析器

Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展 HTML">Parser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulating data, using the best of DOM, CSS, and jquery-like methods.

·parse HTML from a URL, file, or string
·find and extract data, using DOM traversal or CSS selectors
·manipulate the HTML elements, attributes, and text
·clean user-submitted content against a safe white-list, to prevent XSS

jsoup is designed to deal with all varieties of HTML found in the wild; from pristine and validating, to invalid tag-soup; jsoup will create a sensible parse tree.

jsoup的主要功能如下:

1. 从一个URL,文件或字符串中解析HTML;
   2. 使用DOM或CSS选择器来查找、取出数据;
   3. 可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

该版本增加单个 pass 选择器用于所有复杂查询,另外使用 CSS 选择器从 DOM 中提取元素的性能得到显著的提升,修复了 Scala 支持的bug,提供新的 HTML 操作特性以及bug修复。

Features, fixes, and improvements

·Added ability to change an element's tag with Element.tagName(String), and to change many at once with Elements.tagName(String).
·Added Node.wrap(String), Node.before(String), and Node.after(String), to allow HTML to be easily added to all nodes. These functions were previously supported on Elements only.
·Added TextNode.splitText(int), which allows a text node to be split into two nodes at a specified index point. This is convenient if you need to surround some text in an element.
·Updated Jsoup.Connect so that cookies set on a redirect response will be included on both the redirected request and response.
·Infinite redirection loops in Jsoup.connect are now prevented.
·Allow Jsoup.connect to parse application/xml and application/xhtml+xml responses.
·Modified Jsoup.connect to always follow relative links, regardless of the underlying HTTP sub-system.
·Defined U (underline) element as an inline tag.
·Force strict entity matching (must be &xxx; and not &xxx) in element attributes.
·Implemented Elements.clone() (contributed by knz).
·Fixed tokeniser optimisation when scanning for missing data element close tags.
·Fixed issue when using descendant regex attribute selectors.

下载地址:

jsoup-1.5.1.jar core library jsoup-1.5.1-sources.jar optional sources jar jsoup-1.5.1-javadoc.jar optional javadoc jar

时间: 2024-09-30 13:38:51

jsoup v1.5.1发布 一款Java的HTML解析器的相关文章

jsoup v1.6.0发布 一款Java的HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据.其他方面的改进请看发行说明. jsoup 1.6.0发行说明: jsoup is a Java library for working with real-world HTML. It provides a very convenient API for extracting and manipulati

jsoup v1.5.2发布 一款Java的HTML解析器

jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址.HTML文本内容.比起之前用的HTMLhttp://www.aliyun.com/zixun/aggregation/33959.html">Parser方便很多,而且更轻便.语法类似jquery. 它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据. This is a minor release, that primarily corrects a regress

jsoup 1.6.3发布 一款Java的HTML解析器

jsoup 是一个HTML的Java库.它可以从一个URL.文件或字符串中解析HTML,使用DOM遍历或CSS选择来发现并提取数据操作,包含HTML元素.属性和文字. jsoup 1.6.3该版本进行了一些改进和bug修正,包括继续支持谷歌App Engine和解析修正. 软件信息:http://jsoup.org/ 下载地址: jsoup-1.6.3.jar core library jsoup-1.6.3-sources.jar optional sources jar jsoup-1.6.

javaweb-java-jsoup异常处理,JAVA的HTML解析器.

问题描述 java-jsoup异常处理,JAVA的HTML解析器. java.lang.IllegalMonitorStateException 怎样解决,FileOutputStream out = new FileOutputStream(file); 100: int i = 0; while((i=is.read()) != -1){ out.wait(i); } 127:for(Element element : elements){ String imgSrc = element.a

利用Java实现组合式解析器

简介:Ward Cunningham 曾经说过,干净的代码清晰地表达了代码编写者所 想要表达的东西,而优美的代码则更进一步,优美的代码看起来就像是专门为了 要解决的问题而存在的.在本文中,我们将展示一个组合式解析器的设计.实现 过程,最终的代码是优美的,极具扩展性,就像是为了解析特定的语法而存在的 .我们还会选取 H.248 协议中的一个例子,用上述的组合式解析器实现其语法 解析器.读者在这个过程中不仅能体会到代码的美感,还可以学习到函数式编程 以及构建 DSL 的一些知识. DSL 设计基础

JOpt Simple 4.0发布 测试驱动的命令行解析器

JOpt Simple是一个用于Java程序的测试驱动的简单命令行解析器.它支持POSIX getopt() 和 GNU getopt_long() . JOpt Simple 4.0版本更新日志: 1.增加了选项解析的方法,formatHelpWith(HelpFormatter) 允许程序员改变printHelpOn() 打印帮助.2.通过选项文,处理一个HelpFormatter,其值OptionDescriptors分析器已配置.3.添加OptionSet.hasOptions() 选项

JOpt Simple 4.1发布 测试驱动的命令行解析器

JOpt Simple 4.1此版本允许短选项集群包含可以接受的参数.当遇到这样的选择是,在集群中的其余字符被视为该选项的参数. JOpt Simple是一个用于Java程序的测试驱动的简单命令行解析器.它支持POSIX getopt() 和 GNU getopt_long() . 示例:http://pholser.github.com/jopt-simple/examples.html 下载地址:http://pholser.github.com/jopt-simple/download.h

对Java中JSON解析器的一些见解_java

最近在研究JSON,Java中有很多处理JSON的类库,lib-json.sf-json.fastjson还有Jackson Json.第一个就不说了,性能和功能都没有什么亮点. sf-json最大的优点就是随机读取方便.代码很简单: JSONObject json= JSONObject.fromObject(str); 然后读取字段内容: json.getString或者getInt之类的.但是工作效率有待商榷,而且容易出错. 另外sf-json还有个优点就是自动使用unicode编码,当内

JAVA中RSS解析器(rome.jar和jdom.jar)范例

1.需要 jdom.jar 和 rome.jar 这两个包. 2.创建一个项目,web.xml的内容如下:  代码如下 复制代码 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5"          xmlns="http://java.sun.com/xml/ns/javaee"          xmlns:xsi="htt