TinyHtmlParser开源喽~~~

优点:

高效、简单、易用的Html解析器。

学习时间,分分钟。

解析速度超过,查找速度超快,支持格式化。

有强悍的容错性,即使HTML标签不规范,也会尽可以进行匹配,弥补,正确纠错率达95%以上。即使不能正确纠错,也不会导致解析不下去。

支持大小写混合匹配,即开始标签与结束标签为<HTML>和</html>也可以正确的进行匹配。

Maven引用坐标:

1 <dependency>
2 <groupId>org.tinygroup</groupId>
3 <artifactId>htmlparser</artifactId>
4 <version>0.0.12</version>
5 </dependency>

使用方式,请参考http://my.oschina.net/tinyframework/blog/194574

只要把文中的Xml变成Html就完全适用。

时间: 2024-09-26 19:08:19

TinyHtmlParser开源喽~~~的相关文章

TinyDbRouter开源喽~~~

前面有过一篇文章介绍TinyDbRouter,但是当时没有开出来,主要原因是:1偶的粉丝数太少,期望到100的时候,纪念性的发布这个重量级框架,另外一个原因是当时有个编译问题没有完美的解决,偶担心同学们使用的时候不方便--其实偶也不方便,尤其是发布和测试的时候. 现在粉够100了,那个编译问题也顺利的解决了,OK,没有什么理由不快些把它开放给大家. 前面偶起的名字是TinyDBCluster,后来由于有同学们反应说这个与数据库集群歧义,因此还是改成TinyDBRouter了,如果看到两个名字,请

TinySpider开源喽~~~

TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架. Maven引用坐标: ? 1 2 3 4 5 <dependency> <groupId>org.tinygroup</groupId> <artifactId>tinyspider</artifactId> <version>0.0.12</version> </dependency> 网络爬虫,一般用在全文检索或内容获取上面.

TinyXmlParser开源喽~~~

优点: 高效.简单.易用的Xml解析器. 学习时间,分分钟. 支持中文标签名与属性名,支持下划线,减号等分隔符. 解析速度超过,查找速度超快,支持格式化. 缺点:不支持Xml Schema,DTD校验. Maven引用坐标: ? 1 2 3 4 5 <dependency> <groupId>org.tinygroup</groupId> <artifactId>xmlparser</artifactId> <version>0.0.

使用TinySpider实战抓取自己博客中的内容

因为做官网,没有内容,因此就想办法从OSChina中写的博客里弄点内容,这就要用到爬虫了. 然后就花了几分钟搞了一下,步骤如下: 第一步,写个方法抓目录: ? 1 2 3 4 5 6 7 8 9 10 11 public static void processCategory(String categoryId) {         Watcher watcher = new WatcherImpl();         Spider spider = new SpiderImpl();    

上个月全职工作(含加班费)18000,靠,加班费也要交税

问题描述 上个月全职工作(含加班费)18000,靠,加班费也要交税,一起交了2620的税,坑爹吖.上次哪个家伙说在北京7500要有安全感,算了吧?哥在上海,这个水平,我也没有安全感,还在一边做兼职赚钱,就是要赚钱.顺便说下,哥是86年的娃,一在家外企做IT软件开发.85后的,赚多少有安全感? 解决方案 解决方案二:其实我想交一亿元的税.只不过不给机会啊.解决方案三:上海待遇就是不错解决方案四:爷就是讨厌你这样的!有多少本事拿出来说说,扯蛋没用的.爷是在读博士,导师每月给生活费800,你18000

java开源项目研究 1. 引子

项目       一夜之间,开源项目仿佛无处不在,几乎覆盖了包括操作系统.网络通讯.桌面环境.教育.办公.安全.文字处理.数据库.中间件.应用娱乐在内的所有软件类型.在最大的开源项目发布平台www.sourceforge.net上,已经有近十万件开源项目,并且每天都有更多新的开源项目加入.而著名的www.apache.org则为大家奉献了Apache.Tomcat.Struts .Axis等.       开源运动是程序员对智慧成果共享.自由的追求,每天都有无数程序员为开源世界添砖加瓦,还有更多

java开源项目研究

项目 一夜之间,开源项目仿佛无处不在,几乎覆盖了包括操作系统.网络通讯.桌面环境.教育.办公.安全.文字处理.数据库.中间件.应用娱乐在内的所有软件类型.在最大的开源项目发布平台www.sourceforge.net上,已经有近十万件开源项目,并且每天都有更多新的开源项目加入.而著名的www.apache.org则为大家奉献了Apache.Tomcat.Struts .Axis等. 开源运动是程序员对智慧成果共享.自由的追求,每天都有无数程序员为开源世界添砖加瓦,还有更多的程序员在学习开源软件的

没有这个黑客 就没有开源软件

你的手机.你家的电视机顶盒.甚至你取款的 ATM,都是基于林纳斯·托瓦兹做的 Linux 系统改的.幸好他也是不收专利费. 他是谁:林纳斯·托瓦兹(Linus Torvalds,1969- ),他是开源系统 Linux 的创造者,一个热爱自由的黑客.你现在用的电子产品,或多或少都跟这个人做的操作系统有关系.好奇心:林纳斯·托瓦兹说,他的成功主要是因为他很懒,而且喜欢授权别人.这个认为娱乐价值高于商业的黑客,成了我们大部分科技产品的源头. 如果不是这位讨厌知识产权的黑客,我们现在的电脑.手机.电视

没有这个黑客,就不会有你现在用的开源软件

他是谁:林纳斯·托瓦兹(Linus Torvalds,1969- ),他是开源系统Linux的创造者,一个热爱自由的黑客.你现在用的电子产品,或多或少都跟这个人做的操作系统有关系. 好奇心:林纳斯·托瓦兹说,他的成功主要是因为他很懒,而且喜欢授权别人.这个认为娱乐价值高于商业的黑客,成了我们大部分科技产品的源头. 如果不是这位讨厌知识产权的黑客,我们现在的电脑.手机.电视机,甚至是 ATM 机都不会是现在这个样子--事实上,如果没有林纳斯·托瓦兹(Linus Torvalds)创造的 Linux