问题描述
需要找出html文档中的title标签的内容,我用<title>正则表达式匹配了不少网站的网页。但是有一些网页用正则表达式就是找不到title标签,PatternTrim4=Pattern.compile("<\/title>");Html源码打开来看绝对是匹配的,怀疑是编码问题,试了utf,gb2312,unicode也不行,现在头大的很,哎。希望各位大虾遇到过类似情况的帮下忙。
解决方案
解决方案二:
你把能不能把所有的网页转成utf8格式...然后再做比较或者你看下不能匹配的网页与能匹配的网页之间的区别
解决方案三:
小弟你RP问题~...看看哥哥的代码
解决方案四:
不是人品问题吧,我看了下,就是凤凰网的网页特殊,怎么都匹配不了title,其他网站都可以匹配,也是utf-8,而且我提取新闻内容,直接给我乱码,真的是崩溃。
解决方案五:
靠,还是自己解决了,网站上的编码是utf-8的,存到本地就是gb2312,其实已经全乱了,有类似经历的朋友们注意啦。
时间: 2024-10-22 04:29:59