htmlparser解析网页title的问题

问题描述

packagecalf.study.htmlparser;importorg.htmlparser.Node;importorg.htmlparser.NodeFilter;importorg.htmlparser.Parser;importorg.htmlparser.filters.HasAttributeFilter;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.util.NodeIterator;importorg.htmlparser.util.NodeList;publicclassTestHtmlParser{publicstaticvoidmain(String[]args)throwsException{Parserp=newParser();p.setURL("http://127.0.0.1:8080/love/20130801/44.html");p.setEncoding("UTF-8");NodeFiltertitleFilter=newTagNameFilter("title");NodeFilterfilterID=newHasAttributeFilter("id");p.parse(titleFilter);NodeListnodeList=p.extractAllNodesThatMatch(titleFilter);if(nodeList!=null&&nodeList.size()>0){Nodenode=nodeList.elementAt(0);Stringtitle=node.toPlainTextString();System.out.println("网页标题:"+title);}else{System.out.println("无法匹配网页标题!");}//p.reset();System.out.println("*****************************");System.out.println(p.getURL());System.out.println(p.getEncoding());}}有上面一段代码,使用htmlparser解析网页。想获取网页title但是得不到想要的结果。运行结果如下:无法匹配网页标题!*****************************http://127.0.0.1:8080/love/20130801/44.htmlUTF-8谁知道是什么原因?

解决方案

解决方案二:
importorg.htmlparser.Parser;importorg.htmlparser.visitors.HtmlPage;publicclassTestHtmlParser{publicstaticvoidmain(String[]args)throwsException{Parserp=newParser();p.setURL("http://www.sina.com.cn/");p.setEncoding("UTF-8");HtmlPagepage=newHtmlPage(p);p.visitAllNodesWith(page);Stringtitle=page.getTitle();System.out.println(title);}}

打印:新浪首页

时间: 2024-11-05 18:31:05

htmlparser解析网页title的问题的相关文章

Python中使用HTMLParser解析html实例_python

前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来与大家分享. 一个例子 复制代码 代码如下: from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser):   def handle_starttag(self, tag, attrs):     pr

SEO基础老调重弹 如何写一个高质量的网页Title

网页的Title即网页的标题,到底该怎么写?怎样写才算是一个优秀的Title? Title的质量高低直接决定了点击率和用户打开你网站的期望值. 首先我们来看一看Title 是什么,如下图:   在搜索引擎结果里,我用红色框住的 就是 Title,百度的结果直接根据我搜索的关键词"网页title是什么" 把其中的 网页title啥 给标红了,到这里,我相信,给网站做SEO排名,你应该发现了 Title 写的好不好对SEO的重要程度了.那么Title在哪里写呢?首先来看一下网页标题 Tit

SEO优化 赢在网页title

标题是网页优化第一位的因素,是搜索引擎判断页面相关性最重要的提示,尤其是首页title(标题),可以说一个成功的title是SEO结构优化成功的一半,所以title优化不容忽视,以下是我总结的一些优化网页title经验,希望大家赢在SEO先赢在网页title. 一.网页标题不重复 在同一个网站内,主题相同,不同页面具体内容也不会相同,所以页面标题也不能重复,那么每个页面都需要有自己独特的标题标签.重复的标题对搜索引擎极不友好,也是我们站长非常容易犯的错误之一.尤其在频道翻页上,重复标题极为常见,

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便 只需引进依赖 例如 <dependenc

jsoup解析网页时“www”变成“m”的问题

问题描述 jsoup解析网页时"www"变成"m"的问题 1C Document doc = Jsoup.connect(website).get();其中 website=""http://www.huxiu.com/photo"".这个网址可以打开.但是解析后报这样的错: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404 URL=http:

jsoup-JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了

问题描述 JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了 http://www.oschina.net/question/1863482_211959 问题链接

编码-httpparser解析网页乱码

问题描述 httpparser解析网页乱码 2C 解析百度一个网页,setEncoding()的编码是和网页上的charset上的编码一致,而且把网页下载到本地是正常的,但是解析的时候出现乱码 解决方案 字符编码与网页乱码BeautifulSoup 解析中文网页乱码问题java 抓取网页乱码问题处理

JS实现超简洁网页title标题跑动闪烁提示效果代码_javascript技巧

本文实例讲述了JS实现超简洁网页title标题跑动闪烁提示效果代码.分享给大家供大家参考,具体如下: 这里演示不几行JS代码实现的网页Title文字跑动效果,类似有消息时的标题闪烁提醒功能,在JS代码中,当变量_record累加到3是,将其赋值为1.相当于无限循环.需要显示的消息提示内容可自拟哦. 运行效果截图如下: 在线演示地址如下: http://demo.jb51.net/js/2015/js-title-blink-style-codes/ 具体代码如下: <html xmlns="

软件开发-安卓,jsoup,解析网页中的javascript的内容,提取信息

问题描述 安卓,jsoup,解析网页中的javascript的内容,提取信息 开发-安卓,jsoup,解析网页中的javascript的内容,提取信息-jsoup解析javascript"> 这个是网页地址:http://www.bilibili.com/mobile/subchannel.html#tid=33 以下是抓取到的网页源码,以图片发出,实在不好意思了,可是好像因为这个而发不出来了,现在安全起见还是以图片的形式发出,或者可以上该链接获取,我是用ie仿真为windows phon