htmlparser解析网页title的问题

问题描述

packagecalf.study.htmlparser;importorg.htmlparser.Node;importorg.htmlparser.NodeFilter;importorg.htmlparser.Parser;importorg.htmlparser.filters.HasAttributeFilter;importorg.htmlparser.filters.TagNameFilter;importorg.htmlparser.util.NodeIterator;importorg.htmlparser.util.NodeList;publicclassTestHtmlParser{publicstaticvoidmain(String[]args)throwsException{Parserp=newParser();p.setURL("http://127.0.0.1:8080/love/20130801/44.html");p.setEncoding("UTF-8");NodeFiltertitleFilter=newTagNameFilter("title");NodeFilterfilterID=newHasAttributeFilter("id");p.parse(titleFilter);NodeListnodeList=p.extractAllNodesThatMatch(titleFilter);if(nodeList!=null&&nodeList.size()>0){Nodenode=nodeList.elementAt(0);Stringtitle=node.toPlainTextString();System.out.println("网页标题："+title);}else{System.out.println("无法匹配网页标题！");}//p.reset();System.out.println("*****************************");System.out.println(p.getURL());System.out.println(p.getEncoding());}}有上面一段代码，使用htmlparser解析网页。想获取网页title但是得不到想要的结果。运行结果如下：无法匹配网页标题！*****************************http://127.0.0.1:8080/love/20130801/44.htmlUTF-8谁知道是什么原因？

解决方案

解决方案二：
importorg.htmlparser.Parser;importorg.htmlparser.visitors.HtmlPage;publicclassTestHtmlParser{publicstaticvoidmain(String[]args)throwsException{Parserp=newParser();p.setURL("http://www.sina.com.cn/");p.setEncoding("UTF-8");HtmlPagepage=newHtmlPage(p);p.visitAllNodesWith(page);Stringtitle=page.getTitle();System.out.println(title);}}

打印：新浪首页

时间： 2024-11-05 18:31:05

htmlparser解析网页title的问题的相关文章

Python中使用HTMLParser解析html实例_python

前几天遇到一个问题,需要把网页中的一部分内容挑出来,于是找到了urllib和HTMLParser两个库.urllib可以将网页爬下来,然后交由HTMLParser解析,初次使用这个库,在查官方文档时也遇到了一些问题,在这里写下来与大家分享. 一个例子复制代码代码如下: from HTMLParser import HTMLParser class MyHTMLParser(HTMLParser): def handle_starttag(self, tag, attrs): pr

SEO基础老调重弹如何写一个高质量的网页Title

网页的Title即网页的标题,到底该怎么写?怎样写才算是一个优秀的Title? Title的质量高低直接决定了点击率和用户打开你网站的期望值. 首先我们来看一看Title 是什么,如下图: 在搜索引擎结果里,我用红色框住的就是 Title,百度的结果直接根据我搜索的关键词"网页title是什么" 把其中的网页title啥给标红了,到这里,我相信,给网站做SEO排名,你应该发现了 Title 写的好不好对SEO的重要程度了.那么Title在哪里写呢?首先来看一下网页标题 Tit

SEO优化赢在网页title

标题是网页优化第一位的因素,是搜索引擎判断页面相关性最重要的提示,尤其是首页title(标题),可以说一个成功的title是SEO结构优化成功的一半,所以title优化不容忽视,以下是我总结的一些优化网页title经验,希望大家赢在SEO先赢在网页title. 一.网页标题不重复在同一个网站内,主题相同,不同页面具体内容也不会相同,所以页面标题也不能重复,那么每个页面都需要有自己独特的标题标签.重复的标题对搜索引擎极不友好,也是我们站长非常容易犯的错误之一.尤其在频道翻页上,重复标题极为常见,

利用Jsoup解析网页及抓取数据的简单应用

最近一直在公司利用爬虫技术,去抓取一些网页查询网站备案信息,刚开始使用HttpClient 和 jericho (这两个也挺好用你可以去测试一下).但是后来发现了Jsoup,他和Jquery很相似,在搜节点上使用的技术几乎相似.所以凡是使用过Jquery的都可以去尝试使用Jsoup去解析抓取数据.下面举个例子我们去抓去所有公交车的信息(哥是郑州的哈). 在解析之前你需要jar包,你可以去http://jsoup.org/直接下载.如果使用maven更方便只需引进依赖例如 <dependenc

jsoup解析网页时“www”变成“m”的问题

问题描述 jsoup解析网页时"www"变成"m"的问题 1C Document doc = Jsoup.connect(website).get();其中 website=""http://www.huxiu.com/photo"".这个网址可以打开.但是解析后报这样的错: org.jsoup.HttpStatusException: HTTP error fetching URL. Status=404 URL=http:

jsoup-JSoup 解析网页时候遇到div有很多的标签，然后就卡壳了

问题描述 JSoup 解析网页时候遇到div有很多的标签,然后就卡壳了 http://www.oschina.net/question/1863482_211959 问题链接

编码-httpparser解析网页乱码

问题描述 httpparser解析网页乱码 2C 解析百度一个网页,setEncoding()的编码是和网页上的charset上的编码一致,而且把网页下载到本地是正常的,但是解析的时候出现乱码解决方案字符编码与网页乱码BeautifulSoup 解析中文网页乱码问题java 抓取网页乱码问题处理

JS实现超简洁网页title标题跑动闪烁提示效果代码_javascript技巧

本文实例讲述了JS实现超简洁网页title标题跑动闪烁提示效果代码.分享给大家供大家参考,具体如下: 这里演示不几行JS代码实现的网页Title文字跑动效果,类似有消息时的标题闪烁提醒功能,在JS代码中,当变量_record累加到3是,将其赋值为1.相当于无限循环.需要显示的消息提示内容可自拟哦. 运行效果截图如下: 在线演示地址如下: http://demo.jb51.net/js/2015/js-title-blink-style-codes/ 具体代码如下: <html xmlns="

软件开发-安卓，jsoup，解析网页中的javascript的内容，提取信息

问题描述安卓,jsoup,解析网页中的javascript的内容,提取信息开发-安卓,jsoup,解析网页中的javascript的内容,提取信息-jsoup解析javascript"> 这个是网页地址:http://www.bilibili.com/mobile/subchannel.html#tid=33 以下是抓取到的网页源码,以图片发出,实在不好意思了,可是好像因为这个而发不出来了,现在安全起见还是以图片的形式发出,或者可以上该链接获取,我是用ie仿真为windows phon

猜你喜欢

WEBJX收集12个非常有创意的JavaScript小游戏

JavaScript 在Web开发过程中已经是必不可少的重要分子,他推动着Web的交互性往越来越高的层次发展,现在的很多Web游戏也基于这类语言开发. 这里是12个非常有创意的JavaScript小游 ...

使用 ASP.NET 语法创建 Web 服务器控件模板

asp.net|web|创建|服务器|控件|模板|语法在 .aspx 文件中,将元素插入到控件中标识正在创建的模板: <asp:DataList id="DataList1&q ...

设计观点：搜集设计线索和搜集客户资料

以下场景至今仍然在我们的设计服务过程中比比皆是: 客户:"请你帮我设计一个网站吧!"设计师:"好的,请给我设计需求和项目计划."客户:"我们需要一个比 ...

返回多个记录集的存储过程-ASP调用存储过程

存储过程|记录集本文最先介绍的是返回记录集的存储过程.有时候,需要一个存储过程返回多个记录集,在ASP中,如何同时取得这些记录集呢?为了说明这一问题,在userinfo表中增加两个字段:userte ...

DirectX9 3D 快速上手 6

讲了很多,最基础的部分就剩下纹理没有讲到了.Texture是Directx里面非常重要的一部分.为了简便起见,我们还是以SDK的Tutorial5为例子. 纹理就像一张墙纸,用来贴在物体的表面,当然, ...

借花献佛来实现站内优化的三个技巧

如何合理的进行seo优化对于网络营销是十分重要的,我们在seo的理论学习和实际操作中,有很多东西都需要学习和借鉴别人的经验,但是借鉴也要讲究一定的方法,借鉴绝对不是简单的照抄照搬,我们需要分析别人se ...

DotNET(C#) Socket基本编程

编程 Socket基本编程服务端: using System.Net; using System.Net.Sockets; using System.Text; using System.Threa ...

linux系统编程之进程（二） fork函数相关总结

fork的作用是根据一个现有的进程复制出一个新进程,原来的进程称为父进程(Parent Process),新进程称为子进程(Child Process).系统中同时运行着很多进程,这些进程都是从最初只 ...

php中命名空间namespace用法介绍

现在说这个,感觉有点过时了,但是感觉用namespace的人还是不多,估计还是因为不习惯吧. class把一个一个function组织起来,namespace可以理解成把一个一个class,fun ...

Lightroom如何裁剪图片？

Lightroom软件是当下数字拍摄工作流程中不可或缺的一部分,适合专业摄影师输入.选择.修改和展示大量的数字图像的高效软件.今天小编给大家带来的是Lightroom如何裁剪图片,下面请跟随小编一 ...

ubuntu从普通用户切换到root用户

一.使用sudo命令来完成root权限操作这种方法是最简单的,就是在命令前加一个sudo命令即可. 二.从普通用户与root用户之间的切换如果你是第一次从普通用户切换到root用户,首先需要建 ...

Windows 8.1 Update 1上手

Windows 8.1 Update 1已经完成得差不多了,而该团队接下来的工作,也应该只剩下bug修复和微调了.对于桌面和平板用户来说,Update 1均带来了诸多变动和新特性,而本视频就是帮你 ...

WinXP怎么运行Chkdsk工具

WinXP怎么运行Chkdsk工具?Chkdsk的全称是Checkdisk,就是磁盘检查的意思.最近,使用WinXP系统用户的电脑在桌面右下角出现了损坏文件,请运行Chkdsk工具的提示.这是怎么 ...

网易cc怎么快速解散自己的频道

房间总共分为三级频道,房间大厅为主频道,在没有设置接待频道的情况下,任何玩家进入房间时,都会进入到主频道下. 主频道下可设置子频道,子频道下可设置二级子频道,每个频道还可以单独设置密码,以及进入频 ...

如何在Mac上安装Windows 10预览版

本月初,微软正式发布了Windows 10系统及首个预览版,供所有用户下载体验.经过我们测试,Windows 10在数年前的酷睿2笔记本上依然可以流畅运行,同时针对不同设备的版本划分更加清晰,尤其 ...

《NoSQL权威指南》——1.5 CAP定理

1.5 CAP定理 2000年,Eric Brewer在ACM分布式计算原理主题研讨会做了主题演讲,并介绍了CAP定理(也称Brewer定理).2002年,在麻省理工学院的Seth Gilbert和N ...

最简单易懂的GAN（生成对抗网络）教程：从理论到实践（附代码）

之前 GAN网络是近两年深度学习领域的新秀,火的不行,本文旨在浅显理解传统GAN,分享学习心得.现有GAN网络大多数代码实现使用Python.torch等语言,这里,后面用matlab搭建一个简单 ...

Android技术周报_W10

文章 1. 天猫导购页面动态化方案与实践-Tangram 重运营的业务特别是电商业务,往往讲究灵活多变,需要对线上业务做实时调整,此类页面动态化的需求便应运而生.Tangram就是为了解决这些问题,我 ...

中断ORACLE数据库关闭进程导致错误案例

昨晚下班的时候,我准备关闭本机的虚拟机上的ORACLE数据库后准备下班,但是由于我SecureCRT开了多个窗口,结果一不小心,疏忽之下在一个生产服务器上执行了shutdown immediate命 ...

FFmpeg解码高分辨率rtsp花屏

问题描述 FFmpeg解码高分辨率rtsp花屏低分辨率没啥问题,1600×1200出现花屏如图. 有人遇到类似情况吗?如何解决? 解决方案自己解决了该问题,官网下载最新的编译好的库即可.http: ...

android-如何以程序化的方式改变Activity 的主题

问题描述如何以程序化的方式改变Activity 的主题在特殊情况下,我需要从 Activity 中删除对话框主题,就下面这个例子,如何实现呢? First activity: public voi ...

计算机组成原理中的问题

问题描述计算机组成原理中的问题某机字长32位,存储容量为1MB若按字编码,他的寻址范围是多少?某机字长32位,存储容量为16MB若按双字编码,他的寻址范围是多少? 某机字长16位,存储容量为64k ...

Android学习笔记(2)：看一个XML文件

我们来开始第一个Android应用使用Android Studio开发Android应用大致分为如下3步: 1. 创建一个Android项目或Android模块. 2. 在XML布局本件中定义应 ...

cmd del命令文件删除_DOS/BAT

del命令的用法很简单,使用 "del 文件路径" 的格式就可以了.比如,想删除D盘根目录下的test.txt,使用del d:\test.txt即可. 但是,并不是所有的文件都可 ...

Seo优化的必然性

中介交易 SEO诊断淘宝客云主机技术大厅随着社会经济的发展,计算机已经成为人们生活当中不可或缺的一部分.网上购物,网上订餐,网上订票--等等一系列的活动无时无刻都离不开网络.因此,网络的不断发 ...

sap abap中ALV表的下拉菜单显示的默认值用什么参数控制？

问题描述 DATA:LW_TABIXTYPESY-TABIX,LTH_T001LIKELINEOFITAB,LTH_LISTTYPELVC_S_DROP.LOOPATITABINTOLTH_T001. ...

ArcGIS API for Silverlight 调用GP服务准备---GP模型建立、发布、测试

原文:ArcGIS API for Silverlight 调用GP服务准备---GP模型建立.发布.测试 ...

2017，我来了

提笔忘字,但基于每年的流程年终还是要写点什么的,我本身是一个朴素的程序员,没有煽情的文笔,纵使词不达意,唯有朴实感情留下这一年的感触. 关于自己忘记了是什么时候买了练字贴,偶尔用过那么几次就静静的躺 ...

惠普再出方案仍遭质疑多数问题电脑不涉及

多数问题电脑竟不包括在计划之内在经过紧急研究之后,惠普中国公司在上周六公布了对问题笔记本电脑的具体解决方案,包括某种型号的电脑在遇到什么样的情况下可以得到惠普公司的某种服务,以及一些型号问题电脑在可 ...

服务器连接-安卓开发怎么与服务器进行连接

问题描述安卓开发怎么与服务器进行连接在编写安卓开发写了一个app 请教一个问题代码写好了在阿里云买了服务器在配置好了windows 2008 server环境后接下去该做什么才能把app ...

热搜

© 2024 iVAN | info#iamivan.net | 12 q. 0.023 s.