HttpClient抓取网页的两种方式_应用技巧

一、利用NodeFilter对网页进行分析

1、生成一个Parser
a.通过url提取网络上的网页

复制代码 代码如下:

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件
通过读文件把网页文件转化成字符串;

复制代码 代码如下:

Parser parser=Parser.createParser(html,charset);

2、利用NodeFilter做一个filter
a.利用Tag Name
NodeFilter filter=new TagNameFilter("IMG");
b.利用Tag Class
NodeFilter filter = new NodeClassFilter(ImageTag.class);

3、通过匹配filter,得到所有符合条件的Tag
NodeList list=parser.extractAllNodesThat(filter);
for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合条件的Tag 内容
如果针对具体情况进行更加详细的处理,则:

复制代码 代码如下:

ImageTag imageTag=(ImageTag)list.elementAt(i);
…………
}

然后根据需要做相应的处理。

二、利用Visitor对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页

复制代码 代码如下:

Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");

b.提取本地网页文件
通过读文件把网页文件转化成字符串;

复制代码 代码如下:

Parser parser=Parser.createParser(html,charset);

2、用visitor访问页面

复制代码 代码如下:

ex:ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);

3、通过特定的visitor得到符合条件的Tag

复制代码 代码如下:

Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}

时间: 2024-08-03 06:13:33

HttpClient抓取网页的两种方式_应用技巧的相关文章

ASP.NET Razor模板引擎中输出Html的两种方式_实用技巧

本文实例讲述了ASP.NET Razor模板引擎中输出Html的两种方式.分享给大家供大家参考,具体如下: Razor中所有的Html都会自动编码,这样就不需要我们手动去编码了(安全),但在需要输出Html时就是已经转义过的Html文本了,如下所示: @{ string thisTest = "<span style=\"color:#f00;\">qubernet</span>"; } @thisTest; 这样在页面输出的文本就是:<

asp.net操作javascript:confirm返回值的两种方式_实用技巧

在asp.net中使用confirm可以分为两种: 1.没有使用ajax,confirm会引起也面刷新 2.使用了ajax,不会刷新 A.没有使用ajax,可以用StringBuilder来完成. (一)asp.net用StringBuilder控制后台操作javascript:confirm返回值,此方法比较烦琐 1.后台启动事件 StringBuilder sb = new StringBuilder(); sb.Append("<script language='javascript

.net后台代码调用前台JS的两种方式_实用技巧

1   这种方式只能调用简单的JS代码.不能调用自定义的函数. 复制代码 代码如下:           string jss = "<script language='javascript' type='text/javascript'>  alert('hello')</script>";          Response.Write(jss); 2   通用方法.其中的的 mya()是前台 代码 中自定义的一个函数.           (1)    复

PHP的cURL库功能简介 抓取网页、POST数据及其他_php技巧

无论是你想从从一个链接上取部分数据,或是取一个XML文件并把其导入数据库,那怕就是简单的获取网页内容,反应釜cURL 是一个功能强大的PHP库.本文主要讲述如果使用这个PHP库. 启用 cURL 设置 首先,我们得先要确定我们的PHP是否开启了这个库,你可以通过使用php_info()函数来得到这一信息. 复制代码 代码如下: <?php phpinfo(); ?> 如果你可以在网页上看到下面的输出,那么表示cURL库已被开启. 如果你看到的话,那么你需要设置你的PHP并开启这个库.如果你是在

javascript记住用户名和登录密码(两种方式)_javascript技巧

下面主要通过代码给大家展示下javascript记住用户名和登录密码,具体代码内容请看下文. 第一种方式: CONTENT     login.html     welcome.html     cookie.js     common.jslogin.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-tr

javascript面向对象之访问对象属性的两种方式分析_javascript技巧

本文实例分析了javascript面向对象之访问对象属性的两种方式.分享给大家供大家参考.具体如下: javascript面向对象的访问对象属性的两种方式.如下代码所示: 复制代码 代码如下: <script language="javascript" type="text/javascript"> function Person(){}; var p1 = new Person(); p1.name="王美人"; document.

JS脚本根据手机浏览器类型跳转WAP手机网站(两种方式)_javascript技巧

随着移动互联网的不断普及,企业的网络宣传不仅只局限在PC端,还要在移动端发展.我们在自己的网站做了WAP手机完整之后,如果有用户通过手机访问我们的企业顶级域名网站,就要判断跳转到专为的WAP网站,下面小编通过两种方式介绍根据手机浏览器类型跳转WAP手机网站,具体内容如下. 第一种方式:直接JS脚本 <script type="text/javascript"> try { var urlhash = window.location.hash; if (!urlhash.ma

关于URL URLCONNECTION或httpclient抓取网页全部内容时,中文丢失问题

问题描述 比如我抓取下来的内容应该是<li>唱片公司:环球音乐</li>,结果用httpclient抓下来之后变成<li>唱片公司:环球音乐</li>用URL或者UrlConnection也一样的问题,直接右键查看网页源代码也是这样的问题...求解 问题补充:谢谢maowei009,但是我把环球音乐贴进记事本,然后用ie或者火狐打开,可以正常显示"环球音乐"四个字,求解,这是何种编码格式?在google中贴这些也能正常显示中文....头大

C#实现HTTP协议迷你服务器(两种方法)_实用技巧

本文以两种稍微有差别的方式用C#语言实现HTTP协议的服务器类,之所以写这些,也是为了自己能更深刻了解HTTP底层运作. 要完成高性能的Web服务功能,通常都是需要写入到服务,如IIS,Apache Tomcat,但是众所周知的Web服务器配置的复杂性,如果我们只是需要一些简单的功能,安装这些组件看起来就没多大必要.我们需要的是一个简单的HTTP类,可以很容易地嵌入到简单的Web请求的服务,加到自己的程序里. 实现方法一: .net框架下有一个简单但很强大的类HttpListener.这个类几行